Spaces:

cong182
/

firstAI

Running

ndc8 commited on 13 days ago

Commit

8d962fd

1 Parent(s): 1f4eabe

Set gemma-3n-E4B-it-GGUF as main model for all text generation endpoints

Files changed (2) hide show

backend_service.py CHANGED Viewed

@@ -70,7 +70,7 @@ class ChatMessage(BaseModel):
         return v
 class ChatCompletionRequest(BaseModel):
-    model: str = Field(default="zephyr-7b-beta", description="The model to use for completion")
     messages: List[ChatMessage] = Field(..., description="List of messages in the conversation")
     max_tokens: Optional[int] = Field(default=512, ge=1, le=2048, description="Maximum tokens to generate")
     temperature: Optional[float] = Field(default=0.7, ge=0.0, le=2.0, description="Sampling temperature")
@@ -119,7 +119,7 @@ class CompletionRequest(BaseModel):
 # Global variables for model management
 inference_client: Optional[InferenceClient] = None
 image_text_pipeline = None  # type: ignore
-current_model = "microsoft/DialoGPT-medium"
 vision_model = "Salesforce/blip-image-captioning-base"  # Working model for image captioning
 tokenizer = None

         return v
 class ChatCompletionRequest(BaseModel):
+    model: str = Field(default="gemma-3n-E4B-it-GGUF", description="The model to use for completion")
     messages: List[ChatMessage] = Field(..., description="List of messages in the conversation")
     max_tokens: Optional[int] = Field(default=512, ge=1, le=2048, description="Maximum tokens to generate")
     temperature: Optional[float] = Field(default=0.7, ge=0.0, le=2.0, description="Sampling temperature")
 # Global variables for model management
 inference_client: Optional[InferenceClient] = None
 image_text_pipeline = None  # type: ignore
+current_model = "gemma-3n-E4B-it-GGUF"
 vision_model = "Salesforce/blip-image-captioning-base"  # Working model for image captioning
 tokenizer = None

requirements.txt CHANGED Viewed

@@ -3,8 +3,9 @@ huggingface_hub>=0.34.0
 transformers>=4.36.0
 torch>=2.0.0
 Pillow>=10.0.0
-requests>=2.31.0
 accelerate>=0.24.0
 fastapi>=0.100.0
 uvicorn[standard]>=0.23.0
 pydantic>=2.0.0

 transformers>=4.36.0
 torch>=2.0.0
 Pillow>=10.0.0
 accelerate>=0.24.0
+requests>=2.31.0
+# NOTE: GGUF models like 'gemma-3n-E4B-it-GGUF' must be downloaded manually or referenced from HuggingFace, not pip-installed.
 fastapi>=0.100.0
 uvicorn[standard]>=0.23.0
 pydantic>=2.0.0