Spaces:

vykanand
/

llama7bserver

Runtime error

vykanand commited on Jul 8

Commit

ef12370

1 Parent(s): 8785344

Remove Gradio, switch to FastAPI implementation

Files changed (2) hide show

README.md CHANGED Viewed

@@ -3,9 +3,56 @@ title: LLaMA 7B Server
 emoji: 🤖
 colorFrom: blue
 colorTo: purple
-sdk: gradio
-sdk_version: "4.17.0"
-app_file: app.py
 pinned: false
 ---

 emoji: 🤖
 colorFrom: blue
 colorTo: purple
+# LLaMA 7B Server
+A FastAPI-based server for interacting with the LLaMA 7B model.
+## Features
+- [x] Text generation
+- [x] Model parameters configuration
+- [x] REST API interface
+## API Usage
+Make a POST request to `/generate` with the following JSON body:
+```json
+{
+    "prompt": "your prompt here",
+    "max_length": 2048,
+    "num_beams": 3,
+    "early_stopping": true,
+    "no_repeat_ngram_size": 3
+}
+```
+Example using curl:
+```bash
+curl -X POST http://localhost:7860/generate \
+  -H "Content-Type: application/json" \
+  -d '{"prompt": "Hello, how are you?"}'
+```
+Example using Python:
+```python
+import requests
+url = "http://localhost:7860/generate"
+data = {
+    "prompt": "Hello, how are you?",
+    "max_length": 2048,
+    "num_beams": 3,
+    "early_stopping": True,
+    "no_repeat_ngram_size": 3
+}
+response = requests.post(url, json=data)
+result = response.json()
+print(result["generated_text"])  # This will contain your generated text
+```
 pinned: false
 ---

app.py CHANGED Viewed

@@ -18,33 +18,19 @@ class GenerationRequest(BaseModel):
     early_stopping: bool = True
     no_repeat_ngram_size: int = 3
-def generate(prompt: str, max_length: int = 2048, num_beams: int = 3, early_stopping: bool = True, no_repeat_ngram_size: int = 3):
-    inputs = tokenizer(prompt, return_tensors="pt").to(device)
     outputs = model.generate(
         **inputs,
-        max_length=max_length,
-        num_beams=num_beams,
-        early_stopping=early_stopping,
-        no_repeat_ngram_size=no_repeat_ngram_size,
         eos_token_id=tokenizer.eos_token_id,
         pad_token_id=tokenizer.pad_token_id,
     )
     output_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    return output_text
-iface = gr.Interface(
-    fn=generate,
-    inputs=gr.Textbox(lines=10, label="Input Prompt"),
-    outputs=gr.Textbox(label="Generated Output"),
-    title="LLaMA 7B Server",
-    description="A web interface for interacting with the LLaMA 7B model.",
-    allow_flagging="never",
-    api_open=True
-)
-@app.post("/generate")
-async def generate_text(request: GenerationRequest):
-    return {"generated_text": generate(**request.dict())}
     return {"generated_text": output_text}
 if __name__ == "__main__":

     early_stopping: bool = True
     no_repeat_ngram_size: int = 3
+@app.post("/generate")
+async def generate_text(request: GenerationRequest):
+    inputs = tokenizer(request.prompt, return_tensors="pt").to(device)
     outputs = model.generate(
         **inputs,
+        max_length=request.max_length,
+        num_beams=request.num_beams,
+        early_stopping=request.early_stopping,
+        no_repeat_ngram_size=request.no_repeat_ngram_size,
         eos_token_id=tokenizer.eos_token_id,
         pad_token_id=tokenizer.pad_token_id,
     )
     output_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return {"generated_text": output_text}
 if __name__ == "__main__":