llama-cpp-api

Runtime error

toaster61 commited on Oct 4, 2023

Commit

5d264d1

1 Parent(s): a526b93

strange things

it will work when clonned and runned locally
why it doesnt run in hf's docker?
shall i try to make gradio repo, not docker?

Files changed (4) hide show

.gitignore +6 -1
Dockerfile +4 -4
gradio_app.py +22 -22
run-docker.sh +1 -1

.gitignore CHANGED Viewed

@@ -1,4 +1,9 @@
-# BASIC PYTHON .GITIGNORE
 # Byte-compiled / optimized / DLL files
 __pycache__/

+# BASIC PYTHON .GITIGNORE + some for testing
+# ignoring test files for testing repo
+flagged/
+translator/
+model.bin
 # Byte-compiled / optimized / DLL files
 __pycache__/

Dockerfile CHANGED Viewed

@@ -25,8 +25,8 @@ RUN ls
 # You can use other models! Or u can comment this two RUNs and include in Space/repo/Docker image own model with name "model.bin".
 # Updating pip and installing everything from requirements
-RUN python3 -m pip install -U --no-cache-dir pip setuptools wheel
-RUN pip install --no-cache-dir --upgrade -r /app/requirements.txt
-# Now it's time to run Quart app using uvicorn! (It's faster, trust me.)
-CMD ["gradio", "gradio_app.py"]

 # You can use other models! Or u can comment this two RUNs and include in Space/repo/Docker image own model with name "model.bin".
 # Updating pip and installing everything from requirements
+RUN python3 -m pip install -U pip setuptools wheel
+RUN pip install --upgrade -r /app/requirements.txt
+# Now it's time to run Gradio app!
+CMD ["python", "gradio_app.py"]

gradio_app.py CHANGED Viewed

@@ -5,23 +5,23 @@ import gradio as gr
 import psutil
 # Initing things
-#print("! DOWNLOADING TOKENIZER AND SETTING ALL UP !")
-#translator_tokenizer = M2M100Tokenizer.from_pretrained(            # tokenizer for translator
-#    "facebook/m2m100_418M", cache_dir="translator/"
-#)
-#print("! DOWNLOADING MODEL AND SETTING ALL UP !")
-#translator_model = M2M100ForConditionalGeneration.from_pretrained( # translator model
-#    "facebook/m2m100_418M", cache_dir="translator/"
-#)
-#print("! SETTING MODEL IN EVALUATION MODE !")
-#translator_model.eval()
 print("! INITING LLAMA MODEL !")
 llm = Llama(model_path="./model.bin")                              # LLaMa model
 llama_model_name = "TheBloke/Llama-2-13B-chat-GGUF"
 print("! INITING DONE !")
 # Preparing things to work
-#translator_tokenizer.src_lang = "en"
 title = "llama.cpp API"
 desc = '''<style>a:visited{color:black;}</style>
 <h1>Hello, world!</h1>
@@ -56,15 +56,15 @@ def generate_answer(request: str, max_tokens: int = 256, language: str = "en", c
         text = output["choices"][0]["text"]
         # i allowed only certain languages (its not discrimination, its just other popular language on my opinion!!!):
         # russian (ru), ukranian (uk), chinese (zh)
-        #if language in ["ru", "uk", "zh"]:
-            #encoded_input = translator_tokenizer(output, return_tensors="pt")
-            #generated_tokens = translator_model.generate(
-            #    **encoded_input, forced_bos_token_id=translator_tokenizer.get_lang_id(language)
-            #)
-            #translated_text = translator_tokenizer.batch_decode(
-            #    generated_tokens, skip_special_tokens=True
-            #)[0]
-            #return translated_text
         return text
     except Exception as e:
         print(e)
@@ -83,6 +83,6 @@ demo = gr.Interface(
     title=title,
     description=desc
 )
-#demo.queue()
 print("! LAUNCHING GRADIO !")
-demo.launch()

 import psutil
 # Initing things
+print("! DOWNLOADING TOKENIZER AND SETTING ALL UP !")
+translator_tokenizer = M2M100Tokenizer.from_pretrained(            # tokenizer for translator
+    "facebook/m2m100_418M", cache_dir="translator/"
+)
+print("! DOWNLOADING MODEL AND SETTING ALL UP !")
+translator_model = M2M100ForConditionalGeneration.from_pretrained( # translator model
+    "facebook/m2m100_418M", cache_dir="translator/"
+)
+print("! SETTING MODEL IN EVALUATION MODE !")
+translator_model.eval()
 print("! INITING LLAMA MODEL !")
 llm = Llama(model_path="./model.bin")                              # LLaMa model
 llama_model_name = "TheBloke/Llama-2-13B-chat-GGUF"
 print("! INITING DONE !")
 # Preparing things to work
+translator_tokenizer.src_lang = "en"
 title = "llama.cpp API"
 desc = '''<style>a:visited{color:black;}</style>
 <h1>Hello, world!</h1>
         text = output["choices"][0]["text"]
         # i allowed only certain languages (its not discrimination, its just other popular language on my opinion!!!):
         # russian (ru), ukranian (uk), chinese (zh)
+        if language in ["ru", "uk", "zh"]:
+            encoded_input = translator_tokenizer(text, return_tensors="pt")
+            generated_tokens = translator_model.generate(
+                **encoded_input, forced_bos_token_id=translator_tokenizer.get_lang_id(language)
+            )
+            translated_text = translator_tokenizer.batch_decode(
+                generated_tokens, skip_special_tokens=True
+            )[0]
+            return translated_text
         return text
     except Exception as e:
         print(e)
     title=title,
     description=desc
 )
+demo.queue()
 print("! LAUNCHING GRADIO !")
+demo.launch(server_name="0.0.0.0")

run-docker.sh CHANGED Viewed

@@ -2,4 +2,4 @@
 # Use it for tests. AND INSTALL DOCKER BEFORE U RUN IT!!!
 docker build -t llama-server .
-docker run -dp 0.0.0.0:7860:7860 llama-server

 # Use it for tests. AND INSTALL DOCKER BEFORE U RUN IT!!!
 docker build -t llama-server .
+docker run -p 0.0.0.0:7860:7860 llama-server