Spaces:

Akbartus
/

ZeroShot-Image-Classification-Experimental

Runtime error

App Files Files Community

Akbartus commited on Oct 14, 2022

Commit

a609e95

1 Parent(s): 60e05f2

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -13

app.py CHANGED Viewed

@@ -1,28 +1,42 @@
 from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer
-import pytesseract as tsr
 from PIL import Image
 import sys, os
 import gradio as gr
-tsr.pytesseract.tesseract_cmd = r'/usr/bin/tesseract'
 model = M2M100ForConditionalGeneration.from_pretrained("facebook/m2m100_1.2B")
 tokenizer = M2M100Tokenizer.from_pretrained("facebook/m2m100_1.2B")
-def extractAndTranslate(image):
-    # Extract Text
-    extractedText = tsr.image_to_string(image, lang='eng')
-    extractedTextFormatted = ' '.join(extractedText.split('\n'))
-    # Translate
     tokenizer.src_lang = "en"
-    encodedText = tokenizer(extractedTextFormatted, return_tensors="pt")
     generatedTokens = model.generate(**encodedText, forced_bos_token_id=tokenizer.get_lang_id("ru"))
     return tokenizer.batch_decode(generatedTokens, skip_special_tokens=True)[0]
-demoApp = gr.Interface(extractAndTranslate, "image", "text")
-demoApp.launch()

 from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer
+from turtle import title
+from transformers import pipeline
+import numpy as np
 from PIL import Image
 import sys, os
 import gradio as gr
 model = M2M100ForConditionalGeneration.from_pretrained("facebook/m2m100_1.2B")
 tokenizer = M2M100Tokenizer.from_pretrained("facebook/m2m100_1.2B")
+pipe = pipeline("zero-shot-image-classification", model="openai/clip-vit-base-patch32")
+images="dog.jpg"
+def shot(image, labels_text):
+    PIL_image = Image.fromarray(np.uint8(image)).convert('RGB')
+    labels = labels_text.split(",")
+    res = pipe(images=PIL_image,
+           candidate_labels=labels,
+           hypothesis_template= "This is a photo of a {}")
+    return {dic["label"]: dic["score"] for dic in res}
+        # Translate
     tokenizer.src_lang = "en"
+    encodedText = tokenizer(candidate_labels, return_tensors="pt")
     generatedTokens = model.generate(**encodedText, forced_bos_token_id=tokenizer.get_lang_id("ru"))
     return tokenizer.batch_decode(generatedTokens, skip_special_tokens=True)[0]
+iface = gr.Interface(shot,
+                    ["image", "text"],
+                    "label",
+                    examples=[["dog.jpg", "dog,cat,bird"],
+                              ["germany.jpg", "germany,belgium,colombia"],
+                              ["colombia.jpg", "germany,belgium,colombia"]],
+                    description="Add a picture and a list of labels separated by commas",
+                    title="Zero-shot Image Classification")
+iface.launch()