Spaces:

Serg4451D
/

gpt-oss-multimodal

Sleeping

App Files Files Community

Serg4451D commited on 4 days ago

Commit

e83b61c

verified ·

1 Parent(s): 20f2452

Create app.py

Browse files

Files changed (1) hide show

app.py +118 -0

app.py ADDED Viewed

	@@ -0,0 +1,118 @@

+import os
+import gradio as gr
+from gradio_client import Client, handle_file
+from openai import OpenAI
+# --- Конфиг ---
+NV_API_KEY = os.environ.get("NV_API_KEY")
+if not NV_API_KEY:
+    raise ValueError("В Secrets Hugging Face Spaces нужно задать NV_API_KEY")
+# Модель Florence-2
+florence = Client("gokaygokay/Florence-2")
+# Модель NVIDIA GPT-OSS-120B
+llm = OpenAI(
+    base_url="https://integrate.api.nvidia.com/v1",
+    api_key=NV_API_KEY
+)
+# --- Функции ---
+def get_caption(image_path):
+    """Делаем подробную подпись через Florence-2."""
+    try:
+        result = florence.predict(
+            image=handle_file(image_path),
+            task_prompt="More Detailed Caption",
+            text_input=None,
+            model_id="microsoft/Florence-2-large",
+            api_name="/process_image"
+        )
+        return result if isinstance(result, str) else str(result)
+    except Exception as e:
+        return f"[Ошибка при генерации подписи: {e}]"
+def chat_with_image(image_path, user_message, history):
+    """Отправляем в LLM запрос с учетом подписи от Florence-2."""
+    if not image_path:
+        return history + [[user_message, "Пожалуйста, загрузите изображение."]]
+    caption = get_caption(image_path)
+    system_prompt = (
+        "Ты — 'multimodal gpt-oss 120b', умный ассистент, который видит изображение.\n"
+        f"Подробная подпись к картинке:\n{caption}\n"
+        "Используй её, чтобы отвечать на вопросы пользователя."
+    )
+    history = history or []
+    history.append([user_message, ""])
+    # Стриминг ответа
+    response_text = ""
+    for chunk in llm.chat.completions.create(
+        model="openai/gpt-oss-120b",
+        messages=[
+            {"role": "system", "content": system_prompt},
+            {"role": "user", "content": user_message}
+        ],
+        temperature=0.8,
+        top_p=1,
+        max_tokens=1024,
+        stream=True
+    ):
+        delta = chunk.choices[0].delta
+        if delta.content:
+            response_text += delta.content
+            history[-1][1] = response_text
+            yield history
+# --- UI ---
+example_images = [
+    ["https://raw.githubusercontent.com/gradio-app/gradio/main/test/test_files/bus.png"],
+    ["https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/cats.png"],
+    ["https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/cheetah.jpg"],
+    ["https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/flowers.png"],
+]
+with gr.Blocks(theme=gr.themes.Soft()) as demo:
+    gr.Markdown(
+        "<h1 style='text-align:center'>🖼️ multimodal gpt-oss 120b</h1>"
+        "<p style='text-align:center'>Загружайте изображение или выберите из галереи — модель увидит его и ответит на вопросы.</p>"
+    )
+    with gr.Row():
+        with gr.Column(scale=4):
+            image_input = gr.Image(type="filepath", label="Загрузите или выберите картинку")
+            gallery = gr.Gallery(
+                value=example_images,
+                label="Примеры",
+                columns=4,
+                height="auto",
+                preview=True
+            )
+            user_input = gr.Textbox(label="Ваш вопрос", placeholder="Например: Что изображено на фото?")
+            send_btn = gr.Button("Отправить")
+        with gr.Column(scale=6):
+            chatbot = gr.Chatbot(label="Чат", height=500)
+            clear_btn = gr.Button("Очистить чат")
+    # Логика выбора картинки из галереи
+    def select_example(example):
+        return example[0]
+    gallery.select(select_example, inputs=[gallery], outputs=[image_input])
+    send_btn.click(
+        chat_with_image,
+        inputs=[image_input, user_input, chatbot],
+        outputs=[chatbot]
+    )
+    clear_btn.click(lambda: None, None, chatbot)
+# Запуск
+if __name__ == "__main__":
+    demo.launch()