Spaces:

nttdataspain
/

Image-To-Text-Lora-ViT

Runtime error

File size: 1,952 Bytes

84f3f84
a6a6318
355d287
 
 
84f3f84
e59dcf6
 
84f3f84
e59dcf6
 
 
355d287
57d4ed7
 
 
355d287
 
 
 
 
 
57d4ed7
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
953807b
e59dcf6
b922d45
3c6c7ef
953807b
e59dcf6
 
355d287
e59dcf6
333c77f
e59dcf6

import gradio as gr
import streamlit as st
import torch 
import re 
from transformers import AutoTokenizer, ViTFeatureExtractor, VisionEncoderDecoderModel 

# def greet(name):
#     return "Hello " + name + "!!"

# iface = gr.Interface(fn=greet, inputs="text", outputs="text")
# iface.launch()

device='cpu'
encoder_checkpoint = "ydshieh/vit-gpt2-coco-en"
decoder_checkpoint = "ydshieh/vit-gpt2-coco-en"
model_checkpoint = "ydshieh/vit-gpt2-coco-eng"
feature_extractor = ViTFeatureExtractor.from_pretrained(encoder_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(decoder_checkpoint)
model = VisionEncoderDecoderModel.from_pretrained(model_checkpoint).to(device)


def predict(image,max_length=64, num_beams=4):
    input_image = Image.open(image)
    model.eval()
    pixel_values = feature_extractor(images=[input_image], return_tensors="pt").pixel_values
    with torch.no_grad():
        output_ids = model.generate(pixel_values, max_length=16, num_beams=4, return_dict_in_generate=True).sequences
    preds = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
    preds = [pred.strip() for pred in preds]  
    return preds[0]
    
  # image = image.convert('RGB')
  # image = feature_extractor(image, return_tensors="pt").pixel_values.to(device)
  # clean_text = lambda x: x.replace('<|endoftext|>','').split('\n')[0]
  # caption_ids = model.generate(image, max_length = max_length)[0]
  # caption_text = clean_text(tokenizer.decode(caption_ids))
  # return caption_text 

# st.title("Image to Text using Lora")

inputs = gr.inputs.Image(label="Upload any Image", type = 'pil', optional=True)
output = gr.outputs.Textbox(type="text",label="Captions")
description = "NTT Data Bilbao team"
title = "Image to Text using Lora"

interface = gr.Interface(
        fn=predict,
        description=description,
        inputs = inputs,
        theme="grass",
        outputs=output,
        title=title,
    )
interface.launch(debug=True)