Spaces:

asmashayea
/

absa-app

Sleeping

App Files Files Community

asmashayea commited on Jun 27

Commit

bfc4d6a

1 Parent(s): 5825fbe

o

Browse files

Files changed (3) hide show

app.py +1 -1
inference.py +5 -10
seq2seq_inference.py +9 -38

app.py CHANGED Viewed

@@ -15,7 +15,7 @@ demo = gr.Interface(
     ],
     outputs=gr.Textbox(label="Extracted Aspect-Sentiment-Opinion Triplets"),
     title="Arabic ABSA (Aspect-Based Sentiment Analysis)",
-    description="Choose a model (Araberta, mT5, mBART, GPT) to extract aspects, opinions, and sentiment using LoRA adapters"
 )
 if __name__ == "__main__":

     ],
     outputs=gr.Textbox(label="Extracted Aspect-Sentiment-Opinion Triplets"),
     title="Arabic ABSA (Aspect-Based Sentiment Analysis)",
+    description="Choose a model (Araberta, mT5, GPT) to extract aspects, opinions, and sentiment using LoRA adapters"
 )
 if __name__ == "__main__":

inference.py CHANGED Viewed

@@ -3,7 +3,7 @@ import json
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, AutoModel, AutoConfig
 from peft import LoraConfig, get_peft_model
 from modeling_bilstm_crf import BERT_BiLSTM_CRF
-from seq2seq_inference import infer_t5_prompt, infer_mBart_prompt
 from peft import LoraConfig, get_peft_model, PeftModel
 from modeling_bilstm_crf import BERT_BiLSTM_CRF
@@ -18,10 +18,6 @@ MODEL_OPTIONS = {
         "base": "google/mt5-base",
         "adapter": "asmashayea/mt4-absa"
     },
-    # "mBART": {
-    #     "base": "facebook/mbart-large-50-many-to-many-mmt",
-    #     "adapter": "asmashayea/mbart-absa"
-    # },
     "GPT3.5": {
         "base": "bigscience/bloom-560m",  # example, not ideal for ABSA
         "adapter": "asmashayea/gpt-absa"
@@ -131,17 +127,16 @@ def load_model(model_key):
     cached_models[model_key] = (tokenizer, model)
     return tokenizer, model
 def predict_absa(text, model_choice):
-    if model_choice == 'mT5':
         tokenizer, model = load_model(model_choice)
         decoded = infer_t5_prompt(text, tokenizer, model)
-    elif model_choice == 'mBART':
-        tokenizer, model = load_model(model_choice)
-        decoded = infer_mBart_prompt(text, tokenizer, model)
     elif model_choice == 'Araberta':
         decoded = infer_araberta(text)

 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, AutoModel, AutoConfig
 from peft import LoraConfig, get_peft_model
 from modeling_bilstm_crf import BERT_BiLSTM_CRF
+from seq2seq_inference import infer_t5_prompt
 from peft import LoraConfig, get_peft_model, PeftModel
 from modeling_bilstm_crf import BERT_BiLSTM_CRF
         "base": "google/mt5-base",
         "adapter": "asmashayea/mt4-absa"
     },
     "GPT3.5": {
         "base": "bigscience/bloom-560m",  # example, not ideal for ABSA
         "adapter": "asmashayea/gpt-absa"
     cached_models[model_key] = (tokenizer, model)
     return tokenizer, model
 def predict_absa(text, model_choice):
+    if model_choice in ['mT5', 'mBART']:
         tokenizer, model = load_model(model_choice)
         decoded = infer_t5_prompt(text, tokenizer, model)
     elif model_choice == 'Araberta':
         decoded = infer_araberta(text)

seq2seq_inference.py CHANGED Viewed

@@ -3,7 +3,6 @@ import torch
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from peft import PeftModel
-# Updated Prediction Function for mBART
 SYSTEM_PROMPT = (
     "You are an advanced AI model specialized in extracting aspects and determining their sentiment polarity from customer reviews.\n\n"
     "Instructions:\n"
@@ -19,38 +18,14 @@ SYSTEM_PROMPT = (
 )
-def infer_mBart_prompt(review_text, tokenizer, model):
-    # Set target language for mBART
-    tokenizer.tgt_lang = "ar_AR"  # Change as needed ("en_XX" for English)
-    prompt = f"{SYSTEM_PROMPT}\nReview: {review_text}"
-    inputs = tokenizer(prompt, return_tensors="pt", padding="max_length", truncation=True, max_length=512).to(model.device)
     with torch.no_grad():
-        outputs = model.generate(
-            **inputs,
-            max_new_tokens=128,
-            do_sample=False,
-            temperature=0.0,
-            forced_bos_token_id=tokenizer.convert_tokens_to_ids(tokenizer.tgt_lang),  # safer
-            pad_token_id=tokenizer.pad_token_id
-        )
-    decoded = tokenizer.decode(outputs[0], skip_special_tokens=True).replace("ar_AR ", "").replace("en_XX ", "").strip()
-    return decoded
-def infer_t5_prompt(review_text, tokenizer, model):
-    prompt = (
-        SYSTEM_PROMPT + f"\n\nReview: {review_text}"
-    )
-    inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True).to(model.device)
-    with torch.no_grad():
-        outputs = model.generate(
             **inputs,
             max_new_tokens=256,
             num_beams=4,
@@ -62,18 +37,14 @@ def infer_t5_prompt(review_text, tokenizer, model):
         )
     decoded = tokenizer.decode(
-        outputs[0],
-        skip_special_tokens=True,
         clean_up_tokenization_spaces=False
     ).strip()
-    # Optional: remove T5 special tokens like <extra_id_0>
     decoded = decoded.replace('<extra_id_0>', '').replace('</s>', '').strip()
     try:
-        json_output = json.loads(decoded)
-    except json.JSONDecodeError as e:
-        print(f"⚠️ JSON decode error: {e}. Returning raw output.")
-        json_output = decoded
-    return json_output

 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from peft import PeftModel
 SYSTEM_PROMPT = (
     "You are an advanced AI model specialized in extracting aspects and determining their sentiment polarity from customer reviews.\n\n"
     "Instructions:\n"
 )
+def infer_t5_prompt(review_text, tokenizer, peft_model):
+    prompt = SYSTEM_PROMPT + f"\n\nReview: {review_text}"
+    inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True).to(peft_model.device)
     with torch.no_grad():
+        outputs = peft_model.generate(
             **inputs,
             max_new_tokens=256,
             num_beams=4,
         )
     decoded = tokenizer.decode(
+        outputs[0],
+        skip_special_tokens=True,
         clean_up_tokenization_spaces=False
     ).strip()
     decoded = decoded.replace('<extra_id_0>', '').replace('</s>', '').strip()
     try:
+        return json.loads(decoded)
+    except json.JSONDecodeError:
+        return decoded