Spaces:

nouf-sst
/

TGRL-bad-smells

Runtime error

App Files Files Community

nouf-sst commited on Apr 13, 2023

Commit

c94e335

1 Parent(s): f120eee

Speed up processing

Browse files

Files changed (1) hide show

app.py +17 -29

app.py CHANGED Viewed

@@ -11,6 +11,13 @@ from torch.nn.utils.rnn import pad_sequence
 import numpy as np
 import spacy
 # ***************************** TGRL Parsing *****************************
@@ -188,8 +195,6 @@ def get_clause_token_span_for_verb(verb, doc, all_verbs):
 def get_clauses_list(sent):
-  nlp = spacy.load('en_core_web_sm')
   doc = nlp(sent)
   # find part of speech, dependency tag, ancestors, and children of each token
@@ -252,11 +257,7 @@ def get_punctuations(elements):
 # ########## Incorrect Actor Syntax ##########
 def find_non_NPs(sentences):
-  model_name = "QCRI/bert-base-multilingual-cased-pos-english"
-  tokenizer = AutoTokenizer.from_pretrained(model_name)
-  model = AutoModelForTokenClassification.from_pretrained(model_name)
-  pipeline = TokenClassificationPipeline(model=model, tokenizer=tokenizer)
   outputs = pipeline(sentences)
@@ -306,11 +307,7 @@ def check_softgoal_syntax(softgoals):
 # ########## Incorrect Task Syntax ###########
 def find_non_VPs(sentences):
-  model_name = "QCRI/bert-base-multilingual-cased-pos-english"
-  tokenizer = AutoTokenizer.from_pretrained(model_name)
-  model = AutoModelForTokenClassification.from_pretrained(model_name)
-  pipeline = TokenClassificationPipeline(model=model, tokenizer=tokenizer)
   outputs = pipeline(sentences)
@@ -336,9 +333,6 @@ def check_task_syntax(tasks):
 # ########## Similarity ###########
 def get_similar_elements(elements_per_actor):
-  # Load the pre-trained model
-  model = CrossEncoder('cross-encoder/stsb-roberta-base')
   # Prepare sentence pair array
   sentence_pairs = []
@@ -349,7 +343,7 @@ def get_similar_elements(elements_per_actor):
               sentence_pairs.append([elements_per_actor[key][i], elements_per_actor[key][j]])
   # Predict semantic similarity
-  semantic_similarity_scores = model.predict(sentence_pairs, show_progress_bar=True)
   similar_elements = []
   for index, value in enumerate(sentence_pairs):
@@ -400,16 +394,16 @@ def check_spelling(elements):
 # ##################################
 # ########## NLI ###########
-def do_nli(premise, hypothesis, model, tokenizer):
   # Tokenization
   token_ids = []
   seg_ids = []
   mask_ids = []
-  premise_id = tokenizer.encode(premise, add_special_tokens = False)
-  hypothesis_id = tokenizer.encode(hypothesis, add_special_tokens = False)
-  pair_token_ids = [tokenizer.cls_token_id] + premise_id + [tokenizer.sep_token_id] + hypothesis_id + [tokenizer.sep_token_id]
   premise_len = len(premise_id)
   hypothesis_len = len(hypothesis_id)
@@ -426,7 +420,7 @@ def do_nli(premise, hypothesis, model, tokenizer):
   seg_ids = pad_sequence(seg_ids, batch_first=True)
   with torch.no_grad():
-    output = model(token_ids,
                   token_type_ids=seg_ids,
                   attention_mask=mask_ids)
@@ -448,9 +442,6 @@ def do_nli(premise, hypothesis, model, tokenizer):
 # Entailment
 def check_entailment(decomposed_elements):
-  model = BertForSequenceClassification.from_pretrained("nouf-sst/bert-base-MultiNLI", use_auth_token="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")
-  tokenizer = BertTokenizer.from_pretrained("nouf-sst/bert-base-MultiNLI", use_auth_token="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", do_lower_case=True)
   sentence_pairs = []
   non_matching_elements = []
@@ -461,7 +452,7 @@ def check_entailment(decomposed_elements):
           sentence_pairs.append([key, i])
   for sentence_pair in sentence_pairs:
-    result = do_nli(sentence_pair[0], sentence_pair[1], model, tokenizer)
     print(result)
     if result != "Entailment":
       non_matching_elements.append(sentence_pair)
@@ -478,9 +469,6 @@ def check_entailment(decomposed_elements):
 # Contradiction
 def check_contradiction(elements_per_actor):
-  model = BertForSequenceClassification.from_pretrained("nouf-sst/bert-base-MultiNLI", use_auth_token="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")
-  tokenizer = BertTokenizer.from_pretrained("nouf-sst/bert-base-MultiNLI", use_auth_token="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", do_lower_case=True)
   sentence_pairs = []
   contradicting_elements = []
@@ -493,7 +481,7 @@ def check_contradiction(elements_per_actor):
   #print(sentence_pairs)
   # Check contradiction
   for sentence_pair in sentence_pairs:
-    result = do_nli(sentence_pair[0], sentence_pair[1], model, tokenizer)
     #print(result)
     if result == "Contradiction":
       contradicting_elements.append(sentence_pair)

 import numpy as np
 import spacy
+# ***************************** Load needed models *****************************
+nlp = spacy.load('en_core_web_sm')
+pos_tokenizer = AutoTokenizer.from_pretrained("QCRI/bert-base-multilingual-cased-pos-english")
+pos_model = AutoModelForTokenClassification.from_pretrained("QCRI/bert-base-multilingual-cased-pos-english")
+sentences_similarity_model = CrossEncoder('cross-encoder/stsb-roberta-base')
+nli_model = BertForSequenceClassification.from_pretrained("nouf-sst/bert-base-MultiNLI", use_auth_token="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")
+nli_tokenizer = BertTokenizer.from_pretrained("nouf-sst/bert-base-MultiNLI", use_auth_token="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", do_lower_case=True)
 # ***************************** TGRL Parsing *****************************
 def get_clauses_list(sent):
   doc = nlp(sent)
   # find part of speech, dependency tag, ancestors, and children of each token
 # ########## Incorrect Actor Syntax ##########
 def find_non_NPs(sentences):
+  pipeline = TokenClassificationPipeline(model=pos_model, tokenizer=pos_tokenizer)
   outputs = pipeline(sentences)
 # ########## Incorrect Task Syntax ###########
 def find_non_VPs(sentences):
+  pipeline = TokenClassificationPipeline(model=pos_modelmodel, tokenizer=pos_tokenizertokenizer)
   outputs = pipeline(sentences)
 # ########## Similarity ###########
 def get_similar_elements(elements_per_actor):
   # Prepare sentence pair array
   sentence_pairs = []
               sentence_pairs.append([elements_per_actor[key][i], elements_per_actor[key][j]])
   # Predict semantic similarity
+  semantic_similarity_scores = sentences_similarity_model.predict(sentence_pairs, show_progress_bar=True)
   similar_elements = []
   for index, value in enumerate(sentence_pairs):
 # ##################################
 # ########## NLI ###########
+def do_nli(premise, hypothesis):
   # Tokenization
   token_ids = []
   seg_ids = []
   mask_ids = []
+  premise_id = nli_tokenizertokenizer.encode(premise, add_special_tokens = False)
+  hypothesis_id = nli_tokenizertokenizer.encode(hypothesis, add_special_tokens = False)
+  pair_token_ids = [nli_tokenizertokenizer.cls_token_id] + premise_id + [nli_tokenizertokenizer.sep_token_id] + hypothesis_id + [nli_tokenizertokenizer.sep_token_id]
   premise_len = len(premise_id)
   hypothesis_len = len(hypothesis_id)
   seg_ids = pad_sequence(seg_ids, batch_first=True)
   with torch.no_grad():
+    output = nli_model(token_ids,
                   token_type_ids=seg_ids,
                   attention_mask=mask_ids)
 # Entailment
 def check_entailment(decomposed_elements):
   sentence_pairs = []
   non_matching_elements = []
           sentence_pairs.append([key, i])
   for sentence_pair in sentence_pairs:
+    result = do_nli(sentence_pair[0], sentence_pair[1])
     print(result)
     if result != "Entailment":
       non_matching_elements.append(sentence_pair)
 # Contradiction
 def check_contradiction(elements_per_actor):
   sentence_pairs = []
   contradicting_elements = []
   #print(sentence_pairs)
   # Check contradiction
   for sentence_pair in sentence_pairs:
+    result = do_nli(sentence_pair[0], sentence_pair[1])
     #print(result)
     if result == "Contradiction":
       contradicting_elements.append(sentence_pair)