Spaces:

panotedi
/

milestone3

Runtime error

App Files Files Community

panotedi commited on May 4, 2023

Commit

a451187

unverified ·

1 Parent(s): 6153e60

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -20

app.py CHANGED Viewed

@@ -1,9 +1,12 @@
 import streamlit as st
 import pandas as pd
 from transformers import pipeline
 from pprint import pprint
 from datasets import load_dataset
 st.title("CS634 - milestone3/4 - Tedi Pano")
@@ -36,11 +39,14 @@ def training_computation(_dataset_dict):
     st.write("Processed the data")
-    from sklearn.model_selection import train_test_split
-    dftrain, dftest = train_test_split(df, test_size = 0.90, random_state = 0)
-    vftrain, vftest = train_test_split(df, test_size = 0.90, random_state = 0)
-    from transformers import DistilBertTokenizerFast
     tokenizer = DistilBertTokenizerFast.from_pretrained('distilbert-base-uncased')
     X_dtrain = dftrain['abstract'].tolist()
@@ -58,7 +64,7 @@ def training_computation(_dataset_dict):
     st.write("tokenizing completed!")
-    import tensorflow as tf
     train_dataset = tf.data.Dataset.from_tensor_slices((
         dict(train_encodings),
@@ -75,18 +81,16 @@ def training_computation(_dataset_dict):
         y_dtest
     ))
-    st.write("back to dataset!")
-    from transformers import TFDistilBertForSequenceClassification, TFTrainer, TFTrainingArguments
     training_args = TFTrainingArguments(
         output_dir='./results',
-        num_train_epochs=2,
-        per_device_train_batch_size=128,
-        per_device_eval_batch_size=256,
         warmup_steps=5,
-        eval_steps=5,
-        weight_decay=0.01
     )
@@ -99,7 +103,7 @@ def training_computation(_dataset_dict):
         train_dataset=train_dataset,
         eval_dataset=val_dataset
     )
     trainer.train()
     st.write("training completed")
@@ -111,20 +115,34 @@ trainer = training_computation(dataset_dict)
 patents = pd.DataFrame(dataset_dict['train'])
 patent_selection = st.selectbox("Select Patent",patents['patent_number'])
 patent = patents.loc[patents['patent_number'] == patent_selection]
 st.write(patent['abstract'])
 st.write(patent['claims'])
-submitted = st.form_submit_button("Submit")
-if submitted:
     pat_abstract = patent['abstract'].tolist()
-    #pat_score = patent['patentability_score'].tolist()
     test_encodings = tokenizer(pat_abstract, truncation=True, padding=True)
     test_dataset = tf.data.Dataset.from_tensor_slices((
-        dict(test_encodings)
     ))
-    predictions = trainer.predict(test_dataset)[1]
-    st.write(predictions)

 import streamlit as st
 import pandas as pd
 from transformers import pipeline
+from transformers import TFDistilBertForSequenceClassification, TFTrainer, TFTrainingArguments
+from sklearn.model_selection import train_test_split
+from transformers import DistilBertTokenizerFast
 from pprint import pprint
 from datasets import load_dataset
+import tensorflow as tf
 st.title("CS634 - milestone3/4 - Tedi Pano")
     st.write("Processed the data")
+    dftrain, dftest = train_test_split(df, test_size = 0.99, random_state = None)
+    vftrain, vftest = train_test_split(df, test_size = 0.99, random_state = None)
+    #st.write(dftrain.shape[0])
+    #st.write(vftrain.shape[0])
     tokenizer = DistilBertTokenizerFast.from_pretrained('distilbert-base-uncased')
     X_dtrain = dftrain['abstract'].tolist()
     st.write("tokenizing completed!")
     train_dataset = tf.data.Dataset.from_tensor_slices((
         dict(train_encodings),
         y_dtest
     ))
+    #st.write("back to dataset!")
     training_args = TFTrainingArguments(
         output_dir='./results',
+        num_train_epochs=1,
+        per_device_train_batch_size=8,
+        per_device_eval_batch_size=16,
         warmup_steps=5,
+        eval_steps=5
     )
         train_dataset=train_dataset,
         eval_dataset=val_dataset
     )
+    st.write("training in progress.....")
     trainer.train()
     st.write("training completed")
 patents = pd.DataFrame(dataset_dict['train'])
+accepted_rejected = ['ACCEPTED', 'REJECTED']
+patents = patents[patents['decision'].isin(accepted_rejected)]
+patents['patentability_score'] = patents['decision'].map({'ACCEPTED': 1, 'REJECTED': 0})
 patent_selection = st.selectbox("Select Patent",patents['patent_number'])
 patent = patents.loc[patents['patent_number'] == patent_selection]
+#st.write(patent.shape[0])
 st.write(patent['abstract'])
 st.write(patent['claims'])
+with st.form("my_form"):
+    submitted = st.form_submit_button("Submit")
     pat_abstract = patent['abstract'].tolist()
+    pat_score = patent['patentability_score'].tolist()
+    tokenizer = DistilBertTokenizerFast.from_pretrained('distilbert-base-uncased')
     test_encodings = tokenizer(pat_abstract, truncation=True, padding=True)
     test_dataset = tf.data.Dataset.from_tensor_slices((
+        dict(test_encodings),
+        pat_score
     ))
+    predictions = trainer.predict(test_dataset)
+    if submitted:
+        if(predictions[1][0] == 1):
+            st.write("Patent is ACCEPTED")
+            st.write("with a certainty of " + str(predictions[0][0][1]))
+        else:
+            st.write("Patent is REJECTED")
+            st.write("with a certainty of " + str(predictions[0][0][0]))