Spaces:

dbleek
/

cs-gy-6613-project-final

Running

App Files Files Community

dbleek commited on May 1, 2023

Commit

0d69c11

1 Parent(s): 71ee167

delete unnecessary files

Browse files

Files changed (3) hide show

.gitignore +0 -2
milestone_2_app.py +0 -26
milestone_3_app.py +0 -72

.gitignore DELETED Viewed

	@@ -1,2 +0,0 @@
1	-
2	- *patent_classification(2).pt

milestone_2_app.py DELETED Viewed

@@ -1,26 +0,0 @@
-import streamlit as st
-from transformers import (AutoTokenizer, TFAutoModelForSequenceClassification,
-                          pipeline)
-st.title("CS-GY-6613 Project Milestone 2")
-model_choices = (
-    "distilbert-base-uncased-finetuned-sst-2-english",
-    "j-hartmann/emotion-english-distilroberta-base",
-    "joeddav/distilbert-base-uncased-go-emotions-student",
-)
-with st.form("Input Form"):
-    text = st.text_area("Write your text here:", "CS-GY-6613 is a great course!")
-    model_name = st.selectbox("Select a model:", model_choices)
-    submitted = st.form_submit_button("Submit")
-if submitted:
-    model = TFAutoModelForSequenceClassification.from_pretrained(model_name)
-    tokenizer = AutoTokenizer.from_pretrained(model_name)
-    classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)
-    res = classifier(text)
-    label = res[0]["label"].upper()
-    score = res[0]["score"]
-    st.markdown(
-        f"This text was classified as **{label}** with a confidence score of **{score}**."
-    )

milestone_3_app.py DELETED Viewed

@@ -1,72 +0,0 @@
-import streamlit as st
-import torch
-from datasets import load_dataset
-from transformers import AutoTokenizer
-from transformers import AutoModelForSequenceClassification
-from transformers import pipeline
-# Load HUPD dataset
-dataset_dict = load_dataset('HUPD/hupd',
-    name='sample',
-    data_files="https://huggingface.co/datasets/HUPD/hupd/blob/main/hupd_metadata_2022-02-22.feather",
-    icpr_label=None,
-    train_filing_start_date='2016-01-01',
-    train_filing_end_date='2016-01-21',
-    val_filing_start_date='2016-01-22',
-    val_filing_end_date='2016-01-31',
-)
-# Process data
-filtered_dataset = dataset_dict['validation'].filter(lambda e: e['decision'] == 'ACCEPTED' or e['decision'] == 'REJECTED')
-dataset = filtered_dataset.shuffle(seed=42).select(range(20))
-dataset = dataset.sort("patent_number")
-# Create pipeline using model trainned on Colab
-model = torch.load("/workspaces/cs-gy-6613-project/patent_classification(1).pt", map_location=torch.device('cpu'))
-tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")
-classifier = pipeline("text-classification", model=model, tokenizer=tokenizer)
-def load_patent():
-    selected_application = dataset.select([applications[st.session_state.id]])
-    st.session_state.abstract = selected_application['abstract'][0]
-    st.session_state.claims = selected_application['claims'][0]
-    st.session_state.title = selected_application['title'][0]
-st.title("CS-GY-6613 Project Milestone 3")
-# List patent numbers for select box
-applications = {}
-for ds_index, example in enumerate(dataset):
-    applications.update({example['patent_number']: ds_index })
-st.selectbox("Select a patent application:", applications, on_change=load_patent, key="id")
-# Application title displayed for additional context only, not used with model
-st.text_area("Title", key="title", value=dataset[0]['title'], height=50)
-# Classifier input form
-with st.form('Input Form'):
-    abstract = st.text_area("Abstract", key="abstract", value=dataset[0]['abstract'], height=200)
-    claims = st.text_area("Claims", key="claims", value=dataset[0]['abstract'], height=200)
-    submitted = st.form_submit_button("Get Patentability Score")
-if submitted:
-    selected_application = dataset.select([applications[st.session_state.id]])
-    res = classifier(abstract, claims)
-    if res[0]["label"] == 'LABEL_0':
-        pred = "ACCEPTED"
-    elif res[0]["label"] == 'LABEL_1':
-        pred = "REJECTED"
-    score = res[0]["score"]
-    label = selected_application['decision'][0]
-    result = st.markdown("This text was classified as  **{}** with a confidence score of **{}**.".format(pred, score))
-    check = st.markdown("Actual Label: **{}**.".format(label))