Spaces:

laureBe
/

submission

Sleeping

App Files Files

xet

Community

laureBe commited on Jan 14

Commit

d248f3d

verified ·

1 Parent(s): 9685f7b

Update tasks/text.py

Browse files

Files changed (1) hide show

tasks/text.py +21 -3

tasks/text.py CHANGED Viewed

@@ -18,13 +18,18 @@ async def evaluate_text(request: TextEvaluationRequest):
     """
     Evaluate text classification for climate disinformation detection.
-    Current Model: Random Baseline
-    - Makes random predictions from the label space (0-7)
     - Used as a baseline for comparison
     """
     # Get space info
     username, space_url = get_space_info()
     # Define the label mapping
     LABEL_MAPPING = {
         "0_not_relevant": 0,
@@ -44,9 +49,19 @@ async def evaluate_text(request: TextEvaluationRequest):
     dataset = dataset.map(lambda x: {"label": LABEL_MAPPING[x["label"]]})
     # Split dataset
     train_test = dataset["train"].train_test_split(test_size=request.test_size, seed=request.test_seed)
     test_dataset = train_test["test"]
     # Start tracking emissions
     tracker.start()
     tracker.start_task("inference")
@@ -58,8 +73,11 @@ async def evaluate_text(request: TextEvaluationRequest):
     # Make random predictions (placeholder for actual model inference)
     true_labels = test_dataset["label"]
-    predictions = [random.randint(0, 7) for _ in range(len(true_labels))]
     #--------------------------------------------------------------------------------------------
     # YOUR MODEL INFERENCE STOPS HERE
     #--------------------------------------------------------------------------------------------

     """
     Evaluate text classification for climate disinformation detection.
+    Current Model: Logistic regression
     - Used as a baseline for comparison
     """
     # Get space info
     username, space_url = get_space_info()
+    from sklearn.linear_model import LogisticRegression
+    from sklearn.feature_extraction.text import TfidfVectorizer
+    from sklearn.model_selection import train_test_split
+    from sklearn import metrics
+    from datetime import datetime
     # Define the label mapping
     LABEL_MAPPING = {
         "0_not_relevant": 0,
     dataset = dataset.map(lambda x: {"label": LABEL_MAPPING[x["label"]]})
     # Split dataset
+    #train_test = dataset.train_test_split(test_size=.33, seed=42)
     train_test = dataset["train"].train_test_split(test_size=request.test_size, seed=request.test_seed)
     test_dataset = train_test["test"]
+    #test_dataset = train_test["test"]
+    #train_dataset = train_test["train"]
+    tfidf_vect = TfidfVectorizer(stop_words = 'english')
+    tfidf_train = tfidf_vect.fit_transform(train_dataset['quote'])
+    tfidf_test = tfidf_vect.transform(test_dataset['quote'])
     # Start tracking emissions
     tracker.start()
     tracker.start_task("inference")
     # Make random predictions (placeholder for actual model inference)
     true_labels = test_dataset["label"]
+    LR = LogisticRegression(class_weight='balanced', max_iter=20, random_state=1234,
+                   solver='liblinear')
+    LR.fit(pd.DataFrame.sparse.from_spmatrix(tfidf_train), pd.DataFrame(y_train_v))
+    predictions=LR.predict(pd.DataFrame.sparse.from_spmatrix(tfidf_test))
     #--------------------------------------------------------------------------------------------
     # YOUR MODEL INFERENCE STOPS HERE
     #--------------------------------------------------------------------------------------------