frugal-ai-submission-template

Sleeping

App Files Files Community

Tonic commited on Feb 10

Commit

485bf3f

verified ·

1 Parent(s): 878c369

attempt to remove all bias configurations last time

Browse files

Files changed (1) hide show

tasks/text.py +29 -74

tasks/text.py CHANGED Viewed

@@ -61,40 +61,41 @@ async def evaluate_text(request: TextEvaluationRequest):
         # Model and tokenizer paths
         model_name = "Tonic/climate-guard-toxic-agent"
         tokenizer_name = "answerdotai/ModernBERT-base"
-        # Create ModernBERT config with minimal required parameters
-        config = ModernBertConfig(
-            vocab_size=50368,
-            hidden_size=768,
-            num_hidden_layers=22,
-            num_attention_heads=12,
-            intermediate_size=1152,
-            max_position_embeddings=8192,
-            layer_norm_eps=1e-5,
-            num_labels=8,
-            problem_type="single_label_classification",
-            classifier_pooling="mean",
-            model_type="modernbert",
-            architectures=["ModernBertForSequenceClassification"],
-            local_attention=128,
-            global_attn_every_n_layers=3,
-            position_embedding_type="absolute",
-            pad_token_id=50283,
-            bos_token_id=50281,
-            eos_token_id=50282,
-            sep_token_id=50282,
-            cls_token_id=50281,
-            hidden_activation="gelu",
-            classifier_activation="gelu"
-        )
         # Load tokenizer
         tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)
-        # Load model with config
         model = AutoModelForSequenceClassification.from_pretrained(
             model_name,
-            config=config,
             trust_remote_code=True,
             ignore_mismatched_sizes=True,
             torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32
@@ -102,52 +103,6 @@ async def evaluate_text(request: TextEvaluationRequest):
         # Set model to evaluation mode
         model.eval()
-        # Preprocess function
-        def preprocess_function(examples):
-            return tokenizer(
-                examples["quote"],
-                padding=False,
-                truncation=True,
-                max_length=512,
-                return_tensors=None
-            )
-        # Tokenize dataset
-        tokenized_test = test_dataset.map(
-            preprocess_function,
-            batched=True,
-            remove_columns=test_dataset.column_names
-        )
-        # Set format for pytorch
-        tokenized_test.set_format("torch")
-        # Create DataLoader
-        data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
-        test_loader = DataLoader(
-            tokenized_test,
-            batch_size=16,
-            collate_fn=data_collator,
-            shuffle=False
-        )
-        # Get predictions
-        predictions = []
-        with torch.no_grad():
-            for batch in test_loader:
-                batch = {k: v.to(device) for k, v in batch.items()}
-                outputs = model(**batch)
-                preds = torch.argmax(outputs.logits, dim=-1)
-                predictions.extend(preds.cpu().numpy().tolist())
-        # Clean up GPU memory
-        if torch.cuda.is_available():
-            torch.cuda.empty_cache()
-    except Exception as e:
-        print(f"Error during model inference: {str(e)}")
-        raise
     #--------------------------------------------------------------------------------------------
     # MODEL INFERENCE ENDS HERE

         # Model and tokenizer paths
         model_name = "Tonic/climate-guard-toxic-agent"
         tokenizer_name = "answerdotai/ModernBERT-base"
+        # Define minimal configuration
+        config_dict = {
+            "_name_or_path": "answerdotai/ModernBERT-base",
+            "architectures": ["ModernBertForSequenceClassification"],
+            "model_type": "modernbert",
+            "vocab_size": 50368,
+            "hidden_size": 768,
+            "num_hidden_layers": 22,
+            "num_attention_heads": 12,
+            "intermediate_size": 1152,
+            "max_position_embeddings": 8192,
+            "position_embedding_type": "absolute",
+            "layer_norm_eps": 1e-5,
+            "hidden_activation": "gelu",
+            "classifier_activation": "gelu",
+            "classifier_pooling": "mean",
+            "num_labels": 8,
+            "pad_token_id": 50283,
+            "bos_token_id": 50281,
+            "eos_token_id": 50282,
+            "sep_token_id": 50282,
+            "cls_token_id": 50281,
+            "problem_type": "single_label_classification",
+            "id2label": {str(i): label for i, label in enumerate(LABEL_MAPPING.keys())},
+            "label2id": LABEL_MAPPING
+        }
         # Load tokenizer
         tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)
+        # Load model with minimal config
         model = AutoModelForSequenceClassification.from_pretrained(
             model_name,
+            config_dict=config_dict,
             trust_remote_code=True,
             ignore_mismatched_sizes=True,
             torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32
         # Set model to evaluation mode
         model.eval()
     #--------------------------------------------------------------------------------------------
     # MODEL INFERENCE ENDS HERE