Spaces:

HemanM
/

EvoTransformer-v2.1

Running

App Files Files Community

HemanM commited on 1 day ago

Commit

cae5830

verified ·

1 Parent(s): da42a90

Update watchdog.py

Browse files

Files changed (1) hide show

watchdog.py +45 -71

watchdog.py CHANGED Viewed

@@ -1,90 +1,64 @@
-# watchdog.py
-import firebase_admin
-from firebase_admin import credentials, firestore
 import torch
-import torch.nn as nn
-import torch.optim as optim
-from transformers import BertTokenizer
-from torch.utils.data import DataLoader, Dataset
-from evo_model import EvoTransformerForClassification, EvoTransformerConfig
-# Initialize Firebase
-if not firebase_admin._apps:
-    cred = credentials.Certificate("firebase_key.json")
-    firebase_admin.initialize_app(cred)
-db = firestore.client()
-tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
-# Dataset for training
-class FeedbackDataset(Dataset):
-    def __init__(self, records, tokenizer, max_length=64):
-        self.records = records
-        self.tokenizer = tokenizer
-        self.max_length = max_length
-        self.label_map = {"Solution 1": 0, "Solution 2": 1}
-    def __len__(self):
-        return len(self.records)
-    def __getitem__(self, idx):
-        row = self.records[idx]
-        combined = f"Goal: {row['goal']} Option 1: {row['solution_1']} Option 2: {row['solution_2']}"
-        inputs = self.tokenizer(combined, padding="max_length", truncation=True,
-                                max_length=self.max_length, return_tensors="pt")
-        label = self.label_map[row["correct_answer"]]
-        return {
-            "input_ids": inputs["input_ids"].squeeze(0),
-            "attention_mask": inputs["attention_mask"].squeeze(0),
-            "labels": torch.tensor(label)
-        }
-# Manual retrain trigger
 def manual_retrain():
     try:
-        # Step 1: Fetch feedback data from Firestore
-        docs = db.collection("evo_feedback_logs").stream()
-        feedback_data = [doc.to_dict() for doc in docs if "goal" in doc.to_dict()]
-        if len(feedback_data) < 5:
-            print("[Retrain Skipped] Not enough feedback.")
             return False
-        # Step 2: Load tokenizer and dataset
-        dataset = FeedbackDataset(feedback_data, tokenizer)
-        loader = DataLoader(dataset, batch_size=4, shuffle=True)
-        # Step 3: Load model
-        config = EvoTransformerConfig()
-        model = EvoTransformerForClassification(config)
         model.train()
-        # Step 4: Define optimizer and loss
-        optimizer = optim.Adam(model.parameters(), lr=2e-5)
-        loss_fn = nn.CrossEntropyLoss()
-        # Step 5: Train
-        for epoch in range(3):
-            total_loss = 0
-            for batch in loader:
                 optimizer.zero_grad()
-                input_ids = batch["input_ids"]
-                attention_mask = batch["attention_mask"]
-                labels = batch["labels"]
-                logits = model(input_ids)
-                loss = loss_fn(logits, labels)
                 loss.backward()
                 optimizer.step()
-                total_loss += loss.item()
-            print(f"[Retrain] Epoch {epoch + 1} Loss: {total_loss:.4f}")
-        # Step 6: Save updated model
-        torch.save(model.state_dict(), "trained_model.pt")
-        print("✅ Evo updated with latest feedback.")
         return True
     except Exception as e:
         print(f"[Retrain Error] {e}")
         return False

 import torch
+from transformers import AutoTokenizer
+from evo_model import EvoTransformerForClassification
+from firebase_admin import firestore
+import pandas as pd
+# Load tokenizer
+tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
+def load_feedback_data():
+    db = firestore.client()
+    docs = db.collection("evo_feedback_logs").stream()
+    data = []
+    for doc in docs:
+        d = doc.to_dict()
+        if all(k in d for k in ["goal", "solution_1", "solution_2", "correct_answer"]):
+            data.append((
+                d["goal"],
+                d["solution_1"],
+                d["solution_2"],
+                0 if d["correct_answer"] == "Solution 1" else 1
+            ))
+    return pd.DataFrame(data, columns=["goal", "sol1", "sol2", "label"])
+def encode(goal, sol1, sol2):
+    prompt = f"Goal: {goal} Option 1: {sol1} Option 2: {sol2}"
+    return tokenizer(prompt, return_tensors="pt", padding=True, truncation=True).input_ids
 def manual_retrain():
     try:
+        data = load_feedback_data()
+        if data.empty:
+            print("[Retrain Error] No training data found.")
             return False
+        model = EvoTransformerForClassification.from_pretrained("trained_model")
+        optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)
+        loss_fn = torch.nn.CrossEntropyLoss()
         model.train()
+        for _, row in data.sample(frac=1).iterrows():
+            inputs = encode(row["goal"], row["sol1"], row["sol2"])
+            label = torch.tensor([row["label"]])
+            outputs = model(inputs)
+            if isinstance(outputs, tuple):
+                logits = outputs[0]
+            elif hasattr(outputs, "logits"):
+                logits = outputs.logits
+            else:
+                logits = outputs
+            if logits.ndim == 2 and label.ndim == 1:
+                loss = loss_fn(logits, label)
                 optimizer.zero_grad()
                 loss.backward()
                 optimizer.step()
+            else:
+                print("[Retrain Warning] Shape mismatch, skipping one example.")
+        model.save_pretrained("trained_model")
+        print("✅ Evo retrained and saved.")
         return True
     except Exception as e:
         print(f"[Retrain Error] {e}")
         return False