Spaces:

UcsTurkey
/

mistral7b

Paused

App Files Files Community

ciyidogan commited on May 22

Commit

4004175

verified ·

1 Parent(s): 338b526

Update inference_test_turkcell_with_intents.py

Browse files

Files changed (1) hide show

inference_test_turkcell_with_intents.py +21 -11

inference_test_turkcell_with_intents.py CHANGED Viewed

@@ -107,33 +107,35 @@ def background_training(intents):
         # 3. Tokenizer ve model yükle
         log("📥 Tokenizer yükleniyor...")
         tokenizer = AutoTokenizer.from_pretrained(INTENT_MODEL_ID)
         log("📦 Model yükleniyor...")
-        model = AutoModelForSequenceClassification.from_pretrained(INTENT_MODEL_ID, num_labels=len(label2id))
         log("✅ Tokenizer ve model hazır.")
         # 4. Tokenize işlemi
         log("🧪 Tokenize işlemi başlatılıyor...")
-        def tokenize(batch):
-            return tokenizer(batch["text"], truncation=True, padding=True)
-        log("🧪 Manuel tokenizer testi: ilk örnek")
         sample = dataset[0]["text"]
         log(f"📄 Örnek: {sample}")
         result = tokenizer(sample, truncation=True, padding=True)
         log(f"✅ Tokenizer sonucu: {result['input_ids'][:5]}")
         log("🔁 Manuel tokenize işlemi başlatılıyor...")
         tokenized_data = {"input_ids": [], "attention_mask": [], "label": []}
         for row in dataset:
             out = tokenizer(row["text"], truncation=True, padding="max_length", max_length=128)
             tokenized_data["input_ids"].append(out["input_ids"])
             tokenized_data["attention_mask"].append(out["attention_mask"])
             tokenized_data["label"].append(row["label"])
         tokenized = Dataset.from_dict(tokenized_data)
-        log(f"📊 Eğitim örnek sayısı (manuel tokenized): {len(tokenized)}")
         if len(tokenized) == 0:
             log("❌ Tokenize edilmiş veri boş! Eğitim başlatılamıyor.")
             return
@@ -153,7 +155,13 @@ def background_training(intents):
             save_strategy="no",
             report_to=[]
         )
-        trainer = Trainer(model=model, args=args, train_dataset=tokenized, data_collator=default_data_collator)
         # 7. Eğitim başlatılıyor
         log("🚀 trainer.train() başlatılıyor...")
@@ -162,11 +170,13 @@ def background_training(intents):
         # 8. Model kaydediliyor
         log("💾 Model diske kaydediliyor...")
-        if os.path.exists(INTENT_MODEL_PATH): shutil.rmtree(INTENT_MODEL_PATH)
         model.save_pretrained(INTENT_MODEL_PATH)
         tokenizer.save_pretrained(INTENT_MODEL_PATH)
         with open(os.path.join(INTENT_MODEL_PATH, "label2id.json"), "w") as f:
             json.dump(label2id, f)
         log("✅ Intent eğitimi tamamlandı ve model kaydedildi.")
     except Exception as e:

         # 3. Tokenizer ve model yükle
         log("📥 Tokenizer yükleniyor...")
         tokenizer = AutoTokenizer.from_pretrained(INTENT_MODEL_ID)
+        log("📦 Model konfigürasyonu hazırlanıyor...")
+        config = AutoConfig.from_pretrained(INTENT_MODEL_ID)
+        config.problem_type = "single_label_classification"
+        config.num_labels = len(label2id)
         log("📦 Model yükleniyor...")
+        model = AutoModelForSequenceClassification.from_pretrained(INTENT_MODEL_ID, config=config)
         log("✅ Tokenizer ve model hazır.")
         # 4. Tokenize işlemi
         log("🧪 Tokenize işlemi başlatılıyor...")
         sample = dataset[0]["text"]
         log(f"📄 Örnek: {sample}")
         result = tokenizer(sample, truncation=True, padding=True)
         log(f"✅ Tokenizer sonucu: {result['input_ids'][:5]}")
         log("🔁 Manuel tokenize işlemi başlatılıyor...")
         tokenized_data = {"input_ids": [], "attention_mask": [], "label": []}
         for row in dataset:
             out = tokenizer(row["text"], truncation=True, padding="max_length", max_length=128)
             tokenized_data["input_ids"].append(out["input_ids"])
             tokenized_data["attention_mask"].append(out["attention_mask"])
             tokenized_data["label"].append(row["label"])
         tokenized = Dataset.from_dict(tokenized_data)
+        tokenized.set_format(type="torch", columns=["input_ids", "attention_mask", "label"])
+        log(f"📊 Eğitim örnek sayısı (manuel tokenized): {len(tokenized)}")
         if len(tokenized) == 0:
             log("❌ Tokenize edilmiş veri boş! Eğitim başlatılamıyor.")
             return
             save_strategy="no",
             report_to=[]
         )
+        trainer = Trainer(
+            model=model,
+            args=args,
+            train_dataset=tokenized,
+            data_collator=default_data_collator
+        )
         # 7. Eğitim başlatılıyor
         log("🚀 trainer.train() başlatılıyor...")
         # 8. Model kaydediliyor
         log("💾 Model diske kaydediliyor...")
+        if os.path.exists(INTENT_MODEL_PATH):
+            shutil.rmtree(INTENT_MODEL_PATH)
         model.save_pretrained(INTENT_MODEL_PATH)
         tokenizer.save_pretrained(INTENT_MODEL_PATH)
         with open(os.path.join(INTENT_MODEL_PATH, "label2id.json"), "w") as f:
             json.dump(label2id, f)
         log("✅ Intent eğitimi tamamlandı ve model kaydedildi.")
     except Exception as e: