Spaces:

UcsTurkey
/

mistral7b

Paused

App Files Files Community

ciyidogan commited on May 20

Commit

9aa5822

verified ·

1 Parent(s): 40252a8

Update train_lora_mistral.py

Browse files

Files changed (1) hide show

train_lora_mistral.py +18 -7

train_lora_mistral.py CHANGED Viewed

@@ -4,7 +4,7 @@ from fastapi.responses import JSONResponse
 from datetime import datetime
 from datasets import load_dataset
 from huggingface_hub import HfApi
-from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer
 from peft import get_peft_model, LoraConfig, TaskType
 import torch
@@ -36,7 +36,6 @@ def run_health_server():
 threading.Thread(target=run_health_server, daemon=True).start()
 # === Log
 def log(message):
     timestamp = datetime.now().strftime("%H:%M:%S")
     print(f"[{timestamp}] {message}")
@@ -55,8 +54,11 @@ base_model.config.pad_token_id = tokenizer.pad_token_id
 log("🎯 LoRA adapter uygulanıyor...")
 peft_config = LoraConfig(
     task_type=TaskType.CAUSAL_LM,
-    r=64, lora_alpha=16, lora_dropout=0.1,
-    bias="none", fan_in_fan_out=False
 )
 model = get_peft_model(base_model, peft_config)
 model.print_trainable_parameters()
@@ -65,6 +67,7 @@ log("📦 Parquet dosyaları listeleniyor...")
 api = HfApi()
 files = api.list_repo_files(repo_id=TOKENIZED_DATASET_ID, repo_type="dataset", token=HF_TOKEN)
 selected_files = sorted([f for f in files if f.startswith("chunk_") and f.endswith(".parquet")])[START_NUMBER:END_NUMBER+1]
 if not selected_files:
     log("⚠️ Parquet bulunamadı. Eğitim iptal.")
     exit(0)
@@ -84,6 +87,8 @@ training_args = TrainingArguments(
     fp16=False
 )
 for file in selected_files:
     try:
         log(f"\n📄 Yükleniyor: {file}")
@@ -97,12 +102,18 @@ for file in selected_files:
         if len(dataset) == 0:
             continue
-        # Eğitim öncesi örnek prompt kontrolü
         first_row = dataset[0]
         decoded_prompt = tokenizer.decode(first_row["input_ids"], skip_special_tokens=True)
-        log(f"📌 Örnek prompt: {decoded_prompt}")
-        trainer = Trainer(model=model, args=training_args, train_dataset=dataset)
         log("🚀 Eğitim başlıyor...")
         trainer.train()
         log("✅ Eğitim tamam.")

 from datetime import datetime
 from datasets import load_dataset
 from huggingface_hub import HfApi
+from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForLanguageModeling
 from peft import get_peft_model, LoraConfig, TaskType
 import torch
 threading.Thread(target=run_health_server, daemon=True).start()
 # === Log
 def log(message):
     timestamp = datetime.now().strftime("%H:%M:%S")
     print(f"[{timestamp}] {message}")
 log("🎯 LoRA adapter uygulanıyor...")
 peft_config = LoraConfig(
     task_type=TaskType.CAUSAL_LM,
+    r=64,
+    lora_alpha=16,
+    lora_dropout=0.1,
+    bias="none",
+    fan_in_fan_out=False
 )
 model = get_peft_model(base_model, peft_config)
 model.print_trainable_parameters()
 api = HfApi()
 files = api.list_repo_files(repo_id=TOKENIZED_DATASET_ID, repo_type="dataset", token=HF_TOKEN)
 selected_files = sorted([f for f in files if f.startswith("chunk_") and f.endswith(".parquet")])[START_NUMBER:END_NUMBER+1]
 if not selected_files:
     log("⚠️ Parquet bulunamadı. Eğitim iptal.")
     exit(0)
     fp16=False
 )
+collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
 for file in selected_files:
     try:
         log(f"\n📄 Yükleniyor: {file}")
         if len(dataset) == 0:
             continue
+        # prompt tanımı: tokenize edilmiş dataset içinde input_ids zaten var
+        # sadece örnek bir tanesini loglayalım
         first_row = dataset[0]
         decoded_prompt = tokenizer.decode(first_row["input_ids"], skip_special_tokens=True)
+        log(f"📌 Örnek prompt: {decoded_prompt[:200]}...")
+        trainer = Trainer(
+            model=model,
+            args=training_args,
+            train_dataset=dataset,
+            data_collator=collator
+        )
         log("🚀 Eğitim başlıyor...")
         trainer.train()
         log("✅ Eğitim tamam.")