Spaces:

Nurisslam
/

Test_Question_Ai

Runtime error

Nurisslam commited on May 22

Commit

7cc244b

verified ·

1 Parent(s): 1fa8d40

Create train.py

Files changed (1) hide show

train.py ADDED Viewed

+from transformers import MT5ForConditionalGeneration, MT5Tokenizer, Seq2SeqTrainer, Seq2SeqTrainingArguments
+from datasets import load_dataset, Dataset
+import json
+# Загрузка данных
+with open("data/dataset_qa.json") as f:
+    data = json.load(f)
+dataset = Dataset.from_list(data)
+model_name = "google/mt5-small"
+tokenizer = MT5Tokenizer.from_pretrained(model_name)
+model = MT5ForConditionalGeneration.from_pretrained(model_name)
+def preprocess(example):
+    input_text = "Сұрақ: " + example["question"] + " Контекст: " + example["context"]
+    target_text = example["answer"]
+    inputs = tokenizer(input_text, max_length=512, truncation=True, padding="max_length")
+    labels = tokenizer(target_text, max_length=128, truncation=True, padding="max_length")
+    inputs["labels"] = labels["input_ids"]
+    return inputs
+tokenized_dataset = dataset.map(preprocess)
+training_args = Seq2SeqTrainingArguments(
+    output_dir="./model",
+    evaluation_strategy="epoch",
+    learning_rate=2e-5,
+    per_device_train_batch_size=4,
+    num_train_epochs=5,
+    save_total_limit=1,
+)
+trainer = Seq2SeqTrainer(
+    model=model,
+    args=training_args,
+    train_dataset=tokenized_dataset,
+)
+trainer.train()