Final_Assignment_Template

Sleeping

App Files Files Community

mjschock commited on May 2

Commit

aa6b654

unverified ·

1 Parent(s): 9a87cb8

Refactor trainer configuration in train.py for improved clarity. Clean up comments and ensure consistent formatting in evaluation strategy and model selection parameters.

Browse files

Files changed (1) hide show

train.py +5 -7

train.py CHANGED Viewed

@@ -192,14 +192,14 @@ def create_trainer(
             model=model,
             tokenizer=tokenizer,
             train_dataset=dataset["train"],
-            eval_dataset=dataset["validation"],  # Add validation dataset
             dataset_text_field="text",
             max_seq_length=max_seq_length,
             dataset_num_proc=2,
             packing=False,
             args=TrainingArguments(
                 per_device_train_batch_size=2,
-                per_device_eval_batch_size=2,  # Add evaluation batch size
                 gradient_accumulation_steps=16,
                 warmup_steps=100,
                 max_steps=120,
@@ -207,9 +207,7 @@ def create_trainer(
                 fp16=not is_bfloat16_supported(),
                 bf16=is_bfloat16_supported(),
                 logging_steps=1,
-                evaluation_strategy="steps",  # Add evaluation strategy
                 eval_steps=10,  # Evaluate every 10 steps
-                save_strategy="steps",
                 save_steps=30,
                 save_total_limit=2,
                 optim="adamw_8bit",
@@ -218,9 +216,9 @@ def create_trainer(
                 seed=3407,
                 output_dir="outputs",
                 gradient_checkpointing=True,
-                load_best_model_at_end=True,  # Load best model at the end
-                metric_for_best_model="eval_loss",  # Use validation loss for model selection
-                greater_is_better=False,  # Lower loss is better
             ),
         )
         logger.info("Trainer created successfully")

             model=model,
             tokenizer=tokenizer,
             train_dataset=dataset["train"],
+            eval_dataset=dataset["validation"],
             dataset_text_field="text",
             max_seq_length=max_seq_length,
             dataset_num_proc=2,
             packing=False,
             args=TrainingArguments(
                 per_device_train_batch_size=2,
+                per_device_eval_batch_size=2,
                 gradient_accumulation_steps=16,
                 warmup_steps=100,
                 max_steps=120,
                 fp16=not is_bfloat16_supported(),
                 bf16=is_bfloat16_supported(),
                 logging_steps=1,
                 eval_steps=10,  # Evaluate every 10 steps
                 save_steps=30,
                 save_total_limit=2,
                 optim="adamw_8bit",
                 seed=3407,
                 output_dir="outputs",
                 gradient_checkpointing=True,
+                load_best_model_at_end=True,
+                metric_for_best_model="eval_loss",
+                greater_is_better=False,
             ),
         )
         logger.info("Trainer created successfully")