End of training

Browse files

Files changed (7) hide show

README.md +17 -22
adapter_config.json +23 -0
adapter_model.safetensors +3 -0
runs/Nov04_17-21-53_37a4a00a92ac/events.out.tfevents.1699118528.37a4a00a92ac.2070.7 +3 -0
tokenizer.json +9 -2
trainer_state.json +31 -64
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -1,10 +1,8 @@
 ---
 license: apache-2.0
-base_model: google/flan-t5-small
 tags:
 - generated_from_trainer
-metrics:
-- rouge
 model-index:
 - name: trained_model
   results: []
@@ -15,14 +13,9 @@ should probably proofread and complete it, then remove this comment. -->
 # trained_model
-This model is a fine-tuned version of [google/flan-t5-small](https://huggingface.co/google/flan-t5-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.3339
-- Rouge1: 0.3878
-- Rouge2: 0.2902
-- Rougel: 0.3871
-- Rougelsum: 0.3871
-- Gen Len: 13.16
 ## Model description
@@ -41,26 +34,28 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 4e-05
-- train_batch_size: 2
-- eval_batch_size: 2
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 6
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len |
-|:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:-------:|
-| 1.9101        | 2.0   | 100  | 1.4032          | 0.3928 | 0.2897 | 0.3915 | 0.3911    | 12.7    |
-| 1.4264        | 4.0   | 200  | 1.3399          | 0.3826 | 0.2908 | 0.3808 | 0.3809    | 12.68   |
-| 1.3121        | 6.0   | 300  | 1.3339          | 0.3878 | 0.2902 | 0.3871 | 0.3871    | 13.16   |
 ### Framework versions
-- Transformers 4.34.0
-- Pytorch 2.0.1+cu118
-- Datasets 2.14.5
 - Tokenizers 0.14.1

 ---
 license: apache-2.0
+base_model: google/flan-t5-large
 tags:
 - generated_from_trainer
 model-index:
 - name: trained_model
   results: []
 # trained_model
+This model is a fine-tuned version of [google/flan-t5-large](https://huggingface.co/google/flan-t5-large) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.9780
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0005811623641719214
+- train_batch_size: 8
+- eval_batch_size: 8
 - seed: 42
+- gradient_accumulation_steps: 7
+- total_train_batch_size: 56
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 2
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| No log        | 0.52  | 100  | 1.0140          |
+| No log        | 1.05  | 200  | 0.9792          |
+| No log        | 1.57  | 300  | 0.9780          |
 ### Framework versions
+- Transformers 4.35.0
+- Pytorch 2.1.0+cu118
+- Datasets 2.14.6
 - Tokenizers 0.14.1

adapter_config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "google/flan-t5-large",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "q",
+    "v"
+  ],
+  "task_type": "SEQ_2_SEQ_LM"
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d2554237ab2c5c5fcb57ac013a6288d5504accf79ebc68d638e29ad54e2bad2
+size 18915328

runs/Nov04_17-21-53_37a4a00a92ac/events.out.tfevents.1699118528.37a4a00a92ac.2070.7 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46cc1867f2a1e43d95c5211fab84702d0c358ee2361b08e20c13cec57377dba3
+size 5917

tokenizer.json CHANGED Viewed

@@ -1,8 +1,15 @@
 {
   "version": "1.0",
-  "truncation": null,
   "padding": {
-    "strategy": "BatchLongest",
     "direction": "Right",
     "pad_to_multiple_of": null,
     "pad_id": 0,

 {
   "version": "1.0",
+  "truncation": {
+    "direction": "Right",
+    "max_length": 56,
+    "strategy": "LongestFirst",
+    "stride": 0
+  },
   "padding": {
+    "strategy": {
+      "Fixed": 56
+    },
     "direction": "Right",
     "pad_to_multiple_of": null,
     "pad_id": 0,

trainer_state.json CHANGED Viewed

@@ -1,85 +1,52 @@
 {
-  "best_metric": 1.3398905992507935,
-  "best_model_checkpoint": "./trained_model/checkpoint-200",
-  "epoch": 6.0,
   "eval_steps": 100,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 2.0,
-      "learning_rate": 2.6666666666666667e-05,
-      "loss": 1.9101,
-      "step": 100
-    },
-    {
-      "epoch": 2.0,
-      "eval_gen_len": 12.7,
-      "eval_loss": 1.4032484292984009,
-      "eval_rouge1": 0.3928,
-      "eval_rouge2": 0.2897,
-      "eval_rougeL": 0.3915,
-      "eval_rougeLsum": 0.3911,
-      "eval_runtime": 14.5472,
-      "eval_samples_per_second": 6.874,
-      "eval_steps_per_second": 3.437,
       "step": 100
     },
     {
-      "epoch": 4.0,
-      "learning_rate": 1.3333333333333333e-05,
-      "loss": 1.4264,
-      "step": 200
-    },
-    {
-      "epoch": 4.0,
-      "eval_gen_len": 12.68,
-      "eval_loss": 1.3398905992507935,
-      "eval_rouge1": 0.3826,
-      "eval_rouge2": 0.2908,
-      "eval_rougeL": 0.3808,
-      "eval_rougeLsum": 0.3809,
-      "eval_runtime": 14.6388,
-      "eval_samples_per_second": 6.831,
-      "eval_steps_per_second": 3.416,
       "step": 200
     },
     {
-      "epoch": 6.0,
-      "learning_rate": 0.0,
-      "loss": 1.3121,
-      "step": 300
-    },
-    {
-      "epoch": 6.0,
-      "eval_gen_len": 13.16,
-      "eval_loss": 1.3339253664016724,
-      "eval_rouge1": 0.3878,
-      "eval_rouge2": 0.2902,
-      "eval_rougeL": 0.3871,
-      "eval_rougeLsum": 0.3871,
-      "eval_runtime": 15.4855,
-      "eval_samples_per_second": 6.458,
-      "eval_steps_per_second": 3.229,
       "step": 300
     },
     {
-      "epoch": 6.0,
-      "step": 300,
-      "total_flos": 111534302822400.0,
-      "train_loss": 1.5495406595865886,
-      "train_runtime": 75.3909,
-      "train_samples_per_second": 7.959,
-      "train_steps_per_second": 3.979
     }
   ],
-  "logging_steps": 100,
-  "max_steps": 300,
-  "num_train_epochs": 6,
-  "save_steps": 200,
-  "total_flos": 111534302822400.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9970126960418222,
   "eval_steps": 100,
+  "global_step": 382,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.52,
+      "eval_loss": 1.0140411853790283,
+      "eval_runtime": 1465.4694,
+      "eval_samples_per_second": 7.31,
+      "eval_steps_per_second": 0.914,
       "step": 100
     },
     {
+      "epoch": 1.05,
+      "eval_loss": 0.9791701436042786,
+      "eval_runtime": 1462.2287,
+      "eval_samples_per_second": 7.326,
+      "eval_steps_per_second": 0.916,
       "step": 200
     },
     {
+      "epoch": 1.57,
+      "eval_loss": 0.9779573678970337,
+      "eval_runtime": 1465.9156,
+      "eval_samples_per_second": 7.308,
+      "eval_steps_per_second": 0.914,
       "step": 300
     },
     {
+      "epoch": 2.0,
+      "step": 382,
+      "total_flos": 4.961368405337702e+16,
+      "train_loss": 0.8977117887966296,
+      "train_runtime": 14787.7789,
+      "train_samples_per_second": 1.449,
+      "train_steps_per_second": 0.026
     }
   ],
+  "logging_steps": 500,
+  "max_steps": 382,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "total_flos": 4.961368405337702e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47e37319b6c5f5fc1cf34c2c247f61d37f8f85bb95fcd70040aa535f8b9d85e4
-size 4219

 version https://git-lfs.github.com/spec/v1
+oid sha256:78c9fe5062705c374b5b532489d2b6c07ba7a6c5eec5526fda5268bc5595c0a7
+size 4536