End of training

Browse files

Files changed (6) hide show

README.md +42 -42
config.json +2 -2
model.safetensors +2 -2
runs/Mar16_12-59-48_83faed59bb9a/events.out.tfevents.1710593988.83faed59bb9a.5192.0 +3 -0
tokenizer.json +25 -23
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -13,7 +13,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [](https://huggingface.co/) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.1669
 ## Model description
@@ -44,51 +44,51 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 2.9295        | 1.0   | 6    | 2.2361          |
-| 2.0194        | 2.0   | 12   | 1.7202          |
-| 1.5748        | 3.0   | 18   | 1.3398          |
-| 1.2632        | 4.0   | 24   | 1.1425          |
-| 1.0983        | 5.0   | 30   | 0.9739          |
-| 0.9349        | 6.0   | 36   | 0.8281          |
-| 0.822         | 7.0   | 42   | 0.8311          |
-| 0.7876        | 8.0   | 48   | 0.7384          |
-| 0.7133        | 9.0   | 54   | 0.6575          |
-| 0.6574        | 10.0  | 60   | 0.6079          |
-| 0.5991        | 11.0  | 66   | 0.5648          |
-| 0.581         | 12.0  | 72   | 0.5233          |
-| 0.5475        | 13.0  | 78   | 0.5250          |
-| 0.5322        | 14.0  | 84   | 0.4741          |
-| 0.4975        | 15.0  | 90   | 0.4556          |
-| 0.4775        | 16.0  | 96   | 0.4322          |
-| 0.4436        | 17.0  | 102  | 0.4330          |
-| 0.4374        | 18.0  | 108  | 0.4130          |
-| 0.4231        | 19.0  | 114  | 0.3923          |
-| 0.4003        | 20.0  | 120  | 0.3696          |
-| 0.3734        | 21.0  | 126  | 0.3544          |
-| 0.3703        | 22.0  | 132  | 0.3490          |
-| 0.3603        | 23.0  | 138  | 0.3219          |
-| 0.3442        | 24.0  | 144  | 0.3091          |
-| 0.3151        | 25.0  | 150  | 0.2807          |
-| 0.2983        | 26.0  | 156  | 0.2681          |
-| 0.2833        | 27.0  | 162  | 0.2545          |
-| 0.2679        | 28.0  | 168  | 0.2419          |
-| 0.2625        | 29.0  | 174  | 0.2267          |
-| 0.2511        | 30.0  | 180  | 0.2158          |
-| 0.242         | 31.0  | 186  | 0.2167          |
-| 0.2227        | 32.0  | 192  | 0.2067          |
-| 0.2249        | 33.0  | 198  | 0.1975          |
-| 0.2198        | 34.0  | 204  | 0.1897          |
-| 0.2049        | 35.0  | 210  | 0.1827          |
-| 0.2019        | 36.0  | 216  | 0.1774          |
-| 0.2019        | 37.0  | 222  | 0.1768          |
-| 0.1874        | 38.0  | 228  | 0.1701          |
-| 0.1852        | 39.0  | 234  | 0.1684          |
-| 0.1875        | 40.0  | 240  | 0.1669          |
 ### Framework versions
 - Transformers 4.39.0.dev0
-- Pytorch 2.1.0+cu121
 - Datasets 2.18.0
 - Tokenizers 0.15.2

 This model is a fine-tuned version of [](https://huggingface.co/) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0886
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 2.9371        | 1.0   | 6    | 2.2809          |
+| 2.0329        | 2.0   | 12   | 1.7417          |
+| 1.5558        | 3.0   | 18   | 1.3281          |
+| 1.2296        | 4.0   | 24   | 1.1153          |
+| 1.0568        | 5.0   | 30   | 0.9804          |
+| 0.935         | 6.0   | 36   | 0.8776          |
+| 0.8432        | 7.0   | 42   | 0.7807          |
+| 0.7598        | 8.0   | 48   | 0.7081          |
+| 0.6977        | 9.0   | 54   | 0.6922          |
+| 0.6587        | 10.0  | 60   | 0.6535          |
+| 0.6083        | 11.0  | 66   | 0.5866          |
+| 0.5913        | 12.0  | 72   | 0.5483          |
+| 0.5361        | 13.0  | 78   | 0.4847          |
+| 0.4944        | 14.0  | 84   | 0.4919          |
+| 0.4768        | 15.0  | 90   | 0.4696          |
+| 0.4375        | 16.0  | 96   | 0.4223          |
+| 0.4205        | 17.0  | 102  | 0.3673          |
+| 0.379         | 18.0  | 108  | 0.3210          |
+| 0.3334        | 19.0  | 114  | 0.2762          |
+| 0.3065        | 20.0  | 120  | 0.2556          |
+| 0.2759        | 21.0  | 126  | 0.2456          |
+| 0.2589        | 22.0  | 132  | 0.2186          |
+| 0.2374        | 23.0  | 138  | 0.2009          |
+| 0.2248        | 24.0  | 144  | 0.1943          |
+| 0.2182        | 25.0  | 150  | 0.1972          |
+| 0.2181        | 26.0  | 156  | 0.1695          |
+| 0.1999        | 27.0  | 162  | 0.1829          |
+| 0.2048        | 28.0  | 168  | 0.1786          |
+| 0.1865        | 29.0  | 174  | 0.1371          |
+| 0.1667        | 30.0  | 180  | 0.1323          |
+| 0.161         | 31.0  | 186  | 0.1301          |
+| 0.1442        | 32.0  | 192  | 0.1162          |
+| 0.1365        | 33.0  | 198  | 0.1111          |
+| 0.1298        | 34.0  | 204  | 0.1054          |
+| 0.1295        | 35.0  | 210  | 0.1001          |
+| 0.1223        | 36.0  | 216  | 0.0974          |
+| 0.1222        | 37.0  | 222  | 0.0939          |
+| 0.1227        | 38.0  | 228  | 0.0921          |
+| 0.1198        | 39.0  | 234  | 0.0895          |
+| 0.1139        | 40.0  | 240  | 0.0886          |
 ### Framework versions
 - Transformers 4.39.0.dev0
+- Pytorch 2.2.1+cu121
 - Datasets 2.18.0
 - Tokenizers 0.15.2

config.json CHANGED Viewed

@@ -78,7 +78,7 @@
     "typical_p": 1.0,
     "use_bfloat16": false,
     "use_cache": true,
-    "vocab_size": 52
   },
   "decoder_start_token_id": 2,
   "encoder": {
@@ -157,7 +157,7 @@
     "typical_p": 1.0,
     "use_bfloat16": false,
     "use_cache": true,
-    "vocab_size": 52
   },
   "eos_token_id": 0,
   "is_encoder_decoder": true,

     "typical_p": 1.0,
     "use_bfloat16": false,
     "use_cache": true,
+    "vocab_size": 53
   },
   "decoder_start_token_id": 2,
   "encoder": {
     "typical_p": 1.0,
     "use_bfloat16": false,
     "use_cache": true,
+    "vocab_size": 53
   },
   "eos_token_id": 0,
   "is_encoder_decoder": true,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62b34c6d0d83f290d5bf53a10d4db30cdb72c20b2c37734f085fe798196f91bc
-size 31205552

 version https://git-lfs.github.com/spec/v1
+oid sha256:036a0dca403e01d5994de5b8ddacb9ff4cc0b1b9c088e5891d2475e994ab27df
+size 31207604

runs/Mar16_12-59-48_83faed59bb9a/events.out.tfevents.1710593988.83faed59bb9a.5192.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f00e750b1cd8d5413dffa722c9c2a1b3ae433eb1cf4f07c24b7ac53a48f1d70
+size 28002

tokenizer.json CHANGED Viewed

@@ -113,78 +113,80 @@
       "8": 14,
       "9": 15,
       "=": 16,
-      "99": 17,
-      "10": 18,
-      "98": 19,
-      "11": 20,
       "97": 21,
       "12": 22,
       "13": 23,
       "96": 24,
       "14": 25,
       "95": 26,
-      "15": 27,
-      "94": 28,
       "93": 29,
       "16": 30,
-      "17": 31,
-      "92": 32,
       "18": 33,
       "91": 34,
-      "19": 35,
-      "90": 36,
       "89": 37,
       "20": 38,
       "21": 39,
       "88": 40,
       "87": 41,
       "22": 42,
-      "23": 43,
-      "86": 44,
       "85": 45,
       "24": 46,
-      "84": 47,
-      "25": 48,
       "26": 49,
       "83": 50,
-      "27": 51
     },
     "merges": [
-      "9 9",
       "1 0",
-      "9 8",
       "1 1",
       "9 7",
       "1 2",
       "1 3",
       "9 6",
       "1 4",
       "9 5",
-      "1 5",
       "9 4",
       "9 3",
       "1 6",
-      "1 7",
       "9 2",
       "1 8",
       "9 1",
-      "1 9",
       "9 0",
       "8 9",
       "2 0",
       "2 1",
       "8 8",
       "8 7",
       "2 2",
-      "2 3",
       "8 6",
       "8 5",
       "2 4",
-      "8 4",
       "2 5",
       "2 6",
       "8 3",
-      "2 7"
     ]
   }
 }

       "8": 14,
       "9": 15,
       "=": 16,
+      "10": 17,
+      "99": 18,
+      "11": 19,
+      "98": 20,
       "97": 21,
       "12": 22,
       "13": 23,
       "96": 24,
       "14": 25,
       "95": 26,
+      "94": 27,
+      "15": 28,
       "93": 29,
       "16": 30,
+      "92": 31,
+      "17": 32,
       "18": 33,
       "91": 34,
+      "90": 35,
+      "19": 36,
       "89": 37,
       "20": 38,
       "21": 39,
       "88": 40,
       "87": 41,
       "22": 42,
+      "86": 43,
+      "23": 44,
       "85": 45,
       "24": 46,
+      "25": 47,
+      "84": 48,
       "26": 49,
       "83": 50,
+      "27": 51,
+      "82": 52
     },
     "merges": [
       "1 0",
+      "9 9",
       "1 1",
+      "9 8",
       "9 7",
       "1 2",
       "1 3",
       "9 6",
       "1 4",
       "9 5",
       "9 4",
+      "1 5",
       "9 3",
       "1 6",
       "9 2",
+      "1 7",
       "1 8",
       "9 1",
       "9 0",
+      "1 9",
       "8 9",
       "2 0",
       "2 1",
       "8 8",
       "8 7",
       "2 2",
       "8 6",
+      "2 3",
       "8 5",
       "2 4",
       "2 5",
+      "8 4",
       "2 6",
       "8 3",
+      "2 7",
+      "8 2"
     ]
   }
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ee497ef9b8eebcdab0ca76dc0a587a912a428b75caf3ef0a83430ce1408f050
 size 5112

 version https://git-lfs.github.com/spec/v1
+oid sha256:845a264c5883bb341f7bc3050bf1b8f5934599fbd3443492f28c880f5f344157
 size 5112