Training in progress, step 200, checkpoint

Browse files

Files changed (11) hide show

last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state_0.pth +3 -0
last-checkpoint/rng_state_1.pth +3 -0
last-checkpoint/rng_state_2.pth +3 -0
last-checkpoint/rng_state_3.pth +3 -0
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +96 -540
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96eefb2ab4b204e9308bae75f26755bc252532bdfce90c247e78733a4199e1e2
 size 4939116424

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f1bd28175fd7513f12729e17ee3571da7edbf57f145604ce22771573d115cc5
 size 4939116424

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4096a8c7f67ddbd2910b504765f448908fdd008051d764d2428a8cf62c11b3d
 size 4947390880

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1e18b7d14aadcdd3ffd84212a90763f05677810d6606b0228ab48fc71aa8693
 size 4947390880

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c892e15db6ad07c12e5d0e95b0debfd095cf21e2bf401f6eca45fe7f25d85cb
 size 3590619888

 version https://git-lfs.github.com/spec/v1
+oid sha256:74fed502be8e1cd05be29c5fb4cde46eadd9a078e63d9feccc111a8be0fd8b78
 size 3590619888

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ab754728a1608ca4beccfa68dff15ae8a33135223828648ca1ace40d391f5d2
-size 13688025904

 version https://git-lfs.github.com/spec/v1
+oid sha256:3fd2e81881ebf33c7ad08f1ccd0211e7362bde834184d4d59f2f5bba227a0771
+size 13688025584

last-checkpoint/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f20d155a14d34cd1bb6d04e5de90f3224906e1758821edd752a8f1a9085a2db
+size 15024

last-checkpoint/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad18e870a176ca75a54f6620f83de92bdfd5a91302744d90bff8e5feae2fe0c5
+size 15024

last-checkpoint/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9009a52be47b75834407dc5e146ed5360e6f23a35bff27bab34ef6fb47df1661
+size 15024

last-checkpoint/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fb494a08fd57e7c6f63f06826c872164986e81b271996be0496671f713bdcc3
+size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40b6b717644e21f80a22ec98694b3a2fd9d62a6467e549d64314725dba905d52
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cd11d413bc67bf01de9a1a006e9e7655be307353028b25f5b3c299e5b6b7a44
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,619 +1,175 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.11839573775344088,
   "eval_steps": 200,
-  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0001479946721918011,
-      "eval_loss": 2.158451557159424,
-      "eval_runtime": 117.4597,
-      "eval_samples_per_second": 12.787,
-      "eval_steps_per_second": 6.394,
       "step": 1
     },
     {
-      "epoch": 0.001479946721918011,
-      "grad_norm": 17.875,
-      "learning_rate": 1.6000000000000003e-05,
-      "loss": 1.876,
       "step": 10
     },
     {
-      "epoch": 0.002959893443836022,
-      "grad_norm": 11.9375,
-      "learning_rate": 3.2000000000000005e-05,
-      "loss": 1.8982,
       "step": 20
     },
     {
-      "epoch": 0.0044398401657540325,
-      "grad_norm": 22.125,
-      "learning_rate": 4.8e-05,
-      "loss": 1.6963,
       "step": 30
     },
     {
-      "epoch": 0.005919786887672044,
-      "grad_norm": 21.25,
-      "learning_rate": 6.400000000000001e-05,
-      "loss": 1.7986,
       "step": 40
     },
     {
-      "epoch": 0.007399733609590055,
-      "grad_norm": 26.375,
-      "learning_rate": 8e-05,
-      "loss": 1.3725,
       "step": 50
     },
     {
-      "epoch": 0.008879680331508065,
-      "grad_norm": 6.9375,
-      "learning_rate": 9.6e-05,
-      "loss": 1.9612,
       "step": 60
     },
     {
-      "epoch": 0.010359627053426078,
-      "grad_norm": 19.625,
-      "learning_rate": 0.00011200000000000001,
-      "loss": 2.0516,
       "step": 70
     },
     {
-      "epoch": 0.011839573775344088,
-      "grad_norm": 16.875,
-      "learning_rate": 0.00012800000000000002,
-      "loss": 1.5824,
       "step": 80
     },
     {
-      "epoch": 0.0133195204972621,
-      "grad_norm": 21.5,
-      "learning_rate": 0.000144,
-      "loss": 2.2526,
       "step": 90
     },
     {
-      "epoch": 0.01479946721918011,
-      "grad_norm": 85.5,
-      "learning_rate": 0.00016,
-      "loss": 2.2656,
       "step": 100
     },
     {
-      "epoch": 0.01627941394109812,
-      "grad_norm": 58.25,
-      "learning_rate": 0.00017600000000000002,
-      "loss": 2.3181,
       "step": 110
     },
     {
-      "epoch": 0.01775936066301613,
-      "grad_norm": 14.25,
-      "learning_rate": 0.000192,
-      "loss": 2.4921,
       "step": 120
     },
     {
-      "epoch": 0.01923930738493414,
-      "grad_norm": 15.5625,
-      "learning_rate": 0.0001999978128380225,
-      "loss": 2.5357,
       "step": 130
     },
     {
-      "epoch": 0.020719254106852155,
-      "grad_norm": 23.75,
-      "learning_rate": 0.0001999803161162393,
-      "loss": 2.8389,
       "step": 140
     },
     {
-      "epoch": 0.022199200828770166,
-      "grad_norm": 115.5,
-      "learning_rate": 0.00019994532573409262,
-      "loss": 3.7381,
       "step": 150
     },
     {
-      "epoch": 0.023679147550688177,
-      "grad_norm": 17.25,
-      "learning_rate": 0.00019989284781388617,
-      "loss": 3.1991,
       "step": 160
     },
     {
-      "epoch": 0.025159094272606188,
-      "grad_norm": 19.0,
-      "learning_rate": 0.00019982289153773646,
-      "loss": 3.3157,
       "step": 170
     },
     {
-      "epoch": 0.0266390409945242,
-      "grad_norm": 11.3125,
-      "learning_rate": 0.00019973546914596623,
-      "loss": 3.309,
       "step": 180
     },
     {
-      "epoch": 0.02811898771644221,
-      "grad_norm": 105.0,
-      "learning_rate": 0.00019963059593496268,
-      "loss": 3.2528,
       "step": 190
     },
     {
-      "epoch": 0.02959893443836022,
-      "grad_norm": 137.0,
-      "learning_rate": 0.00019950829025450114,
-      "loss": 4.8144,
       "step": 200
     },
     {
-      "epoch": 0.02959893443836022,
-      "eval_loss": 4.562154293060303,
-      "eval_runtime": 115.3725,
-      "eval_samples_per_second": 13.019,
-      "eval_steps_per_second": 6.509,
       "step": 200
-    },
-    {
-      "epoch": 0.03107888116027823,
-      "grad_norm": 14.625,
-      "learning_rate": 0.0001993685735045343,
-      "loss": 3.9662,
-      "step": 210
-    },
-    {
-      "epoch": 0.03255882788219624,
-      "grad_norm": 18.0,
-      "learning_rate": 0.0001992114701314478,
-      "loss": 3.1902,
-      "step": 220
-    },
-    {
-      "epoch": 0.03403877460411425,
-      "grad_norm": 24.625,
-      "learning_rate": 0.000199037007623783,
-      "loss": 3.4792,
-      "step": 230
-    },
-    {
-      "epoch": 0.03551872132603226,
-      "grad_norm": 46.0,
-      "learning_rate": 0.00019884521650742715,
-      "loss": 3.7192,
-      "step": 240
-    },
-    {
-      "epoch": 0.036998668047950274,
-      "grad_norm": 28.0,
-      "learning_rate": 0.00019863613034027224,
-      "loss": 3.6487,
-      "step": 250
-    },
-    {
-      "epoch": 0.03847861476986828,
-      "grad_norm": 139.0,
-      "learning_rate": 0.0001984097857063434,
-      "loss": 4.3462,
-      "step": 260
-    },
-    {
-      "epoch": 0.039958561491786296,
-      "grad_norm": 13.875,
-      "learning_rate": 0.0001981662222093976,
-      "loss": 3.3132,
-      "step": 270
-    },
-    {
-      "epoch": 0.04143850821370431,
-      "grad_norm": 29.5,
-      "learning_rate": 0.00019790548246599447,
-      "loss": 3.3523,
-      "step": 280
-    },
-    {
-      "epoch": 0.04291845493562232,
-      "grad_norm": 43.75,
-      "learning_rate": 0.00019762761209803927,
-      "loss": 3.8529,
-      "step": 290
-    },
-    {
-      "epoch": 0.04439840165754033,
-      "grad_norm": 234.0,
-      "learning_rate": 0.0001973326597248006,
-      "loss": 4.7306,
-      "step": 300
-    },
-    {
-      "epoch": 0.04587834837945834,
-      "grad_norm": 17.625,
-      "learning_rate": 0.00019702067695440332,
-      "loss": 4.0088,
-      "step": 310
-    },
-    {
-      "epoch": 0.04735829510137635,
-      "grad_norm": 10.0625,
-      "learning_rate": 0.00019669171837479873,
-      "loss": 3.4104,
-      "step": 320
-    },
-    {
-      "epoch": 0.04883824182329436,
-      "grad_norm": 12.6875,
-      "learning_rate": 0.00019634584154421317,
-      "loss": 3.6337,
-      "step": 330
-    },
-    {
-      "epoch": 0.050318188545212375,
-      "grad_norm": 16.75,
-      "learning_rate": 0.00019598310698107702,
-      "loss": 3.6344,
-      "step": 340
-    },
-    {
-      "epoch": 0.05179813526713038,
-      "grad_norm": 21.625,
-      "learning_rate": 0.00019560357815343577,
-      "loss": 3.8887,
-      "step": 350
-    },
-    {
-      "epoch": 0.0532780819890484,
-      "grad_norm": 8.5625,
-      "learning_rate": 0.00019520732146784491,
-      "loss": 3.9023,
-      "step": 360
-    },
-    {
-      "epoch": 0.054758028710966404,
-      "grad_norm": 10.625,
-      "learning_rate": 0.0001947944062577507,
-      "loss": 3.7002,
-      "step": 370
-    },
-    {
-      "epoch": 0.05623797543288442,
-      "grad_norm": 34.25,
-      "learning_rate": 0.00019436490477135878,
-      "loss": 3.7505,
-      "step": 380
-    },
-    {
-      "epoch": 0.057717922154802426,
-      "grad_norm": 17.75,
-      "learning_rate": 0.00019391889215899299,
-      "loss": 3.9776,
-      "step": 390
-    },
-    {
-      "epoch": 0.05919786887672044,
-      "grad_norm": 41.25,
-      "learning_rate": 0.0001934564464599461,
-      "loss": 3.6903,
-      "step": 400
-    },
-    {
-      "epoch": 0.05919786887672044,
-      "eval_loss": 5.192676544189453,
-      "eval_runtime": 115.1721,
-      "eval_samples_per_second": 13.041,
-      "eval_steps_per_second": 6.521,
-      "step": 400
-    },
-    {
-      "epoch": 0.06067781559863845,
-      "grad_norm": 14.375,
-      "learning_rate": 0.00019297764858882514,
-      "loss": 4.2204,
-      "step": 410
-    },
-    {
-      "epoch": 0.06215776232055646,
-      "grad_norm": 17.75,
-      "learning_rate": 0.00019248258232139388,
-      "loss": 3.7817,
-      "step": 420
-    },
-    {
-      "epoch": 0.06363770904247447,
-      "grad_norm": 25.5,
-      "learning_rate": 0.00019197133427991436,
-      "loss": 3.8348,
-      "step": 430
-    },
-    {
-      "epoch": 0.06511765576439248,
-      "grad_norm": 16.375,
-      "learning_rate": 0.00019144399391799043,
-      "loss": 4.1359,
-      "step": 440
-    },
-    {
-      "epoch": 0.0665976024863105,
-      "grad_norm": 126.5,
-      "learning_rate": 0.00019090065350491626,
-      "loss": 3.8639,
-      "step": 450
-    },
-    {
-      "epoch": 0.0680775492082285,
-      "grad_norm": 10.5,
-      "learning_rate": 0.0001903414081095315,
-      "loss": 4.3344,
-      "step": 460
-    },
-    {
-      "epoch": 0.06955749593014651,
-      "grad_norm": 9.625,
-      "learning_rate": 0.00018976635558358722,
-      "loss": 3.7876,
-      "step": 470
-    },
-    {
-      "epoch": 0.07103744265206452,
-      "grad_norm": 12.75,
-      "learning_rate": 0.00018917559654462474,
-      "loss": 4.0847,
-      "step": 480
-    },
-    {
-      "epoch": 0.07251738937398254,
-      "grad_norm": 56.75,
-      "learning_rate": 0.00018856923435837022,
-      "loss": 4.2232,
-      "step": 490
-    },
-    {
-      "epoch": 0.07399733609590055,
-      "grad_norm": 49.0,
-      "learning_rate": 0.0001879473751206489,
-      "loss": 4.3389,
-      "step": 500
-    },
-    {
-      "epoch": 0.07547728281781856,
-      "grad_norm": 7.96875,
-      "learning_rate": 0.00018731012763882133,
-      "loss": 4.1522,
-      "step": 510
-    },
-    {
-      "epoch": 0.07695722953973656,
-      "grad_norm": 10.8125,
-      "learning_rate": 0.00018665760341274505,
-      "loss": 4.0533,
-      "step": 520
-    },
-    {
-      "epoch": 0.07843717626165458,
-      "grad_norm": 18.0,
-      "learning_rate": 0.00018598991661526572,
-      "loss": 4.0835,
-      "step": 530
-    },
-    {
-      "epoch": 0.07991712298357259,
-      "grad_norm": 34.5,
-      "learning_rate": 0.00018530718407223974,
-      "loss": 3.5388,
-      "step": 540
-    },
-    {
-      "epoch": 0.0813970697054906,
-      "grad_norm": 28.375,
-      "learning_rate": 0.00018460952524209355,
-      "loss": 4.2171,
-      "step": 550
-    },
-    {
-      "epoch": 0.08287701642740862,
-      "grad_norm": 13.125,
-      "learning_rate": 0.00018389706219492147,
-      "loss": 4.2511,
-      "step": 560
-    },
-    {
-      "epoch": 0.08435696314932663,
-      "grad_norm": 13.1875,
-      "learning_rate": 0.00018316991959112716,
-      "loss": 3.9025,
-      "step": 570
-    },
-    {
-      "epoch": 0.08583690987124463,
-      "grad_norm": 15.3125,
-      "learning_rate": 0.00018242822465961176,
-      "loss": 4.0034,
-      "step": 580
-    },
-    {
-      "epoch": 0.08731685659316264,
-      "grad_norm": 33.0,
-      "learning_rate": 0.00018167210717551224,
-      "loss": 4.0514,
-      "step": 590
-    },
-    {
-      "epoch": 0.08879680331508066,
-      "grad_norm": 35.0,
-      "learning_rate": 0.00018090169943749476,
-      "loss": 4.0116,
-      "step": 600
-    },
-    {
-      "epoch": 0.08879680331508066,
-      "eval_loss": 4.839527130126953,
-      "eval_runtime": 115.7002,
-      "eval_samples_per_second": 12.982,
-      "eval_steps_per_second": 6.491,
-      "step": 600
-    },
-    {
-      "epoch": 0.09027675003699867,
-      "grad_norm": 9.9375,
-      "learning_rate": 0.00018011713624460608,
-      "loss": 4.2757,
-      "step": 610
-    },
-    {
-      "epoch": 0.09175669675891668,
-      "grad_norm": 9.375,
-      "learning_rate": 0.00017931855487268782,
-      "loss": 3.9496,
-      "step": 620
-    },
-    {
-      "epoch": 0.09323664348083469,
-      "grad_norm": 17.5,
-      "learning_rate": 0.0001785060950503568,
-      "loss": 4.0227,
-      "step": 630
-    },
-    {
-      "epoch": 0.0947165902027527,
-      "grad_norm": 12.0,
-      "learning_rate": 0.00017767989893455698,
-      "loss": 4.3345,
-      "step": 640
-    },
-    {
-      "epoch": 0.09619653692467071,
-      "grad_norm": 40.75,
-      "learning_rate": 0.00017684011108568592,
-      "loss": 3.2456,
-      "step": 650
-    },
-    {
-      "epoch": 0.09767648364658872,
-      "grad_norm": 6.03125,
-      "learning_rate": 0.00017598687844230088,
-      "loss": 4.296,
-      "step": 660
-    },
-    {
-      "epoch": 0.09915643036850673,
-      "grad_norm": 10.75,
-      "learning_rate": 0.00017512035029540885,
-      "loss": 3.8307,
-      "step": 670
-    },
-    {
-      "epoch": 0.10063637709042475,
-      "grad_norm": 11.9375,
-      "learning_rate": 0.000174240678262345,
-      "loss": 3.8659,
-      "step": 680
-    },
-    {
-      "epoch": 0.10211632381234276,
-      "grad_norm": 21.75,
-      "learning_rate": 0.000173348016260244,
-      "loss": 4.0579,
-      "step": 690
-    },
-    {
-      "epoch": 0.10359627053426076,
-      "grad_norm": 29.625,
-      "learning_rate": 0.00017244252047910892,
-      "loss": 3.8463,
-      "step": 700
-    },
-    {
-      "epoch": 0.10507621725617877,
-      "grad_norm": 12.75,
-      "learning_rate": 0.00017152434935448256,
-      "loss": 4.225,
-      "step": 710
-    },
-    {
-      "epoch": 0.1065561639780968,
-      "grad_norm": 9.0625,
-      "learning_rate": 0.0001705936635397259,
-      "loss": 3.5182,
-      "step": 720
-    },
-    {
-      "epoch": 0.1080361107000148,
-      "grad_norm": 14.75,
-      "learning_rate": 0.00016965062587790823,
-      "loss": 4.0649,
-      "step": 730
-    },
-    {
-      "epoch": 0.10951605742193281,
-      "grad_norm": 19.0,
-      "learning_rate": 0.00016869540137331445,
-      "loss": 4.2849,
-      "step": 740
-    },
-    {
-      "epoch": 0.11099600414385082,
-      "grad_norm": 34.5,
-      "learning_rate": 0.00016772815716257412,
-      "loss": 3.65,
-      "step": 750
-    },
-    {
-      "epoch": 0.11247595086576884,
-      "grad_norm": 11.0,
-      "learning_rate": 0.00016674906248541726,
-      "loss": 4.1331,
-      "step": 760
-    },
-    {
-      "epoch": 0.11395589758768684,
-      "grad_norm": 38.0,
-      "learning_rate": 0.00016575828865506245,
-      "loss": 3.5679,
-      "step": 770
-    },
-    {
-      "epoch": 0.11543584430960485,
-      "grad_norm": 9.8125,
-      "learning_rate": 0.0001647560090282419,
-      "loss": 3.573,
-      "step": 780
-    },
-    {
-      "epoch": 0.11691579103152286,
-      "grad_norm": 14.0,
-      "learning_rate": 0.000163742398974869,
-      "loss": 3.9581,
-      "step": 790
-    },
-    {
-      "epoch": 0.11839573775344088,
-      "grad_norm": 20.25,
-      "learning_rate": 0.0001627176358473537,
-      "loss": 4.0812,
-      "step": 800
-    },
-    {
-      "epoch": 0.11839573775344088,
-      "eval_loss": 4.436325550079346,
-      "eval_runtime": 113.0291,
-      "eval_samples_per_second": 13.289,
-      "eval_steps_per_second": 6.644,
-      "step": 800
     }
   ],
   "logging_steps": 10,
-  "max_steps": 2500,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
-  "save_steps": 400,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -626,7 +182,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3006933354296115e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.8518518518518519,
   "eval_steps": 200,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.009259259259259259,
+      "eval_loss": 2.1662161350250244,
+      "eval_runtime": 32.9047,
+      "eval_samples_per_second": 45.617,
+      "eval_steps_per_second": 5.713,
       "step": 1
     },
     {
+      "epoch": 0.09259259259259259,
+      "grad_norm": 2.796875,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 1.8575,
       "step": 10
     },
     {
+      "epoch": 0.18518518518518517,
+      "grad_norm": 1.75,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 1.8329,
       "step": 20
     },
     {
+      "epoch": 0.2777777777777778,
+      "grad_norm": 2.15625,
+      "learning_rate": 0.0002,
+      "loss": 1.8697,
       "step": 30
     },
     {
+      "epoch": 0.37037037037037035,
+      "grad_norm": 2.0,
+      "learning_rate": 0.00019984815164333163,
+      "loss": 1.9683,
       "step": 40
     },
     {
+      "epoch": 0.46296296296296297,
+      "grad_norm": 1.3046875,
+      "learning_rate": 0.00019939306773179497,
+      "loss": 2.0113,
       "step": 50
     },
     {
+      "epoch": 0.5555555555555556,
+      "grad_norm": 1.5703125,
+      "learning_rate": 0.00019863613034027224,
+      "loss": 2.0568,
       "step": 60
     },
     {
+      "epoch": 0.6481481481481481,
+      "grad_norm": 1.3984375,
+      "learning_rate": 0.00019757963826274357,
+      "loss": 2.1038,
       "step": 70
     },
     {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 1.3203125,
+      "learning_rate": 0.00019622680003092503,
+      "loss": 2.1133,
       "step": 80
     },
     {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 1.421875,
+      "learning_rate": 0.00019458172417006347,
+      "loss": 2.1036,
       "step": 90
     },
     {
+      "epoch": 0.9259259259259259,
+      "grad_norm": 1.453125,
+      "learning_rate": 0.00019264940672148018,
+      "loss": 2.1255,
       "step": 100
     },
     {
+      "epoch": 1.0185185185185186,
+      "grad_norm": 1.3984375,
+      "learning_rate": 0.00019043571606975777,
+      "loss": 1.8837,
       "step": 110
     },
     {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 1.328125,
+      "learning_rate": 0.0001879473751206489,
+      "loss": 0.9892,
       "step": 120
     },
     {
+      "epoch": 1.2037037037037037,
+      "grad_norm": 1.1015625,
+      "learning_rate": 0.00018519194088383273,
+      "loss": 0.9478,
       "step": 130
     },
     {
+      "epoch": 1.2962962962962963,
+      "grad_norm": 1.21875,
+      "learning_rate": 0.0001821777815225245,
+      "loss": 0.9602,
       "step": 140
     },
     {
+      "epoch": 1.3888888888888888,
+      "grad_norm": 1.2265625,
+      "learning_rate": 0.00017891405093963938,
+      "loss": 0.9669,
       "step": 150
     },
     {
+      "epoch": 1.4814814814814814,
+      "grad_norm": 1.1640625,
+      "learning_rate": 0.00017541066097768963,
+      "loss": 0.9945,
       "step": 160
     },
     {
+      "epoch": 1.574074074074074,
+      "grad_norm": 1.1875,
+      "learning_rate": 0.00017167825131684513,
+      "loss": 0.9809,
       "step": 170
     },
     {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 1.078125,
+      "learning_rate": 0.00016772815716257412,
+      "loss": 1.0197,
       "step": 180
     },
     {
+      "epoch": 1.7592592592592593,
+      "grad_norm": 1.2109375,
+      "learning_rate": 0.00016357237482099684,
+      "loss": 1.0018,
       "step": 190
     },
     {
+      "epoch": 1.8518518518518519,
+      "grad_norm": 1.3125,
+      "learning_rate": 0.00015922352526649803,
+      "loss": 1.0298,
       "step": 200
     },
     {
+      "epoch": 1.8518518518518519,
+      "eval_loss": 2.0912892818450928,
+      "eval_runtime": 31.2593,
+      "eval_samples_per_second": 48.018,
+      "eval_steps_per_second": 6.014,
       "step": 200
     }
   ],
   "logging_steps": 10,
+  "max_steps": 600,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 200,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 1.2990695522435072e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8953c8f78e882c2468a8fd9123e7e01d1ba2fa70223c087509fa59b852ab047
 size 6840

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7e4cc380bf07566f66cbd6e04a4bdc7a8bc1f51ced4f92d8dc2abee469a5015
 size 6840