MrezaPRZ commited on Jun 3

Commit

6a92c65

verified ·

1 Parent(s): 5a0a316

Upload model weights without loading

Browse files

Files changed (22) hide show

global_step250/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
global_step250/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
global_step250/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
global_step250/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
global_step250/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
global_step250/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
global_step250/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
global_step250/mp_rank_00_model_states.pt +3 -0
latest +1 -1
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
rng_state_0.pth +1 -1
rng_state_1.pth +1 -1
rng_state_2.pth +1 -1
rng_state_3.pth +1 -1
rng_state_4.pth +1 -1
rng_state_5.pth +1 -1
rng_state_6.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +2 -2312

global_step250/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86f0e6bc951a93ac39db4a44f299de83ade29062afced9bb379f1349903e3a15
+size 6561681042

global_step250/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:337d51d18b17196fd8c32379b262f19468f1e1f43919074a266a60af8bd61369
+size 6561681938

global_step250/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3223c884602b6fafc572f6c77cd59f31cf17fba5180e053578a0fd52eda83923
+size 6561682258

global_step250/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3abdb950669dd654e6b4e97951a9d0ed173307fbbb72114f38125d3c29259987
+size 6561682322

global_step250/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:afa9b1588788c2c211b94d114b59b8d30e9475308b81d19118a303c7ec7f63a5
+size 6561682066

global_step250/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e829c67495623963abc2a5d314cfd3657d65ee56347e2329f6a90d4b4b3b9f62
+size 6561682194

global_step250/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1af45740b93c3df5fd638805d7bfaaf213cf45fea86b1a98ba60d692df592850
+size 6561680914

global_step250/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e0c85d761a34dd5008299bd13daf706810467809fa880cc31d5e42d3728d9a6
+size 15231325496

latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step500~~


1	+ global_step250

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eadbfbd48cc5b40d600f3ffb87504e48684e86b2a29842d98e29cb160593e02a
 size 4877660776

 version https://git-lfs.github.com/spec/v1
+oid sha256:c78d0bce9791b543a7af89c557c229e654f50989e81d982cb76181c4056ac3fb
 size 4877660776

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6692801ce0554dc77c0a8bd013c10680043998299a35ddf6fc4dd827ab72e335
 size 4932751008

 version https://git-lfs.github.com/spec/v1
+oid sha256:191285cfb3da4f3826c48b7ebdcb1163fe004e4c76ce52392d406e4a60e3a3ef
 size 4932751008

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:665097a5dbbfba1171d333773269e4f308243329c90b27c95021ea3c46050784
 size 4330865200

 version https://git-lfs.github.com/spec/v1
+oid sha256:15463bf3a253b51f57b77c76c08b2c38328058bd786e22cfa6fe5c4955603b5f
 size 4330865200

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2cc062cc4dadcb46a6b83a3a14f82c537d2612111c118c493d92c8ce0d613bbf
 size 1089994880

 version https://git-lfs.github.com/spec/v1
+oid sha256:7847bd0dfe43baf65264360ad8bc2ef6593520642d9d3b9849cf5ce06b33c8e7
 size 1089994880

rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce7735b8426e027d481b4486d73a7492ec1f5aeb6676efa98f19e24c421d1b8d
 size 15728

 version https://git-lfs.github.com/spec/v1
+oid sha256:53a4a6e4ee2c1c3e54aeba8fde3b12aed386b25672713081c2ddb430c79e0675
 size 15728

rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a7392169e6a4f157f46b5eabdc92dba9590d1e0808406db0536822a4591c0bb
 size 15728

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1f7d859088c96953afc5ac400719d89ff0f766fb4408002312f248920718b71
 size 15728

rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52eb5d2fc54f9c24ad52fc848c3170b959f4b0c1f202a69e68c8f5b68ec8fe44
 size 15728

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1f2871c55d9d48a29d339e9af3014584d847660f80a288c6cedb04faf7b78ea
 size 15728

rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce60e994ef49aac074c806bd96c243e0f04561a966e2ea02c3d0bdd3f376d2c4
 size 15792

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb9b78ed51210787260e8696ca01a949db4d11e28ad8963528231cb9dd41ef70
 size 15792

rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67b0b5447f3b7cef45f3506dc01dc20060faa495ccc944975e2ace8cf9f4481d
 size 15728

 version https://git-lfs.github.com/spec/v1
+oid sha256:5777c7050cc3294af29788a1145da1f300d67442aa5a78d661a09525b61b1cff
 size 15728

rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db48a45e9262178121d8e81d7a8b6d8f911858f21d7d89272a374934d8d72a3e
 size 15728

 version https://git-lfs.github.com/spec/v1
+oid sha256:84b2d5cc25fe46d8f3916099450e0b7e0b820f3236fc46032db853e5ff809c7c
 size 15728

rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0805f43161d8ced84c3aa08174861b9f8d1a33ab7be69b65bedb0329ed810b7b
 size 15728

 version https://git-lfs.github.com/spec/v1
+oid sha256:3bb02a663a81d6ab856ac3e25e8c97e2ece72b0143440a7c95a92c92d39c9dfc
 size 15728

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08700a617eca3873937a04b3a836821cf0c2c003eb33be7c9039ba1cfd407652
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdfd40b6bea2f9491916899d888ae142373ca96e34d6115e4bebaa51cd22ea04
 size 1064

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.285185185185185,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2323,2316 +2323,6 @@
       "learning_rate": 1e-06,
       "loss": 0.0002,
       "step": 250
-    },
-    {
-      "clip_ratio": 0.00014695563593358245,
-      "epoch": 1.6416666666666666,
-      "grad_norm": 0.08961236476898193,
-      "learning_rate": 1e-06,
-      "loss": -0.0001,
-      "step": 251
-    },
-    {
-      "clip_ratio": 0.0002890962827049883,
-      "epoch": 1.6481481481481481,
-      "grad_norm": 0.08664807677268982,
-      "learning_rate": 1e-06,
-      "loss": -0.0006,
-      "step": 252
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 372.3832252139137,
-      "epoch": 1.6546296296296297,
-      "grad_norm": 0.0890711322426796,
-      "learning_rate": 1e-06,
-      "loss": 0.0023,
-      "num_tokens": 234104038.0,
-      "reward": 1.6360544533956618,
-      "reward_std": 0.20212856946246965,
-      "rewards/acc_reward_func": 1.6360544250124978,
-      "step": 253
-    },
-    {
-      "clip_ratio": 0.00010686751574255704,
-      "epoch": 1.661111111111111,
-      "grad_norm": 0.09000733494758606,
-      "learning_rate": 1e-06,
-      "loss": 0.0021,
-      "step": 254
-    },
-    {
-      "clip_ratio": 0.00012221902753004716,
-      "epoch": 1.6675925925925927,
-      "grad_norm": 0.08966827392578125,
-      "learning_rate": 1e-06,
-      "loss": 0.0018,
-      "step": 255
-    },
-    {
-      "clip_ratio": 0.0002542839824205397,
-      "epoch": 1.674074074074074,
-      "grad_norm": 0.08624038100242615,
-      "learning_rate": 1e-06,
-      "loss": 0.0014,
-      "step": 256
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 393.71202305385043,
-      "epoch": 1.6805555555555556,
-      "grad_norm": 0.08406448364257812,
-      "learning_rate": 1e-06,
-      "loss": -0.0043,
-      "num_tokens": 237931352.0,
-      "reward": 1.5668934555280776,
-      "reward_std": 0.18583334485689798,
-      "rewards/acc_reward_func": 1.5668934299832298,
-      "step": 257
-    },
-    {
-      "clip_ratio": 0.0001015219997844681,
-      "epoch": 1.6870370370370371,
-      "grad_norm": 0.08446004986763,
-      "learning_rate": 1e-06,
-      "loss": -0.0045,
-      "step": 258
-    },
-    {
-      "clip_ratio": 0.00016563806968319806,
-      "epoch": 1.6935185185185184,
-      "grad_norm": 0.08104430139064789,
-      "learning_rate": 1e-06,
-      "loss": -0.0048,
-      "step": 259
-    },
-    {
-      "clip_ratio": 0.0004377198553508303,
-      "epoch": 1.7,
-      "grad_norm": 0.08080463111400604,
-      "learning_rate": 1e-06,
-      "loss": -0.0051,
-      "step": 260
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 417.3129316057478,
-      "epoch": 1.7064814814814815,
-      "grad_norm": 0.10368765890598297,
-      "learning_rate": 1e-06,
-      "loss": -0.0016,
-      "num_tokens": 241470596.0,
-      "reward": 1.4274376801082067,
-      "reward_std": 0.2483105512247199,
-      "rewards/acc_reward_func": 1.4274376460484095,
-      "step": 261
-    },
-    {
-      "clip_ratio": 0.00011860012004728473,
-      "epoch": 1.7129629629629628,
-      "grad_norm": 0.10247006267309189,
-      "learning_rate": 1e-06,
-      "loss": -0.0018,
-      "step": 262
-    },
-    {
-      "clip_ratio": 0.00021534529583905603,
-      "epoch": 1.7194444444444446,
-      "grad_norm": 0.09949088841676712,
-      "learning_rate": 1e-06,
-      "loss": -0.0022,
-      "step": 263
-    },
-    {
-      "clip_ratio": 0.0004019789394944729,
-      "epoch": 1.7259259259259259,
-      "grad_norm": 0.09739667177200317,
-      "learning_rate": 1e-06,
-      "loss": -0.0028,
-      "step": 264
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 414.7698480515253,
-      "epoch": 1.7324074074074074,
-      "grad_norm": 0.09280133247375488,
-      "learning_rate": 1e-06,
-      "loss": 0.0005,
-      "num_tokens": 245293317.0,
-      "reward": 1.6485261122385662,
-      "reward_std": 0.21551773555222012,
-      "rewards/acc_reward_func": 1.6485260725021362,
-      "step": 265
-    },
-    {
-      "clip_ratio": 0.0001486230517219242,
-      "epoch": 1.738888888888889,
-      "grad_norm": 0.0918872281908989,
-      "learning_rate": 1e-06,
-      "loss": 0.0003,
-      "step": 266
-    },
-    {
-      "clip_ratio": 0.00017756144734448753,
-      "epoch": 1.7453703703703702,
-      "grad_norm": 0.09080260992050171,
-      "learning_rate": 1e-06,
-      "loss": -0.0,
-      "step": 267
-    },
-    {
-      "clip_ratio": 0.0002545833766427157,
-      "epoch": 1.751851851851852,
-      "grad_norm": 0.09026115387678146,
-      "learning_rate": 1e-06,
-      "loss": -0.0005,
-      "step": 268
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 450.11565580822173,
-      "epoch": 1.7583333333333333,
-      "grad_norm": 0.07813248783349991,
-      "learning_rate": 1e-06,
-      "loss": 0.0121,
-      "num_tokens": 249129855.0,
-      "reward": 1.5600907234918504,
-      "reward_std": 0.1942712063235896,
-      "rewards/acc_reward_func": 1.560090700785319,
-      "step": 269
-    },
-    {
-      "clip_ratio": 8.448378156615599e-05,
-      "epoch": 1.7648148148148148,
-      "grad_norm": 0.07819830626249313,
-      "learning_rate": 1e-06,
-      "loss": 0.012,
-      "step": 270
-    },
-    {
-      "clip_ratio": 0.00012770562101477046,
-      "epoch": 1.7712962962962964,
-      "grad_norm": 0.07886083424091339,
-      "learning_rate": 1e-06,
-      "loss": 0.0117,
-      "step": 271
-    },
-    {
-      "clip_ratio": 0.00021004644683368193,
-      "epoch": 1.7777777777777777,
-      "grad_norm": 0.0773688331246376,
-      "learning_rate": 1e-06,
-      "loss": 0.0113,
-      "step": 272
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 439.6462692987351,
-      "epoch": 1.7842592592592592,
-      "grad_norm": 0.09219877421855927,
-      "learning_rate": 1e-06,
-      "loss": -0.0026,
-      "num_tokens": 252783987.0,
-      "reward": 1.5691610290890647,
-      "reward_std": 0.21298281227548918,
-      "rewards/acc_reward_func": 1.5691610007059007,
-      "step": 273
-    },
-    {
-      "clip_ratio": 9.461846673816798e-05,
-      "epoch": 1.7907407407407407,
-      "grad_norm": 0.08525452762842178,
-      "learning_rate": 1e-06,
-      "loss": -0.0028,
-      "step": 274
-    },
-    {
-      "clip_ratio": 0.0001551211105487753,
-      "epoch": 1.7972222222222223,
-      "grad_norm": 0.08564640581607819,
-      "learning_rate": 1e-06,
-      "loss": -0.0031,
-      "step": 275
-    },
-    {
-      "clip_ratio": 0.0003054911636960848,
-      "epoch": 1.8037037037037038,
-      "grad_norm": 0.08445427566766739,
-      "learning_rate": 1e-06,
-      "loss": -0.0035,
-      "step": 276
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 469.36622256324404,
-      "epoch": 1.8101851851851851,
-      "grad_norm": 0.09835602343082428,
-      "learning_rate": 1e-06,
-      "loss": 0.0067,
-      "num_tokens": 256514324.0,
-      "reward": 1.5283446907997131,
-      "reward_std": 0.23371348583272525,
-      "rewards/acc_reward_func": 1.5283446680931818,
-      "step": 277
-    },
-    {
-      "clip_ratio": 0.00011316709839905213,
-      "epoch": 1.8166666666666667,
-      "grad_norm": 0.09218237549066544,
-      "learning_rate": 1e-06,
-      "loss": 0.0065,
-      "step": 278
-    },
-    {
-      "clip_ratio": 0.00012780956482553543,
-      "epoch": 1.8231481481481482,
-      "grad_norm": 0.08990070223808289,
-      "learning_rate": 1e-06,
-      "loss": 0.0062,
-      "step": 279
-    },
-    {
-      "clip_ratio": 0.0002694847620053527,
-      "epoch": 1.8296296296296295,
-      "grad_norm": 0.08729380369186401,
-      "learning_rate": 1e-06,
-      "loss": 0.0057,
-      "step": 280
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 466.97166224888394,
-      "epoch": 1.8361111111111112,
-      "grad_norm": 0.08512269705533981,
-      "learning_rate": 1e-06,
-      "loss": 0.0023,
-      "num_tokens": 260558815.0,
-      "reward": 1.6553288300832112,
-      "reward_std": 0.18018270248458498,
-      "rewards/acc_reward_func": 1.6553287903467815,
-      "step": 281
-    },
-    {
-      "clip_ratio": 0.00011174656295528014,
-      "epoch": 1.8425925925925926,
-      "grad_norm": 0.07830575108528137,
-      "learning_rate": 1e-06,
-      "loss": 0.0021,
-      "step": 282
-    },
-    {
-      "clip_ratio": 0.00014859736603241237,
-      "epoch": 1.849074074074074,
-      "grad_norm": 0.07735547423362732,
-      "learning_rate": 1e-06,
-      "loss": 0.0018,
-      "step": 283
-    },
-    {
-      "clip_ratio": 0.00023661474794304618,
-      "epoch": 1.8555555555555556,
-      "grad_norm": 0.07640089839696884,
-      "learning_rate": 1e-06,
-      "loss": 0.0015,
-      "step": 284
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 473.8832281203497,
-      "epoch": 1.862037037037037,
-      "grad_norm": 0.0777854397892952,
-      "learning_rate": 1e-06,
-      "loss": 0.0035,
-      "num_tokens": 264206382.0,
-      "reward": 1.6394558179946173,
-      "reward_std": 0.19011170026801882,
-      "rewards/acc_reward_func": 1.6394557669049217,
-      "step": 285
-    },
-    {
-      "clip_ratio": 8.368942369651493e-05,
-      "epoch": 1.8685185185185185,
-      "grad_norm": 0.07746341824531555,
-      "learning_rate": 1e-06,
-      "loss": 0.0034,
-      "step": 286
-    },
-    {
-      "clip_ratio": 0.0001167819041473281,
-      "epoch": 1.875,
-      "grad_norm": 0.0767863318324089,
-      "learning_rate": 1e-06,
-      "loss": 0.0031,
-      "step": 287
-    },
-    {
-      "clip_ratio": 0.00020507513424187587,
-      "epoch": 1.8814814814814815,
-      "grad_norm": 0.07616633176803589,
-      "learning_rate": 1e-06,
-      "loss": 0.0028,
-      "step": 288
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 480.0975123814174,
-      "epoch": 1.887962962962963,
-      "grad_norm": 0.07935984432697296,
-      "learning_rate": 1e-06,
-      "loss": 0.0079,
-      "num_tokens": 268028222.0,
-      "reward": 1.5997732764198667,
-      "reward_std": 0.18707973510026932,
-      "rewards/acc_reward_func": 1.5997732423600697,
-      "step": 289
-    },
-    {
-      "clip_ratio": 7.331416522252507e-05,
-      "epoch": 1.8944444444444444,
-      "grad_norm": 0.07752402871847153,
-      "learning_rate": 1e-06,
-      "loss": 0.0078,
-      "step": 290
-    },
-    {
-      "clip_ratio": 9.849115892956477e-05,
-      "epoch": 1.900925925925926,
-      "grad_norm": 0.076600082218647,
-      "learning_rate": 1e-06,
-      "loss": 0.0075,
-      "step": 291
-    },
-    {
-      "clip_ratio": 0.0001755388210377922,
-      "epoch": 1.9074074074074074,
-      "grad_norm": 0.07660045474767685,
-      "learning_rate": 1e-06,
-      "loss": 0.0071,
-      "step": 292
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 470.53515625,
-      "epoch": 1.9138888888888888,
-      "grad_norm": 0.0926726683974266,
-      "learning_rate": 1e-06,
-      "loss": 0.0015,
-      "num_tokens": 271639278.0,
-      "reward": 1.452380983602433,
-      "reward_std": 0.24590044894388743,
-      "rewards/acc_reward_func": 1.4523809580575853,
-      "step": 293
-    },
-    {
-      "clip_ratio": 8.711325686558016e-05,
-      "epoch": 1.9203703703703705,
-      "grad_norm": 0.09404096752405167,
-      "learning_rate": 1e-06,
-      "loss": 0.0013,
-      "step": 294
-    },
-    {
-      "clip_ratio": 0.00013792818329723863,
-      "epoch": 1.9268518518518518,
-      "grad_norm": 0.09250401705503464,
-      "learning_rate": 1e-06,
-      "loss": 0.0009,
-      "step": 295
-    },
-    {
-      "clip_ratio": 0.0002357466875678039,
-      "epoch": 1.9333333333333333,
-      "grad_norm": 0.09176366031169891,
-      "learning_rate": 1e-06,
-      "loss": 0.0004,
-      "step": 296
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 469.4886707124256,
-      "epoch": 1.9398148148148149,
-      "grad_norm": 0.08760599046945572,
-      "learning_rate": 1e-06,
-      "loss": 0.0028,
-      "num_tokens": 275315687.0,
-      "reward": 1.529478478999365,
-      "reward_std": 0.2415944811488901,
-      "rewards/acc_reward_func": 1.5294784619694664,
-      "step": 297
-    },
-    {
-      "clip_ratio": 0.00010062488824284325,
-      "epoch": 1.9462962962962962,
-      "grad_norm": 0.08795120567083359,
-      "learning_rate": 1e-06,
-      "loss": 0.0026,
-      "step": 298
-    },
-    {
-      "clip_ratio": 0.00017867312445083545,
-      "epoch": 1.9527777777777777,
-      "grad_norm": 0.08775324374437332,
-      "learning_rate": 1e-06,
-      "loss": 0.0023,
-      "step": 299
-    },
-    {
-      "clip_ratio": 0.000306412472300941,
-      "epoch": 1.9592592592592593,
-      "grad_norm": 0.08796869218349457,
-      "learning_rate": 1e-06,
-      "loss": 0.0018,
-      "step": 300
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 469.61678786504837,
-      "epoch": 1.9657407407407408,
-      "grad_norm": 0.08162126690149307,
-      "learning_rate": 1e-06,
-      "loss": 0.0043,
-      "num_tokens": 279066213.0,
-      "reward": 1.515873046148391,
-      "reward_std": 0.19076500141194888,
-      "rewards/acc_reward_func": 1.5158730177652269,
-      "step": 301
-    },
-    {
-      "clip_ratio": 7.91146989545918e-05,
-      "epoch": 1.9722222222222223,
-      "grad_norm": 0.0824337899684906,
-      "learning_rate": 1e-06,
-      "loss": 0.0041,
-      "step": 302
-    },
-    {
-      "clip_ratio": 0.00014237434654552046,
-      "epoch": 1.9787037037037036,
-      "grad_norm": 0.08004167675971985,
-      "learning_rate": 1e-06,
-      "loss": 0.0038,
-      "step": 303
-    },
-    {
-      "clip_ratio": 0.00029009427366656295,
-      "epoch": 1.9851851851851852,
-      "grad_norm": 0.08044147491455078,
-      "learning_rate": 1e-06,
-      "loss": 0.0034,
-      "step": 304
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 471.05669875372024,
-      "epoch": 2.0064814814814813,
-      "grad_norm": 0.07870854437351227,
-      "learning_rate": 1e-06,
-      "loss": 0.0013,
-      "num_tokens": 282465419.0,
-      "reward": 1.5374149935586112,
-      "reward_std": 0.1854196455152262,
-      "rewards/acc_reward_func": 1.53741497085208,
-      "step": 305
-    },
-    {
-      "clip_ratio": 8.949786959939437e-05,
-      "epoch": 2.012962962962963,
-      "grad_norm": 0.08076539635658264,
-      "learning_rate": 1e-06,
-      "loss": 0.0012,
-      "step": 306
-    },
-    {
-      "clip_ratio": 0.00015401908898465556,
-      "epoch": 2.0194444444444444,
-      "grad_norm": 0.0782662183046341,
-      "learning_rate": 1e-06,
-      "loss": 0.0009,
-      "step": 307
-    },
-    {
-      "clip_ratio": 0.00023743030829964916,
-      "epoch": 2.025925925925926,
-      "grad_norm": 0.07929681241512299,
-      "learning_rate": 1e-06,
-      "loss": 0.0005,
-      "step": 308
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 467.8979681105841,
-      "epoch": 2.0324074074074074,
-      "grad_norm": 0.07813294231891632,
-      "learning_rate": 1e-06,
-      "loss": 0.0066,
-      "num_tokens": 286079843.0,
-      "reward": 1.673469407217843,
-      "reward_std": 0.17615552140133722,
-      "rewards/acc_reward_func": 1.673469378834679,
-      "step": 309
-    },
-    {
-      "clip_ratio": 0.00010939102676708163,
-      "epoch": 2.0388888888888888,
-      "grad_norm": 0.07774676382541656,
-      "learning_rate": 1e-06,
-      "loss": 0.0064,
-      "step": 310
-    },
-    {
-      "clip_ratio": 0.00011380412355980038,
-      "epoch": 2.0453703703703705,
-      "grad_norm": 0.07755687832832336,
-      "learning_rate": 1e-06,
-      "loss": 0.0062,
-      "step": 311
-    },
-    {
-      "clip_ratio": 0.0002462299581522876,
-      "epoch": 2.051851851851852,
-      "grad_norm": 0.08249640464782715,
-      "learning_rate": 1e-06,
-      "loss": 0.0058,
-      "step": 312
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 468.54082670665923,
-      "epoch": 2.058333333333333,
-      "grad_norm": 0.07517673820257187,
-      "learning_rate": 1e-06,
-      "loss": 0.0047,
-      "num_tokens": 289924850.0,
-      "reward": 1.6281179274831499,
-      "reward_std": 0.17834148626951946,
-      "rewards/acc_reward_func": 1.6281179132915677,
-      "step": 313
-    },
-    {
-      "clip_ratio": 0.00011314422001651976,
-      "epoch": 2.064814814814815,
-      "grad_norm": 0.073227159678936,
-      "learning_rate": 1e-06,
-      "loss": 0.0045,
-      "step": 314
-    },
-    {
-      "clip_ratio": 0.00020379069714441096,
-      "epoch": 2.071296296296296,
-      "grad_norm": 0.07385105639696121,
-      "learning_rate": 1e-06,
-      "loss": 0.0043,
-      "step": 315
-    },
-    {
-      "clip_ratio": 0.0003329941499119048,
-      "epoch": 2.077777777777778,
-      "grad_norm": 0.07256048172712326,
-      "learning_rate": 1e-06,
-      "loss": 0.0039,
-      "step": 316
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 450.64512997581846,
-      "epoch": 2.0842592592592593,
-      "grad_norm": 0.08051841706037521,
-      "learning_rate": 1e-06,
-      "loss": 0.0052,
-      "num_tokens": 293558677.0,
-      "reward": 1.6541950475601923,
-      "reward_std": 0.17689220057356925,
-      "rewards/acc_reward_func": 1.6541950021471297,
-      "step": 317
-    },
-    {
-      "clip_ratio": 8.453805778463859e-05,
-      "epoch": 2.0907407407407406,
-      "grad_norm": 0.08467243611812592,
-      "learning_rate": 1e-06,
-      "loss": 0.005,
-      "step": 318
-    },
-    {
-      "clip_ratio": 0.00011742045968449453,
-      "epoch": 2.0972222222222223,
-      "grad_norm": 0.07905680686235428,
-      "learning_rate": 1e-06,
-      "loss": 0.0047,
-      "step": 319
-    },
-    {
-      "clip_ratio": 0.0002576940849914016,
-      "epoch": 2.1037037037037036,
-      "grad_norm": 0.07652027159929276,
-      "learning_rate": 1e-06,
-      "loss": 0.0043,
-      "step": 320
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 452.39683605375745,
-      "epoch": 2.1101851851851854,
-      "grad_norm": 0.07079870998859406,
-      "learning_rate": 1e-06,
-      "loss": -0.0031,
-      "num_tokens": 297388737.0,
-      "reward": 1.6224490063531058,
-      "reward_std": 0.14390913556729043,
-      "rewards/acc_reward_func": 1.6224489779699416,
-      "step": 321
-    },
-    {
-      "clip_ratio": 6.244152800285346e-05,
-      "epoch": 2.1166666666666667,
-      "grad_norm": 0.07108927518129349,
-      "learning_rate": 1e-06,
-      "loss": -0.0032,
-      "step": 322
-    },
-    {
-      "clip_ratio": 9.540307673021397e-05,
-      "epoch": 2.123148148148148,
-      "grad_norm": 0.07107880711555481,
-      "learning_rate": 1e-06,
-      "loss": -0.0035,
-      "step": 323
-    },
-    {
-      "clip_ratio": 0.00015793243524274745,
-      "epoch": 2.1296296296296298,
-      "grad_norm": 0.07058020681142807,
-      "learning_rate": 1e-06,
-      "loss": -0.0038,
-      "step": 324
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 451.31520298549106,
-      "epoch": 2.136111111111111,
-      "grad_norm": 0.07716906815767288,
-      "learning_rate": 1e-06,
-      "loss": 0.0032,
-      "num_tokens": 301268873.0,
-      "reward": 1.6712018421718053,
-      "reward_std": 0.1573598569347745,
-      "rewards/acc_reward_func": 1.671201813788641,
-      "step": 325
-    },
-    {
-      "clip_ratio": 6.981899336789779e-05,
-      "epoch": 2.1425925925925924,
-      "grad_norm": 0.07711810618638992,
-      "learning_rate": 1e-06,
-      "loss": 0.003,
-      "step": 326
-    },
-    {
-      "clip_ratio": 9.463478012808732e-05,
-      "epoch": 2.149074074074074,
-      "grad_norm": 0.07729792594909668,
-      "learning_rate": 1e-06,
-      "loss": 0.0027,
-      "step": 327
-    },
-    {
-      "clip_ratio": 0.0001468960305958587,
-      "epoch": 2.1555555555555554,
-      "grad_norm": 0.07669426500797272,
-      "learning_rate": 1e-06,
-      "loss": 0.0023,
-      "step": 328
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 445.0521647135417,
-      "epoch": 2.162037037037037,
-      "grad_norm": 0.08283355832099915,
-      "learning_rate": 1e-06,
-      "loss": -0.0017,
-      "num_tokens": 304759563.0,
-      "reward": 1.6179138592311315,
-      "reward_std": 0.18949996839676583,
-      "rewards/acc_reward_func": 1.6179138365246,
-      "step": 329
-    },
-    {
-      "clip_ratio": 0.0001103849049069963,
-      "epoch": 2.1685185185185185,
-      "grad_norm": 0.08356571942567825,
-      "learning_rate": 1e-06,
-      "loss": -0.0019,
-      "step": 330
-    },
-    {
-      "clip_ratio": 0.0001704507456105646,
-      "epoch": 2.175,
-      "grad_norm": 0.08093303442001343,
-      "learning_rate": 1e-06,
-      "loss": -0.0023,
-      "step": 331
-    },
-    {
-      "clip_ratio": 0.0002644155105198955,
-      "epoch": 2.1814814814814816,
-      "grad_norm": 0.07993580400943756,
-      "learning_rate": 1e-06,
-      "loss": -0.0027,
-      "step": 332
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 448.93311564127606,
-      "epoch": 2.187962962962963,
-      "grad_norm": 0.08723075687885284,
-      "learning_rate": 1e-06,
-      "loss": 0.0027,
-      "num_tokens": 308389564.0,
-      "reward": 1.6746032010941279,
-      "reward_std": 0.19914495199918747,
-      "rewards/acc_reward_func": 1.6746031670343309,
-      "step": 333
-    },
-    {
-      "clip_ratio": 0.0001357406850036655,
-      "epoch": 2.1944444444444446,
-      "grad_norm": 0.09279884397983551,
-      "learning_rate": 1e-06,
-      "loss": 0.0025,
-      "step": 334
-    },
-    {
-      "clip_ratio": 0.0002144234143391562,
-      "epoch": 2.200925925925926,
-      "grad_norm": 0.08094783127307892,
-      "learning_rate": 1e-06,
-      "loss": 0.0021,
-      "step": 335
-    },
-    {
-      "clip_ratio": 0.0003632333076287371,
-      "epoch": 2.2074074074074073,
-      "grad_norm": 0.08018580079078674,
-      "learning_rate": 1e-06,
-      "loss": 0.0017,
-      "step": 336
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 456.8310735793341,
-      "epoch": 2.213888888888889,
-      "grad_norm": 0.07070093601942062,
-      "learning_rate": 1e-06,
-      "loss": 0.0012,
-      "num_tokens": 312450389.0,
-      "reward": 1.6836735010147095,
-      "reward_std": 0.15429549912611643,
-      "rewards/acc_reward_func": 1.6836734669549125,
-      "step": 337
-    },
-    {
-      "clip_ratio": 5.7854162670472374e-05,
-      "epoch": 2.2203703703703703,
-      "grad_norm": 0.07059533894062042,
-      "learning_rate": 1e-06,
-      "loss": 0.0011,
-      "step": 338
-    },
-    {
-      "clip_ratio": 7.601507691322782e-05,
-      "epoch": 2.226851851851852,
-      "grad_norm": 0.07046937197446823,
-      "learning_rate": 1e-06,
-      "loss": 0.0008,
-      "step": 339
-    },
-    {
-      "clip_ratio": 0.00011438851513611596,
-      "epoch": 2.2333333333333334,
-      "grad_norm": 0.06987206637859344,
-      "learning_rate": 1e-06,
-      "loss": 0.0005,
-      "step": 340
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 459.7800525483631,
-      "epoch": 2.2398148148148147,
-      "grad_norm": 0.07333923131227493,
-      "learning_rate": 1e-06,
-      "loss": 0.003,
-      "num_tokens": 316124745.0,
-      "reward": 1.651927459807623,
-      "reward_std": 0.15663272621376173,
-      "rewards/acc_reward_func": 1.6519274314244587,
-      "step": 341
-    },
-    {
-      "clip_ratio": 5.6131516820252205e-05,
-      "epoch": 2.2462962962962965,
-      "grad_norm": 0.07241741567850113,
-      "learning_rate": 1e-06,
-      "loss": 0.0028,
-      "step": 342
-    },
-    {
-      "clip_ratio": 7.750764762888485e-05,
-      "epoch": 2.2527777777777778,
-      "grad_norm": 0.07209280133247375,
-      "learning_rate": 1e-06,
-      "loss": 0.0026,
-      "step": 343
-    },
-    {
-      "clip_ratio": 0.0001592640822179549,
-      "epoch": 2.259259259259259,
-      "grad_norm": 0.07179038226604462,
-      "learning_rate": 1e-06,
-      "loss": 0.0022,
-      "step": 344
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 454.90136864071803,
-      "epoch": 2.265740740740741,
-      "grad_norm": 0.06366118788719177,
-      "learning_rate": 1e-06,
-      "loss": -0.0023,
-      "num_tokens": 319907790.0,
-      "reward": 1.6088435649871826,
-      "reward_std": 0.13132147632894062,
-      "rewards/acc_reward_func": 1.6088435309273856,
-      "step": 345
-    },
-    {
-      "clip_ratio": 5.585887724702756e-05,
-      "epoch": 2.272222222222222,
-      "grad_norm": 0.06443970650434494,
-      "learning_rate": 1e-06,
-      "loss": -0.0025,
-      "step": 346
-    },
-    {
-      "clip_ratio": 6.936551792369712e-05,
-      "epoch": 2.278703703703704,
-      "grad_norm": 0.06347978860139847,
-      "learning_rate": 1e-06,
-      "loss": -0.0027,
-      "step": 347
-    },
-    {
-      "clip_ratio": 8.864202668302737e-05,
-      "epoch": 2.285185185185185,
-      "grad_norm": 0.06255137920379639,
-      "learning_rate": 1e-06,
-      "loss": -0.003,
-      "step": 348
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 451.8322099958147,
-      "epoch": 2.2916666666666665,
-      "grad_norm": 0.06696058064699173,
-      "learning_rate": 1e-06,
-      "loss": 0.0003,
-      "num_tokens": 323384510.0,
-      "reward": 1.6383220184416998,
-      "reward_std": 0.13071540867288908,
-      "rewards/acc_reward_func": 1.6383219900585355,
-      "step": 349
-    },
-    {
-      "clip_ratio": 4.920152094287221e-05,
-      "epoch": 2.2981481481481483,
-      "grad_norm": 0.06489527225494385,
-      "learning_rate": 1e-06,
-      "loss": 0.0001,
-      "step": 350
-    },
-    {
-      "clip_ratio": 6.74184571142264e-05,
-      "epoch": 2.3046296296296296,
-      "grad_norm": 0.06311435252428055,
-      "learning_rate": 1e-06,
-      "loss": -0.0001,
-      "step": 351
-    },
-    {
-      "clip_ratio": 0.0001653696353536188,
-      "epoch": 2.311111111111111,
-      "grad_norm": 0.06215111166238785,
-      "learning_rate": 1e-06,
-      "loss": -0.0004,
-      "step": 352
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 454.8628191266741,
-      "epoch": 2.3175925925925926,
-      "grad_norm": 0.08817350119352341,
-      "learning_rate": 1e-06,
-      "loss": 0.0,
-      "num_tokens": 327426049.0,
-      "reward": 1.68934242498307,
-      "reward_std": 0.14556503544251123,
-      "rewards/acc_reward_func": 1.6893424022765386,
-      "step": 353
-    },
-    {
-      "clip_ratio": 4.580863883131228e-05,
-      "epoch": 2.324074074074074,
-      "grad_norm": 0.07056381553411484,
-      "learning_rate": 1e-06,
-      "loss": -0.0001,
-      "step": 354
-    },
-    {
-      "clip_ratio": 8.168562462309464e-05,
-      "epoch": 2.3305555555555557,
-      "grad_norm": 0.0691598653793335,
-      "learning_rate": 1e-06,
-      "loss": -0.0004,
-      "step": 355
-    },
-    {
-      "clip_ratio": 0.00018179262354221595,
-      "epoch": 2.337037037037037,
-      "grad_norm": 0.06830444186925888,
-      "learning_rate": 1e-06,
-      "loss": -0.0008,
-      "step": 356
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 441.96145775204616,
-      "epoch": 2.3435185185185183,
-      "grad_norm": 0.07399642467498779,
-      "learning_rate": 1e-06,
-      "loss": 0.0066,
-      "num_tokens": 331174365.0,
-      "reward": 1.6439909594399589,
-      "reward_std": 0.15822177433541842,
-      "rewards/acc_reward_func": 1.6439909310567946,
-      "step": 357
-    },
-    {
-      "clip_ratio": 4.970507004708495e-05,
-      "epoch": 2.35,
-      "grad_norm": 0.07388998568058014,
-      "learning_rate": 1e-06,
-      "loss": 0.0064,
-      "step": 358
-    },
-    {
-      "clip_ratio": 7.191943188358674e-05,
-      "epoch": 2.3564814814814814,
-      "grad_norm": 0.07321937382221222,
-      "learning_rate": 1e-06,
-      "loss": 0.0061,
-      "step": 359
-    },
-    {
-      "clip_ratio": 0.00010987346589293641,
-      "epoch": 2.362962962962963,
-      "grad_norm": 0.07204120606184006,
-      "learning_rate": 1e-06,
-      "loss": 0.0057,
-      "step": 360
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 441.12698654901413,
-      "epoch": 2.3694444444444445,
-      "grad_norm": 0.0716153234243393,
-      "learning_rate": 1e-06,
-      "loss": 0.0084,
-      "num_tokens": 334945303.0,
-      "reward": 1.568027240889413,
-      "reward_std": 0.14656859547609374,
-      "rewards/acc_reward_func": 1.568027206829616,
-      "step": 361
-    },
-    {
-      "clip_ratio": 5.729519952659584e-05,
-      "epoch": 2.3759259259259258,
-      "grad_norm": 0.07136084884405136,
-      "learning_rate": 1e-06,
-      "loss": 0.0083,
-      "step": 362
-    },
-    {
-      "clip_ratio": 5.302412908003178e-05,
-      "epoch": 2.3824074074074075,
-      "grad_norm": 0.07047837227582932,
-      "learning_rate": 1e-06,
-      "loss": 0.008,
-      "step": 363
-    },
-    {
-      "clip_ratio": 0.00014433350086273138,
-      "epoch": 2.388888888888889,
-      "grad_norm": 0.06907393783330917,
-      "learning_rate": 1e-06,
-      "loss": 0.0076,
-      "step": 364
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 434.1598714192708,
-      "epoch": 2.3953703703703706,
-      "grad_norm": 0.08112609386444092,
-      "learning_rate": 1e-06,
-      "loss": 0.0019,
-      "num_tokens": 338547496.0,
-      "reward": 1.613378712109157,
-      "reward_std": 0.16461583830061413,
-      "rewards/acc_reward_func": 1.613378683725993,
-      "step": 365
-    },
-    {
-      "clip_ratio": 6.238901100697971e-05,
-      "epoch": 2.401851851851852,
-      "grad_norm": 0.08133766055107117,
-      "learning_rate": 1e-06,
-      "loss": 0.0017,
-      "step": 366
-    },
-    {
-      "clip_ratio": 0.00019287066121857302,
-      "epoch": 2.408333333333333,
-      "grad_norm": 0.07959448546171188,
-      "learning_rate": 1e-06,
-      "loss": 0.0013,
-      "step": 367
-    },
-    {
-      "clip_ratio": 0.0002893279022481736,
-      "epoch": 2.414814814814815,
-      "grad_norm": 0.07730524241924286,
-      "learning_rate": 1e-06,
-      "loss": 0.0008,
-      "step": 368
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 410.75284249441967,
-      "epoch": 2.4212962962962963,
-      "grad_norm": 0.08015070855617523,
-      "learning_rate": 1e-06,
-      "loss": 0.0001,
-      "num_tokens": 342065684.0,
-      "reward": 1.6065759829112463,
-      "reward_std": 0.1567436396366074,
-      "rewards/acc_reward_func": 1.6065759658813477,
-      "step": 369
-    },
-    {
-      "clip_ratio": 4.735970131670391e-05,
-      "epoch": 2.4277777777777776,
-      "grad_norm": 0.08372899144887924,
-      "learning_rate": 1e-06,
-      "loss": -0.0001,
-      "step": 370
-    },
-    {
-      "clip_ratio": 0.00012169528140691996,
-      "epoch": 2.4342592592592593,
-      "grad_norm": 0.0796024277806282,
-      "learning_rate": 1e-06,
-      "loss": -0.0005,
-      "step": 371
-    },
-    {
-      "clip_ratio": 0.0003254882942114602,
-      "epoch": 2.4407407407407407,
-      "grad_norm": 0.07758983969688416,
-      "learning_rate": 1e-06,
-      "loss": -0.0009,
-      "step": 372
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 410.54762776692706,
-      "epoch": 2.4472222222222224,
-      "grad_norm": 0.0863879844546318,
-      "learning_rate": 1e-06,
-      "loss": -0.0048,
-      "num_tokens": 345663755.0,
-      "reward": 1.697278931027367,
-      "reward_std": 0.1657904459252244,
-      "rewards/acc_reward_func": 1.6972789196741014,
-      "step": 373
-    },
-    {
-      "clip_ratio": 7.448090400430374e-05,
-      "epoch": 2.4537037037037037,
-      "grad_norm": 0.08563799411058426,
-      "learning_rate": 1e-06,
-      "loss": -0.005,
-      "step": 374
-    },
-    {
-      "clip_ratio": 0.00020172142172842066,
-      "epoch": 2.460185185185185,
-      "grad_norm": 0.0837676078081131,
-      "learning_rate": 1e-06,
-      "loss": -0.0054,
-      "step": 375
-    },
-    {
-      "clip_ratio": 0.0004377457608782043,
-      "epoch": 2.466666666666667,
-      "grad_norm": 0.08231651037931442,
-      "learning_rate": 1e-06,
-      "loss": -0.006,
-      "step": 376
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 411.5204133533296,
-      "epoch": 2.473148148148148,
-      "grad_norm": 0.08515173196792603,
-      "learning_rate": 1e-06,
-      "loss": 0.0034,
-      "num_tokens": 349245410.0,
-      "reward": 1.7052154427482968,
-      "reward_std": 0.16742009811458133,
-      "rewards/acc_reward_func": 1.7052154200417655,
-      "step": 377
-    },
-    {
-      "clip_ratio": 6.578304687753276e-05,
-      "epoch": 2.4796296296296294,
-      "grad_norm": 0.08399412035942078,
-      "learning_rate": 1e-06,
-      "loss": 0.0032,
-      "step": 378
-    },
-    {
-      "clip_ratio": 0.00018409334491783133,
-      "epoch": 2.486111111111111,
-      "grad_norm": 0.08153863251209259,
-      "learning_rate": 1e-06,
-      "loss": 0.0028,
-      "step": 379
-    },
-    {
-      "clip_ratio": 0.0003922197685737739,
-      "epoch": 2.4925925925925925,
-      "grad_norm": 0.080192930996418,
-      "learning_rate": 1e-06,
-      "loss": 0.0022,
-      "step": 380
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 432.0147487095424,
-      "epoch": 2.4990740740740742,
-      "grad_norm": 0.07259111106395721,
-      "learning_rate": 1e-06,
-      "loss": 0.0008,
-      "num_tokens": 352687257.0,
-      "reward": 1.6315193062736875,
-      "reward_std": 0.13436711685998098,
-      "rewards/acc_reward_func": 1.6315192778905232,
-      "step": 381
-    },
-    {
-      "clip_ratio": 6.481163377646313e-05,
-      "epoch": 2.5055555555555555,
-      "grad_norm": 0.0701545923948288,
-      "learning_rate": 1e-06,
-      "loss": 0.0006,
-      "step": 382
-    },
-    {
-      "clip_ratio": 0.00020013943399784954,
-      "epoch": 2.512037037037037,
-      "grad_norm": 0.06911647319793701,
-      "learning_rate": 1e-06,
-      "loss": 0.0004,
-      "step": 383
-    },
-    {
-      "clip_ratio": 0.00035089113017810244,
-      "epoch": 2.5185185185185186,
-      "grad_norm": 0.06758937239646912,
-      "learning_rate": 1e-06,
-      "loss": -0.0,
-      "step": 384
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 422.76077706473217,
-      "epoch": 2.525,
-      "grad_norm": 0.08028464764356613,
-      "learning_rate": 1e-06,
-      "loss": 0.0012,
-      "num_tokens": 356398820.0,
-      "reward": 1.6156462885084606,
-      "reward_std": 0.15897739288352786,
-      "rewards/acc_reward_func": 1.6156462658019293,
-      "step": 385
-    },
-    {
-      "clip_ratio": 6.950612147366406e-05,
-      "epoch": 2.5314814814814817,
-      "grad_norm": 0.0779779925942421,
-      "learning_rate": 1e-06,
-      "loss": 0.001,
-      "step": 386
-    },
-    {
-      "clip_ratio": 0.00015359692943526344,
-      "epoch": 2.537962962962963,
-      "grad_norm": 0.07718382030725479,
-      "learning_rate": 1e-06,
-      "loss": 0.0006,
-      "step": 387
-    },
-    {
-      "clip_ratio": 0.00016256648242623278,
-      "epoch": 2.5444444444444443,
-      "grad_norm": 0.07550051063299179,
-      "learning_rate": 1e-06,
-      "loss": 0.0001,
-      "step": 388
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 408.92857869466144,
-      "epoch": 2.550925925925926,
-      "grad_norm": 0.06849638372659683,
-      "learning_rate": 1e-06,
-      "loss": 0.0035,
-      "num_tokens": 360012227.0,
-      "reward": 1.6315192977587383,
-      "reward_std": 0.11362639105036146,
-      "rewards/acc_reward_func": 1.631519269375574,
-      "step": 389
-    },
-    {
-      "clip_ratio": 5.923737660937366e-05,
-      "epoch": 2.5574074074074074,
-      "grad_norm": 0.06760665029287338,
-      "learning_rate": 1e-06,
-      "loss": 0.0034,
-      "step": 390
-    },
-    {
-      "clip_ratio": 0.0001121529177388376,
-      "epoch": 2.563888888888889,
-      "grad_norm": 0.06625531613826752,
-      "learning_rate": 1e-06,
-      "loss": 0.0031,
-      "step": 391
-    },
-    {
-      "clip_ratio": 0.00021175693923613012,
-      "epoch": 2.5703703703703704,
-      "grad_norm": 0.06420101970434189,
-      "learning_rate": 1e-06,
-      "loss": 0.0027,
-      "step": 392
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 408.4580586751302,
-      "epoch": 2.5768518518518517,
-      "grad_norm": 0.08265353739261627,
-      "learning_rate": 1e-06,
-      "loss": 0.0014,
-      "num_tokens": 363854623.0,
-      "reward": 1.6439909594399589,
-      "reward_std": 0.15082332562832607,
-      "rewards/acc_reward_func": 1.6439909310567946,
-      "step": 393
-    },
-    {
-      "clip_ratio": 3.310179055829178e-05,
-      "epoch": 2.5833333333333335,
-      "grad_norm": 0.0822535827755928,
-      "learning_rate": 1e-06,
-      "loss": 0.0011,
-      "step": 394
-    },
-    {
-      "clip_ratio": 0.00014647337836019383,
-      "epoch": 2.589814814814815,
-      "grad_norm": 0.07974167913198471,
-      "learning_rate": 1e-06,
-      "loss": 0.0007,
-      "step": 395
-    },
-    {
-      "clip_ratio": 0.0003786702473007608,
-      "epoch": 2.5962962962962965,
-      "grad_norm": 0.076680988073349,
-      "learning_rate": 1e-06,
-      "loss": 0.0002,
-      "step": 396
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 401.6383274623326,
-      "epoch": 2.602777777777778,
-      "grad_norm": 0.07131548970937729,
-      "learning_rate": 1e-06,
-      "loss": -0.0067,
-      "num_tokens": 367731450.0,
-      "reward": 1.6530612593605405,
-      "reward_std": 0.131582503340074,
-      "rewards/acc_reward_func": 1.6530612139474778,
-      "step": 397
-    },
-    {
-      "clip_ratio": 2.882930996184725e-05,
-      "epoch": 2.609259259259259,
-      "grad_norm": 0.0698467567563057,
-      "learning_rate": 1e-06,
-      "loss": -0.0069,
-      "step": 398
-    },
-    {
-      "clip_ratio": 0.00012053488760665503,
-      "epoch": 2.6157407407407405,
-      "grad_norm": 0.06839628517627716,
-      "learning_rate": 1e-06,
-      "loss": -0.0072,
-      "step": 399
-    },
-    {
-      "clip_ratio": 0.00024320762410449484,
-      "epoch": 2.6222222222222222,
-      "grad_norm": 0.06797367334365845,
-      "learning_rate": 1e-06,
-      "loss": -0.0076,
-      "step": 400
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 395.0634998139881,
-      "epoch": 2.6287037037037035,
-      "grad_norm": 0.11827152222394943,
-      "learning_rate": 1e-06,
-      "loss": 0.0001,
-      "num_tokens": 371186810.0,
-      "reward": 1.606575988587879,
-      "reward_std": 0.14957289291279657,
-      "rewards/acc_reward_func": 1.6065759658813477,
-      "step": 401
-    },
-    {
-      "clip_ratio": 6.91131310651101e-05,
-      "epoch": 2.6351851851851853,
-      "grad_norm": 0.07700794190168381,
-      "learning_rate": 1e-06,
-      "loss": -0.0001,
-      "step": 402
-    },
-    {
-      "clip_ratio": 0.00016931103008183918,
-      "epoch": 2.6416666666666666,
-      "grad_norm": 0.07600509375333786,
-      "learning_rate": 1e-06,
-      "loss": -0.0005,
-      "step": 403
-    },
-    {
-      "clip_ratio": 0.00031958719098059064,
-      "epoch": 2.648148148148148,
-      "grad_norm": 0.0738753154873848,
-      "learning_rate": 1e-06,
-      "loss": -0.001,
-      "step": 404
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 407.74490501767116,
-      "epoch": 2.6546296296296297,
-      "grad_norm": 0.06802462786436081,
-      "learning_rate": 1e-06,
-      "loss": 0.0008,
-      "num_tokens": 374782817.0,
-      "reward": 1.6836734896614438,
-      "reward_std": 0.12749963058602243,
-      "rewards/acc_reward_func": 1.6836734783081782,
-      "step": 405
-    },
-    {
-      "clip_ratio": 4.254553156594435e-05,
-      "epoch": 2.661111111111111,
-      "grad_norm": 0.06773427873849869,
-      "learning_rate": 1e-06,
-      "loss": 0.0007,
-      "step": 406
-    },
-    {
-      "clip_ratio": 0.00012479171484647806,
-      "epoch": 2.6675925925925927,
-      "grad_norm": 0.06698736548423767,
-      "learning_rate": 1e-06,
-      "loss": 0.0004,
-      "step": 407
-    },
-    {
-      "clip_ratio": 0.00020478161154425747,
-      "epoch": 2.674074074074074,
-      "grad_norm": 0.06650257110595703,
-      "learning_rate": 1e-06,
-      "loss": 0.0,
-      "step": 408
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 400.48753429594495,
-      "epoch": 2.6805555555555554,
-      "grad_norm": 0.08356206119060516,
-      "learning_rate": 1e-06,
-      "loss": 0.0047,
-      "num_tokens": 378096657.0,
-      "reward": 1.643990953763326,
-      "reward_std": 0.1610797480458305,
-      "rewards/acc_reward_func": 1.6439909310567946,
-      "step": 409
-    },
-    {
-      "clip_ratio": 3.973056993258762e-05,
-      "epoch": 2.687037037037037,
-      "grad_norm": 0.0816047191619873,
-      "learning_rate": 1e-06,
-      "loss": 0.0044,
-      "step": 410
-    },
-    {
-      "clip_ratio": 6.90307292859957e-05,
-      "epoch": 2.6935185185185184,
-      "grad_norm": 0.07993968576192856,
-      "learning_rate": 1e-06,
-      "loss": 0.004,
-      "step": 411
-    },
-    {
-      "clip_ratio": 0.00017553037434395047,
-      "epoch": 2.7,
-      "grad_norm": 0.07977181673049927,
-      "learning_rate": 1e-06,
-      "loss": 0.0035,
-      "step": 412
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 407.8163350423177,
-      "epoch": 2.7064814814814815,
-      "grad_norm": 0.07647784799337387,
-      "learning_rate": 1e-06,
-      "loss": 0.0005,
-      "num_tokens": 381935865.0,
-      "reward": 1.674603195417495,
-      "reward_std": 0.16518590492861612,
-      "rewards/acc_reward_func": 1.674603161357698,
-      "step": 413
-    },
-    {
-      "clip_ratio": 4.758690729864784e-05,
-      "epoch": 2.712962962962963,
-      "grad_norm": 0.07679473608732224,
-      "learning_rate": 1e-06,
-      "loss": 0.0003,
-      "step": 414
-    },
-    {
-      "clip_ratio": 8.775196450490814e-05,
-      "epoch": 2.7194444444444446,
-      "grad_norm": 0.07613964378833771,
-      "learning_rate": 1e-06,
-      "loss": -0.0,
-      "step": 415
-    },
-    {
-      "clip_ratio": 0.0002375333022514713,
-      "epoch": 2.725925925925926,
-      "grad_norm": 0.07401680946350098,
-      "learning_rate": 1e-06,
-      "loss": -0.0005,
-      "step": 416
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 388.7766549246652,
-      "epoch": 2.7324074074074076,
-      "grad_norm": 0.07717788219451904,
-      "learning_rate": 1e-06,
-      "loss": 0.0003,
-      "num_tokens": 385755250.0,
-      "reward": 1.769841296332223,
-      "reward_std": 0.13284824416041374,
-      "rewards/acc_reward_func": 1.769841267949059,
-      "step": 417
-    },
-    {
-      "clip_ratio": 4.6571577730078606e-05,
-      "epoch": 2.738888888888889,
-      "grad_norm": 0.07409494370222092,
-      "learning_rate": 1e-06,
-      "loss": 0.0001,
-      "step": 418
-    },
-    {
-      "clip_ratio": 0.00010308226739566418,
-      "epoch": 2.7453703703703702,
-      "grad_norm": 0.07239258289337158,
-      "learning_rate": 1e-06,
-      "loss": -0.0002,
-      "step": 419
-    },
-    {
-      "clip_ratio": 0.00022064264131976024,
-      "epoch": 2.751851851851852,
-      "grad_norm": 0.07175586372613907,
-      "learning_rate": 1e-06,
-      "loss": -0.0007,
-      "step": 420
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 403.83787318638394,
-      "epoch": 2.7583333333333333,
-      "grad_norm": 0.0722418949007988,
-      "learning_rate": 1e-06,
-      "loss": 0.0029,
-      "num_tokens": 389321531.0,
-      "reward": 1.5861678350539434,
-      "reward_std": 0.1339329518377781,
-      "rewards/acc_reward_func": 1.5861677896408808,
-      "step": 421
-    },
-    {
-      "clip_ratio": 3.0351422104840387e-05,
-      "epoch": 2.764814814814815,
-      "grad_norm": 0.07102184742689133,
-      "learning_rate": 1e-06,
-      "loss": 0.0028,
-      "step": 422
-    },
-    {
-      "clip_ratio": 6.684829956308629e-05,
-      "epoch": 2.7712962962962964,
-      "grad_norm": 0.06921263784170151,
-      "learning_rate": 1e-06,
-      "loss": 0.0025,
-      "step": 423
-    },
-    {
-      "clip_ratio": 0.0001603819608655093,
-      "epoch": 2.7777777777777777,
-      "grad_norm": 0.06847840547561646,
-      "learning_rate": 1e-06,
-      "loss": 0.002,
-      "step": 424
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 395.74603852771577,
-      "epoch": 2.784259259259259,
-      "grad_norm": 0.07620932906866074,
-      "learning_rate": 1e-06,
-      "loss": -0.0,
-      "num_tokens": 392811117.0,
-      "reward": 1.675736977940514,
-      "reward_std": 0.15024714987902416,
-      "rewards/acc_reward_func": 1.6757369552339827,
-      "step": 425
-    },
-    {
-      "clip_ratio": 5.349587324114206e-05,
-      "epoch": 2.7907407407407407,
-      "grad_norm": 0.07477039843797684,
-      "learning_rate": 1e-06,
-      "loss": -0.0002,
-      "step": 426
-    },
-    {
-      "clip_ratio": 0.0001953024965630556,
-      "epoch": 2.7972222222222225,
-      "grad_norm": 0.07259545475244522,
-      "learning_rate": 1e-06,
-      "loss": -0.0006,
-      "step": 427
-    },
-    {
-      "clip_ratio": 0.0004224494755146138,
-      "epoch": 2.803703703703704,
-      "grad_norm": 0.0708785280585289,
-      "learning_rate": 1e-06,
-      "loss": -0.001,
-      "step": 428
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 366.82993861607144,
-      "epoch": 2.810185185185185,
-      "grad_norm": 0.07910261303186417,
-      "learning_rate": 1e-06,
-      "loss": 0.0041,
-      "num_tokens": 396527025.0,
-      "reward": 1.7210884661901564,
-      "reward_std": 0.16589947470596858,
-      "rewards/acc_reward_func": 1.7210884264537267,
-      "step": 429
-    },
-    {
-      "clip_ratio": 7.650961353127579e-05,
-      "epoch": 2.8166666666666664,
-      "grad_norm": 0.07643198221921921,
-      "learning_rate": 1e-06,
-      "loss": 0.0038,
-      "step": 430
-    },
-    {
-      "clip_ratio": 0.00023775612498866394,
-      "epoch": 2.823148148148148,
-      "grad_norm": 0.07540789246559143,
-      "learning_rate": 1e-06,
-      "loss": 0.0034,
-      "step": 431
-    },
-    {
-      "clip_ratio": 0.0005787453077833302,
-      "epoch": 2.8296296296296295,
-      "grad_norm": 0.07343152165412903,
-      "learning_rate": 1e-06,
-      "loss": 0.0029,
-      "step": 432
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 357.15986996605284,
-      "epoch": 2.8361111111111112,
-      "grad_norm": 0.08127926290035248,
-      "learning_rate": 1e-06,
-      "loss": 0.0055,
-      "num_tokens": 400366410.0,
-      "reward": 1.6848072721844627,
-      "reward_std": 0.11902960372113046,
-      "rewards/acc_reward_func": 1.684807260831197,
-      "step": 433
-    },
-    {
-      "clip_ratio": 5.624502747585731e-05,
-      "epoch": 2.8425925925925926,
-      "grad_norm": 0.08154301345348358,
-      "learning_rate": 1e-06,
-      "loss": 0.0052,
-      "step": 434
-    },
-    {
-      "clip_ratio": 0.00014876067438135144,
-      "epoch": 2.849074074074074,
-      "grad_norm": 0.07982967048883438,
-      "learning_rate": 1e-06,
-      "loss": 0.0048,
-      "step": 435
-    },
-    {
-      "clip_ratio": 0.00047466065838567114,
-      "epoch": 2.8555555555555556,
-      "grad_norm": 0.0750332623720169,
-      "learning_rate": 1e-06,
-      "loss": 0.0043,
-      "step": 436
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 338.58050246465774,
-      "epoch": 2.862037037037037,
-      "grad_norm": 0.06907039880752563,
-      "learning_rate": 1e-06,
-      "loss": 0.0029,
-      "num_tokens": 404099120.0,
-      "reward": 1.6791383482161022,
-      "reward_std": 0.09301007627731278,
-      "rewards/acc_reward_func": 1.6791383255095709,
-      "step": 437
-    },
-    {
-      "clip_ratio": 5.430434404323543e-05,
-      "epoch": 2.8685185185185187,
-      "grad_norm": 0.06709130853414536,
-      "learning_rate": 1e-06,
-      "loss": 0.0027,
-      "step": 438
-    },
-    {
-      "clip_ratio": 0.00010574558421337445,
-      "epoch": 2.875,
-      "grad_norm": 0.06637100130319595,
-      "learning_rate": 1e-06,
-      "loss": 0.0024,
-      "step": 439
-    },
-    {
-      "clip_ratio": 0.0004048011510998809,
-      "epoch": 2.8814814814814813,
-      "grad_norm": 0.06594450771808624,
-      "learning_rate": 1e-06,
-      "loss": 0.002,
-      "step": 440
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 328.1303899855841,
-      "epoch": 2.887962962962963,
-      "grad_norm": 0.09415791928768158,
-      "learning_rate": 1e-06,
-      "loss": -0.0036,
-      "num_tokens": 407581593.0,
-      "reward": 1.5895691911379497,
-      "reward_std": 0.15091915730209576,
-      "rewards/acc_reward_func": 1.5895691627547854,
-      "step": 441
-    },
-    {
-      "clip_ratio": 7.479514776302192e-05,
-      "epoch": 2.8944444444444444,
-      "grad_norm": 0.09067609906196594,
-      "learning_rate": 1e-06,
-      "loss": -0.004,
-      "step": 442
-    },
-    {
-      "clip_ratio": 0.00017182660078452456,
-      "epoch": 2.900925925925926,
-      "grad_norm": 0.08883418887853622,
-      "learning_rate": 1e-06,
-      "loss": -0.0045,
-      "step": 443
-    },
-    {
-      "clip_ratio": 0.00044846041141898327,
-      "epoch": 2.9074074074074074,
-      "grad_norm": 0.08536746352910995,
-      "learning_rate": 1e-06,
-      "loss": -0.0052,
-      "step": 444
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 314.00907825288317,
-      "epoch": 2.9138888888888888,
-      "grad_norm": 0.08820128440856934,
-      "learning_rate": 1e-06,
-      "loss": 0.0061,
-      "num_tokens": 411218279.0,
-      "reward": 1.749433125768389,
-      "reward_std": 0.12802751929987044,
-      "rewards/acc_reward_func": 1.7494331030618577,
-      "step": 445
-    },
-    {
-      "clip_ratio": 8.860694513367933e-05,
-      "epoch": 2.9203703703703705,
-      "grad_norm": 0.08626239001750946,
-      "learning_rate": 1e-06,
-      "loss": 0.0058,
-      "step": 446
-    },
-    {
-      "clip_ratio": 0.0003607673178997911,
-      "epoch": 2.926851851851852,
-      "grad_norm": 0.08441189676523209,
-      "learning_rate": 1e-06,
-      "loss": 0.0053,
-      "step": 447
-    },
-    {
-      "clip_ratio": 0.0008602460790522551,
-      "epoch": 2.9333333333333336,
-      "grad_norm": 0.08371831476688385,
-      "learning_rate": 1e-06,
-      "loss": 0.0046,
-      "step": 448
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 329.5929768880208,
-      "epoch": 2.939814814814815,
-      "grad_norm": 0.08556215465068817,
-      "learning_rate": 1e-06,
-      "loss": 0.0046,
-      "num_tokens": 415063728.0,
-      "reward": 1.6507936772846041,
-      "reward_std": 0.12087976418080784,
-      "rewards/acc_reward_func": 1.6507936602547055,
-      "step": 449
-    },
-    {
-      "clip_ratio": 6.594504590057546e-05,
-      "epoch": 2.946296296296296,
-      "grad_norm": 0.08255585283041,
-      "learning_rate": 1e-06,
-      "loss": 0.0043,
-      "step": 450
-    },
-    {
-      "clip_ratio": 0.00024212310728173527,
-      "epoch": 2.9527777777777775,
-      "grad_norm": 0.0834159404039383,
-      "learning_rate": 1e-06,
-      "loss": 0.0038,
-      "step": 451
-    },
-    {
-      "clip_ratio": 0.0005293784523105604,
-      "epoch": 2.9592592592592593,
-      "grad_norm": 0.07938043773174286,
-      "learning_rate": 1e-06,
-      "loss": 0.0031,
-      "step": 452
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 310.26644606817337,
-      "epoch": 2.965740740740741,
-      "grad_norm": 0.0936601534485817,
-      "learning_rate": 1e-06,
-      "loss": 0.0064,
-      "num_tokens": 418688725.0,
-      "reward": 1.658730183328901,
-      "reward_std": 0.14163324290088244,
-      "rewards/acc_reward_func": 1.6587301662990026,
-      "step": 453
-    },
-    {
-      "clip_ratio": 7.96998169140092e-05,
-      "epoch": 2.9722222222222223,
-      "grad_norm": 0.08971893042325974,
-      "learning_rate": 1e-06,
-      "loss": 0.006,
-      "step": 454
-    },
-    {
-      "clip_ratio": 0.00018841165833042135,
-      "epoch": 2.9787037037037036,
-      "grad_norm": 0.08801492303609848,
-      "learning_rate": 1e-06,
-      "loss": 0.0054,
-      "step": 455
-    },
-    {
-      "clip_ratio": 0.00046365962216874496,
-      "epoch": 2.985185185185185,
-      "grad_norm": 0.0843043327331543,
-      "learning_rate": 1e-06,
-      "loss": 0.0047,
-      "step": 456
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 306.1598714192708,
-      "epoch": 3.0064814814814813,
-      "grad_norm": 0.12096734344959259,
-      "learning_rate": 1e-06,
-      "loss": 0.0056,
-      "num_tokens": 422140912.0,
-      "reward": 1.7018140838259743,
-      "reward_std": 0.16363864338823728,
-      "rewards/acc_reward_func": 1.7018140667960757,
-      "step": 457
-    },
-    {
-      "clip_ratio": 7.911362107344238e-05,
-      "epoch": 3.012962962962963,
-      "grad_norm": 0.1199815645813942,
-      "learning_rate": 1e-06,
-      "loss": 0.005,
-      "step": 458
-    },
-    {
-      "clip_ratio": 0.0003393752437356549,
-      "epoch": 3.0194444444444444,
-      "grad_norm": 0.11338788270950317,
-      "learning_rate": 1e-06,
-      "loss": 0.004,
-      "step": 459
-    },
-    {
-      "clip_ratio": 0.0012846073105243878,
-      "epoch": 3.025925925925926,
-      "grad_norm": 0.11216680705547333,
-      "learning_rate": 1e-06,
-      "loss": 0.0029,
-      "step": 460
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 326.7562415713356,
-      "epoch": 3.0324074074074074,
-      "grad_norm": 0.14053334295749664,
-      "learning_rate": 1e-06,
-      "loss": 0.0426,
-      "num_tokens": 425862443.0,
-      "reward": 1.6666666950498308,
-      "reward_std": 0.2066345683165959,
-      "rewards/acc_reward_func": 1.6666666723432995,
-      "step": 461
-    },
-    {
-      "clip_ratio": 0.0001409024182413261,
-      "epoch": 3.0388888888888888,
-      "grad_norm": 0.13825556635856628,
-      "learning_rate": 1e-06,
-      "loss": 0.0418,
-      "step": 462
-    },
-    {
-      "clip_ratio": 0.00045791927654395944,
-      "epoch": 3.0453703703703705,
-      "grad_norm": 0.1277666687965393,
-      "learning_rate": 1e-06,
-      "loss": 0.0407,
-      "step": 463
-    },
-    {
-      "clip_ratio": 0.0016882882032188632,
-      "epoch": 3.051851851851852,
-      "grad_norm": 0.11887232214212418,
-      "learning_rate": 1e-06,
-      "loss": 0.0394,
-      "step": 464
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 289.12245686848956,
-      "epoch": 3.058333333333333,
-      "grad_norm": 0.1422978937625885,
-      "learning_rate": 1e-06,
-      "loss": 0.0074,
-      "num_tokens": 429768887.0,
-      "reward": 1.7029478720256261,
-      "reward_std": 0.16384412295051984,
-      "rewards/acc_reward_func": 1.7029478549957275,
-      "step": 465
-    },
-    {
-      "clip_ratio": 0.00022631913868411045,
-      "epoch": 3.064814814814815,
-      "grad_norm": 0.12926463782787323,
-      "learning_rate": 1e-06,
-      "loss": 0.0067,
-      "step": 466
-    },
-    {
-      "clip_ratio": 0.0016295394466613374,
-      "epoch": 3.071296296296296,
-      "grad_norm": 0.12168161571025848,
-      "learning_rate": 1e-06,
-      "loss": 0.0057,
-      "step": 467
-    },
-    {
-      "clip_ratio": 0.004102049317831795,
-      "epoch": 3.077777777777778,
-      "grad_norm": 0.13436855375766754,
-      "learning_rate": 1e-06,
-      "loss": 0.0047,
-      "step": 468
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 279.0952410016741,
-      "epoch": 3.0842592592592593,
-      "grad_norm": 0.10855058580636978,
-      "learning_rate": 1e-06,
-      "loss": 0.0037,
-      "num_tokens": 433203107.0,
-      "reward": 1.6882086594899495,
-      "reward_std": 0.13231020988453002,
-      "rewards/acc_reward_func": 1.688208608400254,
-      "step": 469
-    },
-    {
-      "clip_ratio": 0.00115988185557182,
-      "epoch": 3.0907407407407406,
-      "grad_norm": 0.11043041199445724,
-      "learning_rate": 1e-06,
-      "loss": 0.0032,
-      "step": 470
-    },
-    {
-      "clip_ratio": 0.002692721124428014,
-      "epoch": 3.0972222222222223,
-      "grad_norm": 0.12333739548921585,
-      "learning_rate": 1e-06,
-      "loss": 0.0025,
-      "step": 471
-    },
-    {
-      "clip_ratio": 0.0018077372972454344,
-      "epoch": 3.1037037037037036,
-      "grad_norm": 0.0895155668258667,
-      "learning_rate": 1e-06,
-      "loss": 0.0016,
-      "step": 472
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 266.54309227353053,
-      "epoch": 3.1101851851851854,
-      "grad_norm": 0.1423775851726532,
-      "learning_rate": 1e-06,
-      "loss": 0.0015,
-      "num_tokens": 436395760.0,
-      "reward": 1.6870748485837663,
-      "reward_std": 0.14476618241696132,
-      "rewards/acc_reward_func": 1.687074825877235,
-      "step": 473
-    },
-    {
-      "clip_ratio": 0.0009848821119660335,
-      "epoch": 3.1166666666666667,
-      "grad_norm": 0.11566051095724106,
-      "learning_rate": 1e-06,
-      "loss": 0.0008,
-      "step": 474
-    },
-    {
-      "clip_ratio": 0.004755329806357622,
-      "epoch": 3.123148148148148,
-      "grad_norm": 0.13648808002471924,
-      "learning_rate": 1e-06,
-      "loss": 0.0001,
-      "step": 475
-    },
-    {
-      "clip_ratio": 0.0044265871623619685,
-      "epoch": 3.1296296296296298,
-      "grad_norm": 0.146810844540596,
-      "learning_rate": 1e-06,
-      "loss": -0.0009,
-      "step": 476
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 269.2312970842634,
-      "epoch": 3.136111111111111,
-      "grad_norm": 0.12026971578598022,
-      "learning_rate": 1e-06,
-      "loss": 0.0082,
-      "num_tokens": 439744150.0,
-      "reward": 1.633786882672991,
-      "reward_std": 0.11844597526249431,
-      "rewards/acc_reward_func": 1.6337868429365612,
-      "step": 477
-    },
-    {
-      "clip_ratio": 0.0009484389579267285,
-      "epoch": 3.1425925925925924,
-      "grad_norm": 0.1215616911649704,
-      "learning_rate": 1e-06,
-      "loss": 0.0077,
-      "step": 478
-    },
-    {
-      "clip_ratio": 0.003697521280541661,
-      "epoch": 3.149074074074074,
-      "grad_norm": 0.14095111191272736,
-      "learning_rate": 1e-06,
-      "loss": 0.007,
-      "step": 479
-    },
-    {
-      "clip_ratio": 0.0034387974633968304,
-      "epoch": 3.1555555555555554,
-      "grad_norm": 0.12663334608078003,
-      "learning_rate": 1e-06,
-      "loss": 0.0059,
-      "step": 480
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 265.1598692394438,
-      "epoch": 3.162037037037037,
-      "grad_norm": 0.1346891224384308,
-      "learning_rate": 1e-06,
-      "loss": 0.0047,
-      "num_tokens": 443271385.0,
-      "reward": 1.7256236189887637,
-      "reward_std": 0.14089716740307354,
-      "rewards/acc_reward_func": 1.7256235792523338,
-      "step": 481
-    },
-    {
-      "clip_ratio": 0.0004448807906425957,
-      "epoch": 3.1685185185185185,
-      "grad_norm": 0.12079239636659622,
-      "learning_rate": 1e-06,
-      "loss": 0.0041,
-      "step": 482
-    },
-    {
-      "clip_ratio": 0.0020043016965722756,
-      "epoch": 3.175,
-      "grad_norm": 0.14017271995544434,
-      "learning_rate": 1e-06,
-      "loss": 0.0033,
-      "step": 483
-    },
-    {
-      "clip_ratio": 0.0017200966179925239,
-      "epoch": 3.1814814814814816,
-      "grad_norm": 0.15152569115161896,
-      "learning_rate": 1e-06,
-      "loss": 0.0023,
-      "step": 484
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 256.5975094749814,
-      "epoch": 3.187962962962963,
-      "grad_norm": 0.10771705955266953,
-      "learning_rate": 1e-06,
-      "loss": 0.0069,
-      "num_tokens": 446677080.0,
-      "reward": 1.7256236189887637,
-      "reward_std": 0.12167022980394818,
-      "rewards/acc_reward_func": 1.7256235792523338,
-      "step": 485
-    },
-    {
-      "clip_ratio": 0.0006665461551165208,
-      "epoch": 3.1944444444444446,
-      "grad_norm": 0.10599280893802643,
-      "learning_rate": 1e-06,
-      "loss": 0.0064,
-      "step": 486
-    },
-    {
-      "clip_ratio": 0.0033372725759233746,
-      "epoch": 3.200925925925926,
-      "grad_norm": 0.13055044412612915,
-      "learning_rate": 1e-06,
-      "loss": 0.0058,
-      "step": 487
-    },
-    {
-      "clip_ratio": 0.0035411600755261524,
-      "epoch": 3.2074074074074073,
-      "grad_norm": 0.12772558629512787,
-      "learning_rate": 1e-06,
-      "loss": 0.0049,
-      "step": 488
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 232.3888920375279,
-      "epoch": 3.213888888888889,
-      "grad_norm": 0.16783253848552704,
-      "learning_rate": 1e-06,
-      "loss": 0.0085,
-      "num_tokens": 450388591.0,
-      "reward": 1.6995465131033034,
-      "reward_std": 0.13824334208454406,
-      "rewards/acc_reward_func": 1.6995464733668737,
-      "step": 489
-    },
-    {
-      "clip_ratio": 0.0005684612243342036,
-      "epoch": 3.2203703703703703,
-      "grad_norm": 0.14137648046016693,
-      "learning_rate": 1e-06,
-      "loss": 0.0077,
-      "step": 490
-    },
-    {
-      "clip_ratio": 0.004452694151994018,
-      "epoch": 3.226851851851852,
-      "grad_norm": 0.14627555012702942,
-      "learning_rate": 1e-06,
-      "loss": 0.0068,
-      "step": 491
-    },
-    {
-      "clip_ratio": 0.006235157244927471,
-      "epoch": 3.2333333333333334,
-      "grad_norm": 0.17356812953948975,
-      "learning_rate": 1e-06,
-      "loss": 0.0059,
-      "step": 492
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 230.3911626906622,
-      "epoch": 3.2398148148148147,
-      "grad_norm": 0.1436953991651535,
-      "learning_rate": 1e-06,
-      "loss": -0.001,
-      "num_tokens": 454082620.0,
-      "reward": 1.640589606194269,
-      "reward_std": 0.13000182736487614,
-      "rewards/acc_reward_func": 1.6405895664578392,
-      "step": 493
-    },
-    {
-      "clip_ratio": 0.00045952137346224237,
-      "epoch": 3.2462962962962965,
-      "grad_norm": 0.14312081038951874,
-      "learning_rate": 1e-06,
-      "loss": -0.0018,
-      "step": 494
-    },
-    {
-      "clip_ratio": 0.0025044624372163697,
-      "epoch": 3.2527777777777778,
-      "grad_norm": 0.15083995461463928,
-      "learning_rate": 1e-06,
-      "loss": -0.003,
-      "step": 495
-    },
-    {
-      "clip_ratio": 0.002988206178304695,
-      "epoch": 3.259259259259259,
-      "grad_norm": 0.15178053081035614,
-      "learning_rate": 1e-06,
-      "loss": -0.0044,
-      "step": 496
-    },
-    {
-      "clip_ratio": 0.0,
-      "completion_length": 239.91270228794642,
-      "epoch": 3.265740740740741,
-      "grad_norm": 0.11761778593063354,
-      "learning_rate": 1e-06,
-      "loss": -0.0011,
-      "num_tokens": 457521509.0,
-      "reward": 1.7120181776228405,
-      "reward_std": 0.10198826484736942,
-      "rewards/acc_reward_func": 1.7120181322097778,
-      "step": 497
-    },
-    {
-      "clip_ratio": 0.00034070668923613125,
-      "epoch": 3.272222222222222,
-      "grad_norm": 0.10410414636135101,
-      "learning_rate": 1e-06,
-      "loss": -0.0014,
-      "step": 498
-    },
-    {
-      "clip_ratio": 0.0006974699981150306,
-      "epoch": 3.278703703703704,
-      "grad_norm": 0.10498173534870148,
-      "learning_rate": 1e-06,
-      "loss": -0.0021,
-      "step": 499
-    },
-    {
-      "clip_ratio": 0.0008304606145386407,
-      "epoch": 3.285185185185185,
-      "grad_norm": 0.10428803414106369,
-      "learning_rate": 1e-06,
-      "loss": -0.0029,
-      "step": 500
     }
   ],
   "logging_steps": 1,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.6351851851851853,
   "eval_steps": 500,
+  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1e-06,
       "loss": 0.0002,
       "step": 250
     }
   ],
   "logging_steps": 1,