Model save

Browse files

Files changed (5) hide show

README.md +61 -0
all_results.json +9 -0
generation_config.json +7 -0
train_results.json +9 -0
trainer_state.json +1182 -0

README.md ADDED Viewed

	@@ -0,0 +1,61 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: TinyLlama/TinyLlama-1.1B-Chat-v1.0
+tags:
+- trl
+- dpo
+- generated_from_trainer
+model-index:
+- name: tinyllama-1.1b-chat-v1.0-ui-coding-dpo-2
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# tinyllama-1.1b-chat-v1.0-ui-coding-dpo-2
+This model is a fine-tuned version of [TinyLlama/TinyLlama-1.1B-Chat-v1.0](https://huggingface.co/TinyLlama/TinyLlama-1.1B-Chat-v1.0) on an unknown dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-07
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 256
+- total_eval_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 2
+### Training results
+### Framework versions
+- Transformers 4.44.1
+- Pytorch 2.1.2+cu121
+- Datasets 2.21.0
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.9960291197882198,
+    "total_flos": 0.0,
+    "train_loss": 0.26563876598520053,
+    "train_runtime": 5267.2293,
+    "train_samples": 96652,
+    "train_samples_per_second": 36.699,
+    "train_steps_per_second": 0.143
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "max_length": 2048,
+  "pad_token_id": 0,
+  "transformers_version": "4.44.1"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.9960291197882198,
+    "total_flos": 0.0,
+    "train_loss": 0.26563876598520053,
+    "train_runtime": 5267.2293,
+    "train_samples": 96652,
+    "train_samples_per_second": 36.699,
+    "train_steps_per_second": 0.143
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1182 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9960291197882198,
+  "eval_steps": 1000,
+  "global_step": 754,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0026472534745201853,
+      "grad_norm": 4.30932258831093,
+      "learning_rate": 6.578947368421052e-09,
+      "logits/chosen": -2.923454761505127,
+      "logits/rejected": -3.022336483001709,
+      "logps/chosen": -491.803955078125,
+      "logps/rejected": -509.828369140625,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.026472534745201854,
+      "grad_norm": 4.3524814860184176,
+      "learning_rate": 6.578947368421052e-08,
+      "logits/chosen": -2.849837303161621,
+      "logits/rejected": -2.918842315673828,
+      "logps/chosen": -482.8021240234375,
+      "logps/rejected": -468.6262512207031,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.4444444477558136,
+      "rewards/chosen": 1.7793978258850984e-05,
+      "rewards/margins": 0.00012061676534358412,
+      "rewards/rejected": -0.00010282275616191328,
+      "step": 10
+    },
+    {
+      "epoch": 0.05294506949040371,
+      "grad_norm": 4.058367941679181,
+      "learning_rate": 1.3157894736842104e-07,
+      "logits/chosen": -2.8850979804992676,
+      "logits/rejected": -2.9686431884765625,
+      "logps/chosen": -492.1334533691406,
+      "logps/rejected": -473.5765075683594,
+      "loss": 0.6929,
+      "rewards/accuracies": 0.5062500238418579,
+      "rewards/chosen": 0.00013926837709732354,
+      "rewards/margins": 0.0005674505373463035,
+      "rewards/rejected": -0.0004281821602489799,
+      "step": 20
+    },
+    {
+      "epoch": 0.07941760423560557,
+      "grad_norm": 4.100822256989,
+      "learning_rate": 1.9736842105263157e-07,
+      "logits/chosen": -2.868659496307373,
+      "logits/rejected": -2.9573891162872314,
+      "logps/chosen": -475.2897033691406,
+      "logps/rejected": -473.85064697265625,
+      "loss": 0.6906,
+      "rewards/accuracies": 0.715624988079071,
+      "rewards/chosen": 0.003203944070264697,
+      "rewards/margins": 0.006764715071767569,
+      "rewards/rejected": -0.0035607716999948025,
+      "step": 30
+    },
+    {
+      "epoch": 0.10589013898080742,
+      "grad_norm": 4.224597004906648,
+      "learning_rate": 2.631578947368421e-07,
+      "logits/chosen": -2.880610704421997,
+      "logits/rejected": -2.9531335830688477,
+      "logps/chosen": -477.7626953125,
+      "logps/rejected": -471.15203857421875,
+      "loss": 0.6838,
+      "rewards/accuracies": 0.7906249761581421,
+      "rewards/chosen": 0.0102998660877347,
+      "rewards/margins": 0.02004994824528694,
+      "rewards/rejected": -0.009750082157552242,
+      "step": 40
+    },
+    {
+      "epoch": 0.13236267372600927,
+      "grad_norm": 4.481790796785453,
+      "learning_rate": 3.2894736842105264e-07,
+      "logits/chosen": -2.910224199295044,
+      "logits/rejected": -2.966555118560791,
+      "logps/chosen": -496.03704833984375,
+      "logps/rejected": -483.69970703125,
+      "loss": 0.6705,
+      "rewards/accuracies": 0.8031250238418579,
+      "rewards/chosen": 0.02056797966361046,
+      "rewards/margins": 0.04747764393687248,
+      "rewards/rejected": -0.026909660547971725,
+      "step": 50
+    },
+    {
+      "epoch": 0.15883520847121113,
+      "grad_norm": 4.727420695183077,
+      "learning_rate": 3.9473684210526315e-07,
+      "logits/chosen": -2.908859968185425,
+      "logits/rejected": -2.9846339225769043,
+      "logps/chosen": -487.971923828125,
+      "logps/rejected": -487.698486328125,
+      "loss": 0.6321,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.047008998692035675,
+      "rewards/margins": 0.12849071621894836,
+      "rewards/rejected": -0.08148171752691269,
+      "step": 60
+    },
+    {
+      "epoch": 0.18530774321641297,
+      "grad_norm": 5.3651750883138645,
+      "learning_rate": 4.6052631578947365e-07,
+      "logits/chosen": -2.9276702404022217,
+      "logits/rejected": -2.958789348602295,
+      "logps/chosen": -488.4877014160156,
+      "logps/rejected": -489.53546142578125,
+      "loss": 0.5937,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": 0.025530118495225906,
+      "rewards/margins": 0.22059020400047302,
+      "rewards/rejected": -0.19506008923053741,
+      "step": 70
+    },
+    {
+      "epoch": 0.21178027796161483,
+      "grad_norm": 3.6311630185736297,
+      "learning_rate": 4.999570604073014e-07,
+      "logits/chosen": -2.923982620239258,
+      "logits/rejected": -2.9833145141601562,
+      "logps/chosen": -503.56134033203125,
+      "logps/rejected": -552.4190673828125,
+      "loss": 0.4934,
+      "rewards/accuracies": 0.840624988079071,
+      "rewards/chosen": -0.13993698358535767,
+      "rewards/margins": 0.5944468975067139,
+      "rewards/rejected": -0.7343839406967163,
+      "step": 80
+    },
+    {
+      "epoch": 0.23825281270681667,
+      "grad_norm": 4.662865437270245,
+      "learning_rate": 4.994741593733563e-07,
+      "logits/chosen": -2.9195408821105957,
+      "logits/rejected": -2.958824872970581,
+      "logps/chosen": -534.3409423828125,
+      "logps/rejected": -607.5826416015625,
+      "loss": 0.4331,
+      "rewards/accuracies": 0.871874988079071,
+      "rewards/chosen": -0.41773176193237305,
+      "rewards/margins": 0.9263063669204712,
+      "rewards/rejected": -1.3440382480621338,
+      "step": 90
+    },
+    {
+      "epoch": 0.26472534745201853,
+      "grad_norm": 4.763826147961603,
+      "learning_rate": 4.984557228946769e-07,
+      "logits/chosen": -2.815560817718506,
+      "logits/rejected": -2.8625988960266113,
+      "logps/chosen": -611.6197509765625,
+      "logps/rejected": -758.5867309570312,
+      "loss": 0.3704,
+      "rewards/accuracies": 0.8343750238418579,
+      "rewards/chosen": -1.2842621803283691,
+      "rewards/margins": 1.4864912033081055,
+      "rewards/rejected": -2.7707533836364746,
+      "step": 100
+    },
+    {
+      "epoch": 0.29119788219722037,
+      "grad_norm": 4.297222720122574,
+      "learning_rate": 4.969039372050355e-07,
+      "logits/chosen": -2.787930488586426,
+      "logits/rejected": -2.8286757469177246,
+      "logps/chosen": -622.7388305664062,
+      "logps/rejected": -840.2802734375,
+      "loss": 0.3234,
+      "rewards/accuracies": 0.8531249761581421,
+      "rewards/chosen": -1.4110974073410034,
+      "rewards/margins": 2.2375450134277344,
+      "rewards/rejected": -3.648642063140869,
+      "step": 110
+    },
+    {
+      "epoch": 0.31767041694242226,
+      "grad_norm": 3.7535819941587065,
+      "learning_rate": 4.948221334560093e-07,
+      "logits/chosen": -2.831071615219116,
+      "logits/rejected": -2.843599796295166,
+      "logps/chosen": -592.7720947265625,
+      "logps/rejected": -807.1361083984375,
+      "loss": 0.3176,
+      "rewards/accuracies": 0.8531249761581421,
+      "rewards/chosen": -1.023418664932251,
+      "rewards/margins": 2.2339682579040527,
+      "rewards/rejected": -3.2573866844177246,
+      "step": 120
+    },
+    {
+      "epoch": 0.3441429516876241,
+      "grad_norm": 4.4946406733821185,
+      "learning_rate": 4.922147805661402e-07,
+      "logits/chosen": -2.83577823638916,
+      "logits/rejected": -2.875858783721924,
+      "logps/chosen": -629.0977783203125,
+      "logps/rejected": -913.8206787109375,
+      "loss": 0.2875,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -1.3898423910140991,
+      "rewards/margins": 2.828009605407715,
+      "rewards/rejected": -4.2178521156311035,
+      "step": 130
+    },
+    {
+      "epoch": 0.37061548643282594,
+      "grad_norm": 4.541566634311875,
+      "learning_rate": 4.890874756276999e-07,
+      "logits/chosen": -2.7425622940063477,
+      "logits/rejected": -2.8039002418518066,
+      "logps/chosen": -634.9403686523438,
+      "logps/rejected": -911.8308715820312,
+      "loss": 0.2831,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -1.5872424840927124,
+      "rewards/margins": 2.6655924320220947,
+      "rewards/rejected": -4.252835273742676,
+      "step": 140
+    },
+    {
+      "epoch": 0.3970880211780278,
+      "grad_norm": 3.3580041177607978,
+      "learning_rate": 4.854469318916532e-07,
+      "logits/chosen": -2.8008108139038086,
+      "logits/rejected": -2.8558998107910156,
+      "logps/chosen": -646.1107177734375,
+      "logps/rejected": -980.4015502929688,
+      "loss": 0.2668,
+      "rewards/accuracies": 0.9156249761581421,
+      "rewards/chosen": -1.5013834238052368,
+      "rewards/margins": 3.364828109741211,
+      "rewards/rejected": -4.866211414337158,
+      "step": 150
+    },
+    {
+      "epoch": 0.42356055592322966,
+      "grad_norm": 4.675914141471813,
+      "learning_rate": 4.8130096435661e-07,
+      "logits/chosen": -2.80204176902771,
+      "logits/rejected": -2.8504693508148193,
+      "logps/chosen": -631.5078125,
+      "logps/rejected": -925.1160888671875,
+      "loss": 0.2519,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": -1.4621139764785767,
+      "rewards/margins": 2.9786953926086426,
+      "rewards/rejected": -4.440809726715088,
+      "step": 160
+    },
+    {
+      "epoch": 0.4500330906684315,
+      "grad_norm": 6.483714450702139,
+      "learning_rate": 4.766584729927049e-07,
+      "logits/chosen": -2.768064498901367,
+      "logits/rejected": -2.8086233139038086,
+      "logps/chosen": -676.531982421875,
+      "logps/rejected": -1029.0057373046875,
+      "loss": 0.2799,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -1.8374897241592407,
+      "rewards/margins": 3.5798168182373047,
+      "rewards/rejected": -5.417306900024414,
+      "step": 170
+    },
+    {
+      "epoch": 0.47650562541363334,
+      "grad_norm": 5.396515481877322,
+      "learning_rate": 4.7152942363641345e-07,
+      "logits/chosen": -2.7385268211364746,
+      "logits/rejected": -2.760967493057251,
+      "logps/chosen": -642.5712890625,
+      "logps/rejected": -997.8201904296875,
+      "loss": 0.2558,
+      "rewards/accuracies": 0.8968750238418579,
+      "rewards/chosen": -1.627642273902893,
+      "rewards/margins": 3.5839648246765137,
+      "rewards/rejected": -5.211607456207275,
+      "step": 180
+    },
+    {
+      "epoch": 0.5029781601588352,
+      "grad_norm": 5.261191188089043,
+      "learning_rate": 4.6592482659732045e-07,
+      "logits/chosen": -2.7847423553466797,
+      "logits/rejected": -2.8355870246887207,
+      "logps/chosen": -674.9547729492188,
+      "logps/rejected": -972.1364135742188,
+      "loss": 0.2536,
+      "rewards/accuracies": 0.8968750238418579,
+      "rewards/chosen": -1.8109451532363892,
+      "rewards/margins": 3.033442258834839,
+      "rewards/rejected": -4.844388008117676,
+      "step": 190
+    },
+    {
+      "epoch": 0.5294506949040371,
+      "grad_norm": 4.9133890145951495,
+      "learning_rate": 4.5985671302276166e-07,
+      "logits/chosen": -2.7557764053344727,
+      "logits/rejected": -2.8086917400360107,
+      "logps/chosen": -681.2697143554688,
+      "logps/rejected": -989.4937744140625,
+      "loss": 0.2602,
+      "rewards/accuracies": 0.890625,
+      "rewards/chosen": -1.8896667957305908,
+      "rewards/margins": 3.2132556438446045,
+      "rewards/rejected": -5.102922439575195,
+      "step": 200
+    },
+    {
+      "epoch": 0.5559232296492389,
+      "grad_norm": 4.892431641268176,
+      "learning_rate": 4.533381090710776e-07,
+      "logits/chosen": -2.7014384269714355,
+      "logits/rejected": -2.7446448802948,
+      "logps/chosen": -670.3836669921875,
+      "logps/rejected": -988.2939453125,
+      "loss": 0.2323,
+      "rewards/accuracies": 0.909375011920929,
+      "rewards/chosen": -1.8962217569351196,
+      "rewards/margins": 3.261091947555542,
+      "rewards/rejected": -5.157313823699951,
+      "step": 210
+    },
+    {
+      "epoch": 0.5823957643944407,
+      "grad_norm": 4.5229078992046166,
+      "learning_rate": 4.463830079489196e-07,
+      "logits/chosen": -2.7127437591552734,
+      "logits/rejected": -2.735060930252075,
+      "logps/chosen": -697.1866455078125,
+      "logps/rejected": -1054.2486572265625,
+      "loss": 0.2292,
+      "rewards/accuracies": 0.9156249761581421,
+      "rewards/chosen": -2.145174026489258,
+      "rewards/margins": 3.7120985984802246,
+      "rewards/rejected": -5.857272148132324,
+      "step": 220
+    },
+    {
+      "epoch": 0.6088682991396426,
+      "grad_norm": 5.024605464390731,
+      "learning_rate": 4.390063398726356e-07,
+      "logits/chosen": -2.6947622299194336,
+      "logits/rejected": -2.6960158348083496,
+      "logps/chosen": -719.8890380859375,
+      "logps/rejected": -1086.1702880859375,
+      "loss": 0.2353,
+      "rewards/accuracies": 0.921875,
+      "rewards/chosen": -2.32169771194458,
+      "rewards/margins": 3.803462266921997,
+      "rewards/rejected": -6.12515926361084,
+      "step": 230
+    },
+    {
+      "epoch": 0.6353408338848445,
+      "grad_norm": 4.497134908678504,
+      "learning_rate": 4.3122394001821657e-07,
+      "logits/chosen": -2.699171781539917,
+      "logits/rejected": -2.7273011207580566,
+      "logps/chosen": -715.7581176757812,
+      "logps/rejected": -1008.9625244140625,
+      "loss": 0.2481,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -2.174252986907959,
+      "rewards/margins": 3.0458567142486572,
+      "rewards/rejected": -5.220109462738037,
+      "step": 240
+    },
+    {
+      "epoch": 0.6618133686300464,
+      "grad_norm": 4.8761682045650625,
+      "learning_rate": 4.2305251452860566e-07,
+      "logits/chosen": -2.7068121433258057,
+      "logits/rejected": -2.7410686016082764,
+      "logps/chosen": -667.6207885742188,
+      "logps/rejected": -1025.73828125,
+      "loss": 0.2279,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -1.91938054561615,
+      "rewards/margins": 3.5805881023406982,
+      "rewards/rejected": -5.4999680519104,
+      "step": 250
+    },
+    {
+      "epoch": 0.6882859033752482,
+      "grad_norm": 6.933116753661563,
+      "learning_rate": 4.1450960465134024e-07,
+      "logits/chosen": -2.7003915309906006,
+      "logits/rejected": -2.7421202659606934,
+      "logps/chosen": -725.2587890625,
+      "logps/rejected": -1111.21533203125,
+      "loss": 0.2322,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -2.4127094745635986,
+      "rewards/margins": 3.868704319000244,
+      "rewards/rejected": -6.28141450881958,
+      "step": 260
+    },
+    {
+      "epoch": 0.71475843812045,
+      "grad_norm": 5.180639131738146,
+      "learning_rate": 4.0561354908350977e-07,
+      "logits/chosen": -2.7455577850341797,
+      "logits/rejected": -2.768336057662964,
+      "logps/chosen": -686.0287475585938,
+      "logps/rejected": -1041.7474365234375,
+      "loss": 0.2406,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -2.0675699710845947,
+      "rewards/margins": 3.5837669372558594,
+      "rewards/rejected": -5.651337146759033,
+      "step": 270
+    },
+    {
+      "epoch": 0.7412309728656519,
+      "grad_norm": 6.760828116437296,
+      "learning_rate": 3.963834446048644e-07,
+      "logits/chosen": -2.7979235649108887,
+      "logits/rejected": -2.795571804046631,
+      "logps/chosen": -757.2296142578125,
+      "logps/rejected": -1096.9935302734375,
+      "loss": 0.235,
+      "rewards/accuracies": 0.878125011920929,
+      "rewards/chosen": -2.414430618286133,
+      "rewards/margins": 3.682656764984131,
+      "rewards/rejected": -6.097087383270264,
+      "step": 280
+    },
+    {
+      "epoch": 0.7677035076108537,
+      "grad_norm": 5.924062579551431,
+      "learning_rate": 3.868391050835793e-07,
+      "logits/chosen": -2.707353353500366,
+      "logits/rejected": -2.708177089691162,
+      "logps/chosen": -735.2392578125,
+      "logps/rejected": -1096.3634033203125,
+      "loss": 0.2165,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -2.4990901947021484,
+      "rewards/margins": 3.737868547439575,
+      "rewards/rejected": -6.2369585037231445,
+      "step": 290
+    },
+    {
+      "epoch": 0.7941760423560555,
+      "grad_norm": 6.316712123280126,
+      "learning_rate": 3.770010189426761e-07,
+      "logits/chosen": -2.696866512298584,
+      "logits/rejected": -2.720412015914917,
+      "logps/chosen": -788.0701904296875,
+      "logps/rejected": -1174.900390625,
+      "loss": 0.2278,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": -2.9900288581848145,
+      "rewards/margins": 3.7810866832733154,
+      "rewards/rejected": -6.771115779876709,
+      "step": 300
+    },
+    {
+      "epoch": 0.8206485771012575,
+      "grad_norm": 5.395016037418297,
+      "learning_rate": 3.66890305178407e-07,
+      "logits/chosen": -2.716305732727051,
+      "logits/rejected": -2.716601848602295,
+      "logps/chosen": -742.38232421875,
+      "logps/rejected": -1122.4625244140625,
+      "loss": 0.2287,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -2.601231098175049,
+      "rewards/margins": 3.891951084136963,
+      "rewards/rejected": -6.4931817054748535,
+      "step": 310
+    },
+    {
+      "epoch": 0.8471211118464593,
+      "grad_norm": 6.246149943149367,
+      "learning_rate": 3.565286680250138e-07,
+      "logits/chosen": -2.748223066329956,
+      "logits/rejected": -2.7793920040130615,
+      "logps/chosen": -724.46484375,
+      "logps/rejected": -1080.5015869140625,
+      "loss": 0.2089,
+      "rewards/accuracies": 0.9156249761581421,
+      "rewards/chosen": -2.3395774364471436,
+      "rewards/margins": 3.757481813430786,
+      "rewards/rejected": -6.097059726715088,
+      "step": 320
+    },
+    {
+      "epoch": 0.8735936465916612,
+      "grad_norm": 6.876926943284203,
+      "learning_rate": 3.4593835036318225e-07,
+      "logits/chosen": -2.691286563873291,
+      "logits/rejected": -2.7156758308410645,
+      "logps/chosen": -759.7913208007812,
+      "logps/rejected": -1132.6741943359375,
+      "loss": 0.2212,
+      "rewards/accuracies": 0.921875,
+      "rewards/chosen": -2.764772415161133,
+      "rewards/margins": 3.8325703144073486,
+      "rewards/rejected": -6.597343444824219,
+      "step": 330
+    },
+    {
+      "epoch": 0.900066181336863,
+      "grad_norm": 7.266749393582284,
+      "learning_rate": 3.35142085972207e-07,
+      "logits/chosen": -2.6851227283477783,
+      "logits/rejected": -2.722938060760498,
+      "logps/chosen": -754.1365356445312,
+      "logps/rejected": -1132.1871337890625,
+      "loss": 0.218,
+      "rewards/accuracies": 0.8843749761581421,
+      "rewards/chosen": -2.7608418464660645,
+      "rewards/margins": 3.8383007049560547,
+      "rewards/rejected": -6.599142551422119,
+      "step": 340
+    },
+    {
+      "epoch": 0.9265387160820648,
+      "grad_norm": 5.8828162546054426,
+      "learning_rate": 3.2416305072836555e-07,
+      "logits/chosen": -2.703392267227173,
+      "logits/rejected": -2.717411756515503,
+      "logps/chosen": -759.862060546875,
+      "logps/rejected": -1137.0098876953125,
+      "loss": 0.2033,
+      "rewards/accuracies": 0.909375011920929,
+      "rewards/chosen": -2.6198081970214844,
+      "rewards/margins": 3.8972651958465576,
+      "rewards/rejected": -6.517073154449463,
+      "step": 350
+    },
+    {
+      "epoch": 0.9530112508272667,
+      "grad_norm": 6.02673405904732,
+      "learning_rate": 3.1302481285426197e-07,
+      "logits/chosen": -2.7140469551086426,
+      "logits/rejected": -2.7299208641052246,
+      "logps/chosen": -727.9823608398438,
+      "logps/rejected": -1152.2041015625,
+      "loss": 0.2146,
+      "rewards/accuracies": 0.921875,
+      "rewards/chosen": -2.4466357231140137,
+      "rewards/margins": 4.253617763519287,
+      "rewards/rejected": -6.700253486633301,
+      "step": 360
+    },
+    {
+      "epoch": 0.9794837855724685,
+      "grad_norm": 5.891168724337083,
+      "learning_rate": 3.017512823259373e-07,
+      "logits/chosen": -2.7166543006896973,
+      "logits/rejected": -2.7297706604003906,
+      "logps/chosen": -730.9952392578125,
+      "logps/rejected": -1117.7025146484375,
+      "loss": 0.2011,
+      "rewards/accuracies": 0.9281250238418579,
+      "rewards/chosen": -2.5781686305999756,
+      "rewards/margins": 4.00323486328125,
+      "rewards/rejected": -6.5814032554626465,
+      "step": 370
+    },
+    {
+      "epoch": 1.0059563203176705,
+      "grad_norm": 5.4096108526897115,
+      "learning_rate": 2.9036665954635264e-07,
+      "logits/chosen": -2.7353827953338623,
+      "logits/rejected": -2.765237331390381,
+      "logps/chosen": -769.5081176757812,
+      "logps/rejected": -1209.970947265625,
+      "loss": 0.2135,
+      "rewards/accuracies": 0.940625011920929,
+      "rewards/chosen": -2.7778820991516113,
+      "rewards/margins": 4.453129291534424,
+      "rewards/rejected": -7.231011390686035,
+      "step": 380
+    },
+    {
+      "epoch": 1.0324288550628722,
+      "grad_norm": 6.969996057859779,
+      "learning_rate": 2.7889538339542523e-07,
+      "logits/chosen": -2.715958833694458,
+      "logits/rejected": -2.741973638534546,
+      "logps/chosen": -760.3748779296875,
+      "logps/rejected": -1181.979248046875,
+      "loss": 0.1997,
+      "rewards/accuracies": 0.940625011920929,
+      "rewards/chosen": -2.8078932762145996,
+      "rewards/margins": 4.318324089050293,
+      "rewards/rejected": -7.126217842102051,
+      "step": 390
+    },
+    {
+      "epoch": 1.0589013898080741,
+      "grad_norm": 6.27267698414733,
+      "learning_rate": 2.6736207876813643e-07,
+      "logits/chosen": -2.728332042694092,
+      "logits/rejected": -2.7608368396759033,
+      "logps/chosen": -768.7643432617188,
+      "logps/rejected": -1208.543701171875,
+      "loss": 0.1963,
+      "rewards/accuracies": 0.909375011920929,
+      "rewards/chosen": -2.7519562244415283,
+      "rewards/margins": 4.398838996887207,
+      "rewards/rejected": -7.150795936584473,
+      "step": 400
+    },
+    {
+      "epoch": 1.0853739245532759,
+      "grad_norm": 6.331116230324871,
+      "learning_rate": 2.5579150371332953e-07,
+      "logits/chosen": -2.7396435737609863,
+      "logits/rejected": -2.7421391010284424,
+      "logps/chosen": -809.5894775390625,
+      "logps/rejected": -1248.327880859375,
+      "loss": 0.1821,
+      "rewards/accuracies": 0.940625011920929,
+      "rewards/chosen": -3.0432112216949463,
+      "rewards/margins": 4.567535400390625,
+      "rewards/rejected": -7.61074686050415,
+      "step": 410
+    },
+    {
+      "epoch": 1.1118464592984778,
+      "grad_norm": 6.507894575900424,
+      "learning_rate": 2.4420849628667045e-07,
+      "logits/chosen": -2.7221198081970215,
+      "logits/rejected": -2.7356066703796387,
+      "logps/chosen": -795.4509887695312,
+      "logps/rejected": -1229.848876953125,
+      "loss": 0.205,
+      "rewards/accuracies": 0.940625011920929,
+      "rewards/chosen": -3.027529716491699,
+      "rewards/margins": 4.336198806762695,
+      "rewards/rejected": -7.3637285232543945,
+      "step": 420
+    },
+    {
+      "epoch": 1.1383189940436798,
+      "grad_norm": 6.866126936883296,
+      "learning_rate": 2.3263792123186352e-07,
+      "logits/chosen": -2.7347493171691895,
+      "logits/rejected": -2.7523412704467773,
+      "logps/chosen": -788.9684448242188,
+      "logps/rejected": -1187.0565185546875,
+      "loss": 0.2132,
+      "rewards/accuracies": 0.8843749761581421,
+      "rewards/chosen": -2.9675726890563965,
+      "rewards/margins": 4.024303913116455,
+      "rewards/rejected": -6.99187707901001,
+      "step": 430
+    },
+    {
+      "epoch": 1.1647915287888815,
+      "grad_norm": 5.664097996574406,
+      "learning_rate": 2.211046166045748e-07,
+      "logits/chosen": -2.699467420578003,
+      "logits/rejected": -2.715172529220581,
+      "logps/chosen": -787.1725463867188,
+      "logps/rejected": -1219.5947265625,
+      "loss": 0.1992,
+      "rewards/accuracies": 0.909375011920929,
+      "rewards/chosen": -2.9378509521484375,
+      "rewards/margins": 4.4215216636657715,
+      "rewards/rejected": -7.359372138977051,
+      "step": 440
+    },
+    {
+      "epoch": 1.1912640635340834,
+      "grad_norm": 5.8438221376315,
+      "learning_rate": 2.096333404536474e-07,
+      "logits/chosen": -2.6697657108306885,
+      "logits/rejected": -2.6788392066955566,
+      "logps/chosen": -816.9085693359375,
+      "logps/rejected": -1204.7374267578125,
+      "loss": 0.1939,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -3.2424380779266357,
+      "rewards/margins": 4.097726821899414,
+      "rewards/rejected": -7.340165138244629,
+      "step": 450
+    },
+    {
+      "epoch": 1.2177365982792852,
+      "grad_norm": 6.534950899522826,
+      "learning_rate": 1.982487176740627e-07,
+      "logits/chosen": -2.6479620933532715,
+      "logits/rejected": -2.686981201171875,
+      "logps/chosen": -760.5189208984375,
+      "logps/rejected": -1172.6590576171875,
+      "loss": 0.2034,
+      "rewards/accuracies": 0.9281250238418579,
+      "rewards/chosen": -2.8477563858032227,
+      "rewards/margins": 4.02510929107666,
+      "rewards/rejected": -6.872865200042725,
+      "step": 460
+    },
+    {
+      "epoch": 1.244209133024487,
+      "grad_norm": 5.919455336024619,
+      "learning_rate": 1.8697518714573804e-07,
+      "logits/chosen": -2.7183327674865723,
+      "logits/rejected": -2.7170839309692383,
+      "logps/chosen": -790.9767456054688,
+      "logps/rejected": -1145.7747802734375,
+      "loss": 0.1854,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -2.942429304122925,
+      "rewards/margins": 3.9219982624053955,
+      "rewards/rejected": -6.864427089691162,
+      "step": 470
+    },
+    {
+      "epoch": 1.270681667769689,
+      "grad_norm": 8.510303191565324,
+      "learning_rate": 1.758369492716345e-07,
+      "logits/chosen": -2.7107906341552734,
+      "logits/rejected": -2.7333004474639893,
+      "logps/chosen": -831.3541870117188,
+      "logps/rejected": -1250.9085693359375,
+      "loss": 0.204,
+      "rewards/accuracies": 0.9156249761581421,
+      "rewards/chosen": -3.3519797325134277,
+      "rewards/margins": 4.182629585266113,
+      "rewards/rejected": -7.534609317779541,
+      "step": 480
+    },
+    {
+      "epoch": 1.2971542025148908,
+      "grad_norm": 6.158432969646956,
+      "learning_rate": 1.648579140277931e-07,
+      "logits/chosen": -2.7101292610168457,
+      "logits/rejected": -2.715567111968994,
+      "logps/chosen": -815.2239990234375,
+      "logps/rejected": -1204.00830078125,
+      "loss": 0.2016,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -3.184443712234497,
+      "rewards/margins": 4.096536159515381,
+      "rewards/rejected": -7.280980110168457,
+      "step": 490
+    },
+    {
+      "epoch": 1.3236267372600927,
+      "grad_norm": 6.688172890404941,
+      "learning_rate": 1.5406164963681773e-07,
+      "logits/chosen": -2.6899495124816895,
+      "logits/rejected": -2.697331666946411,
+      "logps/chosen": -788.6990356445312,
+      "logps/rejected": -1184.682861328125,
+      "loss": 0.2028,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": -2.907625436782837,
+      "rewards/margins": 4.130288124084473,
+      "rewards/rejected": -7.037914276123047,
+      "step": 500
+    },
+    {
+      "epoch": 1.3500992720052944,
+      "grad_norm": 6.177665969794554,
+      "learning_rate": 1.4347133197498618e-07,
+      "logits/chosen": -2.720623016357422,
+      "logits/rejected": -2.713228702545166,
+      "logps/chosen": -813.38427734375,
+      "logps/rejected": -1158.912353515625,
+      "loss": 0.1947,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -3.203073024749756,
+      "rewards/margins": 3.7714266777038574,
+      "rewards/rejected": -6.974499702453613,
+      "step": 510
+    },
+    {
+      "epoch": 1.3765718067504964,
+      "grad_norm": 7.6140239843164785,
+      "learning_rate": 1.3310969482159296e-07,
+      "logits/chosen": -2.7323203086853027,
+      "logits/rejected": -2.720503330230713,
+      "logps/chosen": -822.5255737304688,
+      "logps/rejected": -1203.3837890625,
+      "loss": 0.206,
+      "rewards/accuracies": 0.8843749761581421,
+      "rewards/chosen": -3.2711524963378906,
+      "rewards/margins": 4.040999889373779,
+      "rewards/rejected": -7.312152862548828,
+      "step": 520
+    },
+    {
+      "epoch": 1.4030443414956983,
+      "grad_norm": 7.395646356776199,
+      "learning_rate": 1.2299898105732384e-07,
+      "logits/chosen": -2.664844036102295,
+      "logits/rejected": -2.6827051639556885,
+      "logps/chosen": -797.8216552734375,
+      "logps/rejected": -1175.84326171875,
+      "loss": 0.1975,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -3.197530746459961,
+      "rewards/margins": 3.875856876373291,
+      "rewards/rejected": -7.07338809967041,
+      "step": 530
+    },
+    {
+      "epoch": 1.4295168762409,
+      "grad_norm": 5.37023800702416,
+      "learning_rate": 1.1316089491642075e-07,
+      "logits/chosen": -2.6801838874816895,
+      "logits/rejected": -2.7150120735168457,
+      "logps/chosen": -782.3211669921875,
+      "logps/rejected": -1218.0201416015625,
+      "loss": 0.177,
+      "rewards/accuracies": 0.953125,
+      "rewards/chosen": -3.0446789264678955,
+      "rewards/margins": 4.468942642211914,
+      "rewards/rejected": -7.5136213302612305,
+      "step": 540
+    },
+    {
+      "epoch": 1.4559894109861018,
+      "grad_norm": 6.848159521074984,
+      "learning_rate": 1.0361655539513564e-07,
+      "logits/chosen": -2.7019715309143066,
+      "logits/rejected": -2.717634677886963,
+      "logps/chosen": -816.9815063476562,
+      "logps/rejected": -1239.1295166015625,
+      "loss": 0.1866,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -3.2783799171447754,
+      "rewards/margins": 4.237971305847168,
+      "rewards/rejected": -7.516351222991943,
+      "step": 550
+    },
+    {
+      "epoch": 1.4824619457313037,
+      "grad_norm": 6.1903290336235965,
+      "learning_rate": 9.438645091649028e-08,
+      "logits/chosen": -2.703291416168213,
+      "logits/rejected": -2.717991590499878,
+      "logps/chosen": -835.4637451171875,
+      "logps/rejected": -1262.481201171875,
+      "loss": 0.1941,
+      "rewards/accuracies": 0.909375011920929,
+      "rewards/chosen": -3.5229759216308594,
+      "rewards/margins": 4.230559349060059,
+      "rewards/rejected": -7.753535270690918,
+      "step": 560
+    },
+    {
+      "epoch": 1.5089344804765057,
+      "grad_norm": 7.319396362423722,
+      "learning_rate": 8.549039534865979e-08,
+      "logits/chosen": -2.6856772899627686,
+      "logits/rejected": -2.7186999320983887,
+      "logps/chosen": -839.0086059570312,
+      "logps/rejected": -1260.779541015625,
+      "loss": 0.1939,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -3.4230124950408936,
+      "rewards/margins": 4.303016185760498,
+      "rewards/rejected": -7.7260284423828125,
+      "step": 570
+    },
+    {
+      "epoch": 1.5354070152217076,
+      "grad_norm": 6.830716936510353,
+      "learning_rate": 7.694748547139429e-08,
+      "logits/chosen": -2.690796136856079,
+      "logits/rejected": -2.6854541301727295,
+      "logps/chosen": -858.9547119140625,
+      "logps/rejected": -1268.125732421875,
+      "loss": 0.1822,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -3.606029510498047,
+      "rewards/margins": 4.35842752456665,
+      "rewards/rejected": -7.964457035064697,
+      "step": 580
+    },
+    {
+      "epoch": 1.5618795499669094,
+      "grad_norm": 7.344475965596424,
+      "learning_rate": 6.877605998178343e-08,
+      "logits/chosen": -2.6852376461029053,
+      "logits/rejected": -2.6851906776428223,
+      "logps/chosen": -825.2852783203125,
+      "logps/rejected": -1217.6024169921875,
+      "loss": 0.1937,
+      "rewards/accuracies": 0.9312499761581421,
+      "rewards/chosen": -3.3112761974334717,
+      "rewards/margins": 4.0954132080078125,
+      "rewards/rejected": -7.4066901206970215,
+      "step": 590
+    },
+    {
+      "epoch": 1.588352084712111,
+      "grad_norm": 6.774677658543177,
+      "learning_rate": 6.099366012736437e-08,
+      "logits/chosen": -2.6621475219726562,
+      "logits/rejected": -2.6802525520324707,
+      "logps/chosen": -823.2789306640625,
+      "logps/rejected": -1230.999755859375,
+      "loss": 0.1879,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -3.3858489990234375,
+      "rewards/margins": 4.153179168701172,
+      "rewards/rejected": -7.539028167724609,
+      "step": 600
+    },
+    {
+      "epoch": 1.614824619457313,
+      "grad_norm": 6.63238227242087,
+      "learning_rate": 5.3616992051080415e-08,
+      "logits/chosen": -2.677306890487671,
+      "logits/rejected": -2.712442636489868,
+      "logps/chosen": -788.0901489257812,
+      "logps/rejected": -1236.086181640625,
+      "loss": 0.1818,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -3.1388726234436035,
+      "rewards/margins": 4.399405002593994,
+      "rewards/rejected": -7.538276672363281,
+      "step": 610
+    },
+    {
+      "epoch": 1.641297154202515,
+      "grad_norm": 7.377420865927689,
+      "learning_rate": 4.666189092892245e-08,
+      "logits/chosen": -2.681398630142212,
+      "logits/rejected": -2.7074177265167236,
+      "logps/chosen": -808.8873291015625,
+      "logps/rejected": -1222.2945556640625,
+      "loss": 0.192,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -3.247420072555542,
+      "rewards/margins": 4.086552619934082,
+      "rewards/rejected": -7.3339738845825195,
+      "step": 620
+    },
+    {
+      "epoch": 1.6677696889477167,
+      "grad_norm": 8.778568268489295,
+      "learning_rate": 4.0143286977238345e-08,
+      "logits/chosen": -2.732050895690918,
+      "logits/rejected": -2.743983507156372,
+      "logps/chosen": -833.8406372070312,
+      "logps/rejected": -1255.4339599609375,
+      "loss": 0.2052,
+      "rewards/accuracies": 0.909375011920929,
+      "rewards/chosen": -3.412902355194092,
+      "rewards/margins": 4.319065570831299,
+      "rewards/rejected": -7.731966972351074,
+      "step": 630
+    },
+    {
+      "epoch": 1.6942422236929184,
+      "grad_norm": 9.757233734434815,
+      "learning_rate": 3.407517340267957e-08,
+      "logits/chosen": -2.704099655151367,
+      "logits/rejected": -2.747129440307617,
+      "logps/chosen": -825.1597900390625,
+      "logps/rejected": -1279.721923828125,
+      "loss": 0.1969,
+      "rewards/accuracies": 0.921875,
+      "rewards/chosen": -3.3202297687530518,
+      "rewards/margins": 4.6456804275512695,
+      "rewards/rejected": -7.965909481048584,
+      "step": 640
+    },
+    {
+      "epoch": 1.7207147584381204,
+      "grad_norm": 5.790336419749713,
+      "learning_rate": 2.847057636358663e-08,
+      "logits/chosen": -2.666538715362549,
+      "logits/rejected": -2.6833436489105225,
+      "logps/chosen": -791.0831298828125,
+      "logps/rejected": -1239.421875,
+      "loss": 0.2025,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -3.060492753982544,
+      "rewards/margins": 4.618899345397949,
+      "rewards/rejected": -7.679392337799072,
+      "step": 650
+    },
+    {
+      "epoch": 1.7471872931833223,
+      "grad_norm": 7.090658258583613,
+      "learning_rate": 2.3341527007295107e-08,
+      "logits/chosen": -2.724691867828369,
+      "logits/rejected": -2.7381081581115723,
+      "logps/chosen": -795.6064453125,
+      "logps/rejected": -1221.3892822265625,
+      "loss": 0.1934,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": -3.000559091567993,
+      "rewards/margins": 4.30582332611084,
+      "rewards/rejected": -7.306382656097412,
+      "step": 660
+    },
+    {
+      "epoch": 1.7736598279285243,
+      "grad_norm": 7.043130947329383,
+      "learning_rate": 1.8699035643389927e-08,
+      "logits/chosen": -2.6909706592559814,
+      "logits/rejected": -2.706798791885376,
+      "logps/chosen": -813.7172241210938,
+      "logps/rejected": -1210.0374755859375,
+      "loss": 0.1935,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -3.150881290435791,
+      "rewards/margins": 4.167717933654785,
+      "rewards/rejected": -7.318598747253418,
+      "step": 670
+    },
+    {
+      "epoch": 1.800132362673726,
+      "grad_norm": 8.93025020392657,
+      "learning_rate": 1.4553068108346778e-08,
+      "logits/chosen": -2.7232556343078613,
+      "logits/rejected": -2.758570671081543,
+      "logps/chosen": -816.0042724609375,
+      "logps/rejected": -1228.6907958984375,
+      "loss": 0.1969,
+      "rewards/accuracies": 0.9156249761581421,
+      "rewards/chosen": -3.222668409347534,
+      "rewards/margins": 4.130661487579346,
+      "rewards/rejected": -7.353329658508301,
+      "step": 680
+    },
+    {
+      "epoch": 1.8266048974189277,
+      "grad_norm": 8.105462657724475,
+      "learning_rate": 1.0912524372300031e-08,
+      "logits/chosen": -2.6958508491516113,
+      "logits/rejected": -2.7145791053771973,
+      "logps/chosen": -800.2642211914062,
+      "logps/rejected": -1204.597412109375,
+      "loss": 0.1979,
+      "rewards/accuracies": 0.9281250238418579,
+      "rewards/chosen": -3.0551960468292236,
+      "rewards/margins": 4.35771369934082,
+      "rewards/rejected": -7.412909507751465,
+      "step": 690
+    },
+    {
+      "epoch": 1.8530774321641297,
+      "grad_norm": 6.305134676239398,
+      "learning_rate": 7.785219433859846e-09,
+      "logits/chosen": -2.666156768798828,
+      "logits/rejected": -2.6787142753601074,
+      "logps/chosen": -795.4716186523438,
+      "logps/rejected": -1216.070068359375,
+      "loss": 0.1889,
+      "rewards/accuracies": 0.9312499761581421,
+      "rewards/chosen": -3.1992480754852295,
+      "rewards/margins": 4.258774757385254,
+      "rewards/rejected": -7.4580230712890625,
+      "step": 700
+    },
+    {
+      "epoch": 1.8795499669093316,
+      "grad_norm": 8.35714287832233,
+      "learning_rate": 5.177866543990689e-09,
+      "logits/chosen": -2.6713449954986572,
+      "logits/rejected": -2.7099664211273193,
+      "logps/chosen": -809.7697143554688,
+      "logps/rejected": -1260.0615234375,
+      "loss": 0.1768,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -3.31097412109375,
+      "rewards/margins": 4.475188255310059,
+      "rewards/rejected": -7.786163330078125,
+      "step": 710
+    },
+    {
+      "epoch": 1.9060225016545336,
+      "grad_norm": 6.357842566297534,
+      "learning_rate": 3.0960627949644105e-09,
+      "logits/chosen": -2.661090850830078,
+      "logits/rejected": -2.6854565143585205,
+      "logps/chosen": -799.8544921875,
+      "logps/rejected": -1197.60595703125,
+      "loss": 0.195,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -3.179225206375122,
+      "rewards/margins": 4.040897846221924,
+      "rewards/rejected": -7.220122337341309,
+      "step": 720
+    },
+    {
+      "epoch": 1.9324950363997353,
+      "grad_norm": 6.897936781273812,
+      "learning_rate": 1.5442771053230663e-09,
+      "logits/chosen": -2.654930353164673,
+      "logits/rejected": -2.6900641918182373,
+      "logps/chosen": -794.2493286132812,
+      "logps/rejected": -1218.8597412109375,
+      "loss": 0.1752,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -3.182406187057495,
+      "rewards/margins": 4.386531352996826,
+      "rewards/rejected": -7.5689377784729,
+      "step": 730
+    },
+    {
+      "epoch": 1.958967571144937,
+      "grad_norm": 6.958740857504488,
+      "learning_rate": 5.25840626643681e-10,
+      "logits/chosen": -2.731703519821167,
+      "logits/rejected": -2.728083848953247,
+      "logps/chosen": -804.791259765625,
+      "logps/rejected": -1165.920654296875,
+      "loss": 0.1871,
+      "rewards/accuracies": 0.8968750238418579,
+      "rewards/chosen": -3.141540765762329,
+      "rewards/margins": 3.8939075469970703,
+      "rewards/rejected": -7.035449028015137,
+      "step": 740
+    },
+    {
+      "epoch": 1.985440105890139,
+      "grad_norm": 7.712958898241185,
+      "learning_rate": 4.293959269863201e-11,
+      "logits/chosen": -2.6934590339660645,
+      "logits/rejected": -2.702648639678955,
+      "logps/chosen": -818.2516479492188,
+      "logps/rejected": -1221.8408203125,
+      "loss": 0.2042,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -3.207921266555786,
+      "rewards/margins": 4.332727909088135,
+      "rewards/rejected": -7.5406494140625,
+      "step": 750
+    },
+    {
+      "epoch": 1.9960291197882198,
+      "step": 754,
+      "total_flos": 0.0,
+      "train_loss": 0.26563876598520053,
+      "train_runtime": 5267.2293,
+      "train_samples_per_second": 36.699,
+      "train_steps_per_second": 0.143
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 754,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}