mjleee commited on
Commit
8dbf47f
·
verified ·
1 Parent(s): fc3e8bf

Upload folder using huggingface_hub

Browse files
client_states_v9_NEURIPS_DISJOINT_Memonly_LORA_llava_lr2e-5_bs1_gradacc32_iter0_125_sft_scenario12_new_10000_random0_0625_seed1/0_trainer_state.json ADDED
@@ -0,0 +1,3776 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": null,
3
+ "best_metric": null,
4
+ "best_model_checkpoint": null,
5
+ "epoch": 1.0,
6
+ "eval_steps": 500,
7
+ "global_step": 1249,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.0016012810248198558,
14
+ "learning_rate": 2.4341906163790364e-06,
15
+ "loss": 0.1514,
16
+ "step": 2
17
+ },
18
+ {
19
+ "epoch": 0.0032025620496397116,
20
+ "learning_rate": 2.4708617956148052e-06,
21
+ "loss": 0.1172,
22
+ "step": 4
23
+ },
24
+ {
25
+ "epoch": 0.004803843074459567,
26
+ "learning_rate": 2.507768247396697e-06,
27
+ "loss": 0.139,
28
+ "step": 6
29
+ },
30
+ {
31
+ "epoch": 0.006405124099279423,
32
+ "learning_rate": 2.5449088184619065e-06,
33
+ "loss": 0.0545,
34
+ "step": 8
35
+ },
36
+ {
37
+ "epoch": 0.008006405124099279,
38
+ "learning_rate": 2.5822823482318517e-06,
39
+ "loss": 0.6831,
40
+ "step": 10
41
+ },
42
+ {
43
+ "epoch": 0.009607686148919135,
44
+ "learning_rate": 2.6198876688483453e-06,
45
+ "loss": 0.1763,
46
+ "step": 12
47
+ },
48
+ {
49
+ "epoch": 0.01120896717373899,
50
+ "learning_rate": 2.6577236052101764e-06,
51
+ "loss": 0.1585,
52
+ "step": 14
53
+ },
54
+ {
55
+ "epoch": 0.012810248198558846,
56
+ "learning_rate": 2.6957889750097866e-06,
57
+ "loss": 0.0462,
58
+ "step": 16
59
+ },
60
+ {
61
+ "epoch": 0.014411529223378704,
62
+ "learning_rate": 2.7340825887701848e-06,
63
+ "loss": 0.2059,
64
+ "step": 18
65
+ },
66
+ {
67
+ "epoch": 0.016012810248198558,
68
+ "learning_rate": 2.772603249882202e-06,
69
+ "loss": 0.0941,
70
+ "step": 20
71
+ },
72
+ {
73
+ "epoch": 0.017614091273018415,
74
+ "learning_rate": 2.81134975464178e-06,
75
+ "loss": 0.1517,
76
+ "step": 22
77
+ },
78
+ {
79
+ "epoch": 0.01921537229783827,
80
+ "learning_rate": 2.850320892287688e-06,
81
+ "loss": 0.1519,
82
+ "step": 24
83
+ },
84
+ {
85
+ "epoch": 0.020816653322658127,
86
+ "learning_rate": 2.889515445039256e-06,
87
+ "loss": 0.1036,
88
+ "step": 26
89
+ },
90
+ {
91
+ "epoch": 0.02241793434747798,
92
+ "learning_rate": 2.928932188134529e-06,
93
+ "loss": 0.1438,
94
+ "step": 28
95
+ },
96
+ {
97
+ "epoch": 0.02401921537229784,
98
+ "learning_rate": 2.9685698898684355e-06,
99
+ "loss": 0.4228,
100
+ "step": 30
101
+ },
102
+ {
103
+ "epoch": 0.025620496397117692,
104
+ "learning_rate": 3.00842731163137e-06,
105
+ "loss": 0.1722,
106
+ "step": 32
107
+ },
108
+ {
109
+ "epoch": 0.02722177742193755,
110
+ "learning_rate": 3.048503207947854e-06,
111
+ "loss": 0.0769,
112
+ "step": 34
113
+ },
114
+ {
115
+ "epoch": 0.028823058446757407,
116
+ "learning_rate": 3.0887963265154187e-06,
117
+ "loss": 0.4029,
118
+ "step": 36
119
+ },
120
+ {
121
+ "epoch": 0.03042433947157726,
122
+ "learning_rate": 3.129305408243829e-06,
123
+ "loss": 0.1135,
124
+ "step": 38
125
+ },
126
+ {
127
+ "epoch": 0.032025620496397116,
128
+ "learning_rate": 3.17002918729432e-06,
129
+ "loss": 0.185,
130
+ "step": 40
131
+ },
132
+ {
133
+ "epoch": 0.03362690152121697,
134
+ "learning_rate": 3.2109663911192622e-06,
135
+ "loss": 0.153,
136
+ "step": 42
137
+ },
138
+ {
139
+ "epoch": 0.03522818254603683,
140
+ "learning_rate": 3.2521157405018146e-06,
141
+ "loss": 0.1267,
142
+ "step": 44
143
+ },
144
+ {
145
+ "epoch": 0.03682946357085669,
146
+ "learning_rate": 3.293475949595998e-06,
147
+ "loss": 0.1423,
148
+ "step": 46
149
+ },
150
+ {
151
+ "epoch": 0.03843074459567654,
152
+ "learning_rate": 3.335045725966829e-06,
153
+ "loss": 0.2389,
154
+ "step": 48
155
+ },
156
+ {
157
+ "epoch": 0.040032025620496396,
158
+ "learning_rate": 3.3768237706306716e-06,
159
+ "loss": 0.2257,
160
+ "step": 50
161
+ },
162
+ {
163
+ "epoch": 0.041633306645316254,
164
+ "learning_rate": 3.418808778095917e-06,
165
+ "loss": 0.1678,
166
+ "step": 52
167
+ },
168
+ {
169
+ "epoch": 0.04323458767013611,
170
+ "learning_rate": 3.460999436403676e-06,
171
+ "loss": 0.1747,
172
+ "step": 54
173
+ },
174
+ {
175
+ "epoch": 0.04483586869495596,
176
+ "learning_rate": 3.5033944271688624e-06,
177
+ "loss": 0.1452,
178
+ "step": 56
179
+ },
180
+ {
181
+ "epoch": 0.04643714971977582,
182
+ "learning_rate": 3.5459924256213596e-06,
183
+ "loss": 0.0932,
184
+ "step": 58
185
+ },
186
+ {
187
+ "epoch": 0.04803843074459568,
188
+ "learning_rate": 3.588792100647368e-06,
189
+ "loss": 0.1592,
190
+ "step": 60
191
+ },
192
+ {
193
+ "epoch": 0.049639711769415534,
194
+ "learning_rate": 3.6317921148310965e-06,
195
+ "loss": 0.1281,
196
+ "step": 62
197
+ },
198
+ {
199
+ "epoch": 0.051240992794235385,
200
+ "learning_rate": 3.674991124496452e-06,
201
+ "loss": 0.2977,
202
+ "step": 64
203
+ },
204
+ {
205
+ "epoch": 0.05284227381905524,
206
+ "learning_rate": 3.7183877797491143e-06,
207
+ "loss": 0.5645,
208
+ "step": 66
209
+ },
210
+ {
211
+ "epoch": 0.0544435548438751,
212
+ "learning_rate": 3.7619807245186824e-06,
213
+ "loss": 0.1164,
214
+ "step": 68
215
+ },
216
+ {
217
+ "epoch": 0.05604483586869496,
218
+ "learning_rate": 3.8057685966010025e-06,
219
+ "loss": 0.3493,
220
+ "step": 70
221
+ },
222
+ {
223
+ "epoch": 0.057646116893514815,
224
+ "learning_rate": 3.849750027700842e-06,
225
+ "loss": 0.1356,
226
+ "step": 72
227
+ },
228
+ {
229
+ "epoch": 0.059247397918334666,
230
+ "learning_rate": 3.8939236434745184e-06,
231
+ "loss": 0.0712,
232
+ "step": 74
233
+ },
234
+ {
235
+ "epoch": 0.06084867894315452,
236
+ "learning_rate": 3.938288063572962e-06,
237
+ "loss": 0.4313,
238
+ "step": 76
239
+ },
240
+ {
241
+ "epoch": 0.06244995996797438,
242
+ "learning_rate": 3.982841901684792e-06,
243
+ "loss": 0.2522,
244
+ "step": 78
245
+ },
246
+ {
247
+ "epoch": 0.06405124099279423,
248
+ "learning_rate": 4.027583765579601e-06,
249
+ "loss": 0.2175,
250
+ "step": 80
251
+ },
252
+ {
253
+ "epoch": 0.0656525220176141,
254
+ "learning_rate": 4.072512257151546e-06,
255
+ "loss": 0.0657,
256
+ "step": 82
257
+ },
258
+ {
259
+ "epoch": 0.06725380304243395,
260
+ "learning_rate": 4.117625972462988e-06,
261
+ "loss": 0.2479,
262
+ "step": 84
263
+ },
264
+ {
265
+ "epoch": 0.0688550840672538,
266
+ "learning_rate": 4.1629235017883285e-06,
267
+ "loss": 0.1743,
268
+ "step": 86
269
+ },
270
+ {
271
+ "epoch": 0.07045636509207366,
272
+ "learning_rate": 4.208403429658151e-06,
273
+ "loss": 0.6238,
274
+ "step": 88
275
+ },
276
+ {
277
+ "epoch": 0.07205764611689351,
278
+ "learning_rate": 4.254064334903347e-06,
279
+ "loss": 0.0513,
280
+ "step": 90
281
+ },
282
+ {
283
+ "epoch": 0.07365892714171338,
284
+ "learning_rate": 4.299904790699619e-06,
285
+ "loss": 0.0817,
286
+ "step": 92
287
+ },
288
+ {
289
+ "epoch": 0.07526020816653323,
290
+ "learning_rate": 4.345923364612024e-06,
291
+ "loss": 0.0745,
292
+ "step": 94
293
+ },
294
+ {
295
+ "epoch": 0.07686148919135308,
296
+ "learning_rate": 4.392118618639698e-06,
297
+ "loss": 0.2478,
298
+ "step": 96
299
+ },
300
+ {
301
+ "epoch": 0.07846277021617294,
302
+ "learning_rate": 4.4384891092608795e-06,
303
+ "loss": 0.3022,
304
+ "step": 98
305
+ },
306
+ {
307
+ "epoch": 0.08006405124099279,
308
+ "learning_rate": 4.485033387477915e-06,
309
+ "loss": 0.283,
310
+ "step": 100
311
+ },
312
+ {
313
+ "epoch": 0.08166533226581266,
314
+ "learning_rate": 4.531749998862628e-06,
315
+ "loss": 0.0965,
316
+ "step": 102
317
+ },
318
+ {
319
+ "epoch": 0.08326661329063251,
320
+ "learning_rate": 4.578637483601732e-06,
321
+ "loss": 0.2106,
322
+ "step": 104
323
+ },
324
+ {
325
+ "epoch": 0.08486789431545236,
326
+ "learning_rate": 4.625694376542399e-06,
327
+ "loss": 0.0995,
328
+ "step": 106
329
+ },
330
+ {
331
+ "epoch": 0.08646917534027222,
332
+ "learning_rate": 4.672919207238145e-06,
333
+ "loss": 0.1367,
334
+ "step": 108
335
+ },
336
+ {
337
+ "epoch": 0.08807045636509207,
338
+ "learning_rate": 4.720310499994664e-06,
339
+ "loss": 0.0185,
340
+ "step": 110
341
+ },
342
+ {
343
+ "epoch": 0.08967173738991192,
344
+ "learning_rate": 4.767866773916041e-06,
345
+ "loss": 0.0643,
346
+ "step": 112
347
+ },
348
+ {
349
+ "epoch": 0.09127301841473179,
350
+ "learning_rate": 4.81558654295099e-06,
351
+ "loss": 0.4434,
352
+ "step": 114
353
+ },
354
+ {
355
+ "epoch": 0.09287429943955164,
356
+ "learning_rate": 4.863468315939234e-06,
357
+ "loss": 0.19,
358
+ "step": 116
359
+ },
360
+ {
361
+ "epoch": 0.0944755804643715,
362
+ "learning_rate": 4.911510596658202e-06,
363
+ "loss": 0.668,
364
+ "step": 118
365
+ },
366
+ {
367
+ "epoch": 0.09607686148919135,
368
+ "learning_rate": 4.959711883869734e-06,
369
+ "loss": 0.111,
370
+ "step": 120
371
+ },
372
+ {
373
+ "epoch": 0.0976781425140112,
374
+ "learning_rate": 5.0080706713669435e-06,
375
+ "loss": 0.0766,
376
+ "step": 122
377
+ },
378
+ {
379
+ "epoch": 0.09927942353883107,
380
+ "learning_rate": 5.056585448021398e-06,
381
+ "loss": 0.0974,
382
+ "step": 124
383
+ },
384
+ {
385
+ "epoch": 0.10088070456365092,
386
+ "learning_rate": 5.105254697830208e-06,
387
+ "loss": 0.1732,
388
+ "step": 126
389
+ },
390
+ {
391
+ "epoch": 0.10248198558847077,
392
+ "learning_rate": 5.154076899963514e-06,
393
+ "loss": 0.1209,
394
+ "step": 128
395
+ },
396
+ {
397
+ "epoch": 0.10408326661329063,
398
+ "learning_rate": 5.203050528811959e-06,
399
+ "loss": 0.6952,
400
+ "step": 130
401
+ },
402
+ {
403
+ "epoch": 0.10568454763811048,
404
+ "learning_rate": 5.2521740540343205e-06,
405
+ "loss": 0.1867,
406
+ "step": 132
407
+ },
408
+ {
409
+ "epoch": 0.10728582866293035,
410
+ "learning_rate": 5.3014459406054295e-06,
411
+ "loss": 0.1691,
412
+ "step": 134
413
+ },
414
+ {
415
+ "epoch": 0.1088871096877502,
416
+ "learning_rate": 5.350864648864026e-06,
417
+ "loss": 0.1333,
418
+ "step": 136
419
+ },
420
+ {
421
+ "epoch": 0.11048839071257005,
422
+ "learning_rate": 5.4004286345609665e-06,
423
+ "loss": 0.1076,
424
+ "step": 138
425
+ },
426
+ {
427
+ "epoch": 0.11208967173738991,
428
+ "learning_rate": 5.450136348907444e-06,
429
+ "loss": 0.1348,
430
+ "step": 140
431
+ },
432
+ {
433
+ "epoch": 0.11369095276220977,
434
+ "learning_rate": 5.499986238623329e-06,
435
+ "loss": 0.1674,
436
+ "step": 142
437
+ },
438
+ {
439
+ "epoch": 0.11529223378702963,
440
+ "learning_rate": 5.549976745985809e-06,
441
+ "loss": 0.0837,
442
+ "step": 144
443
+ },
444
+ {
445
+ "epoch": 0.11689351481184948,
446
+ "learning_rate": 5.6001063088780085e-06,
447
+ "loss": 0.052,
448
+ "step": 146
449
+ },
450
+ {
451
+ "epoch": 0.11849479583666933,
452
+ "learning_rate": 5.650373360837763e-06,
453
+ "loss": 0.0444,
454
+ "step": 148
455
+ },
456
+ {
457
+ "epoch": 0.1200960768614892,
458
+ "learning_rate": 5.700776331106674e-06,
459
+ "loss": 0.015,
460
+ "step": 150
461
+ },
462
+ {
463
+ "epoch": 0.12169735788630905,
464
+ "learning_rate": 5.751313644679071e-06,
465
+ "loss": 0.0531,
466
+ "step": 152
467
+ },
468
+ {
469
+ "epoch": 0.1232986389111289,
470
+ "learning_rate": 5.8019837223513295e-06,
471
+ "loss": 0.1197,
472
+ "step": 154
473
+ },
474
+ {
475
+ "epoch": 0.12489991993594876,
476
+ "learning_rate": 5.852784980771182e-06,
477
+ "loss": 0.2765,
478
+ "step": 156
479
+ },
480
+ {
481
+ "epoch": 0.1265012009607686,
482
+ "learning_rate": 5.903715832487138e-06,
483
+ "loss": 0.2867,
484
+ "step": 158
485
+ },
486
+ {
487
+ "epoch": 0.12810248198558846,
488
+ "learning_rate": 5.954774685998206e-06,
489
+ "loss": 0.1788,
490
+ "step": 160
491
+ },
492
+ {
493
+ "epoch": 0.1297037630104083,
494
+ "learning_rate": 6.005959945803494e-06,
495
+ "loss": 0.2799,
496
+ "step": 162
497
+ },
498
+ {
499
+ "epoch": 0.1313050440352282,
500
+ "learning_rate": 6.057270012452186e-06,
501
+ "loss": 0.1319,
502
+ "step": 164
503
+ },
504
+ {
505
+ "epoch": 0.13290632506004804,
506
+ "learning_rate": 6.108703282593461e-06,
507
+ "loss": 0.3217,
508
+ "step": 166
509
+ },
510
+ {
511
+ "epoch": 0.1345076060848679,
512
+ "learning_rate": 6.160258149026557e-06,
513
+ "loss": 0.1849,
514
+ "step": 168
515
+ },
516
+ {
517
+ "epoch": 0.13610888710968774,
518
+ "learning_rate": 6.2119330007511014e-06,
519
+ "loss": 0.4212,
520
+ "step": 170
521
+ },
522
+ {
523
+ "epoch": 0.1377101681345076,
524
+ "learning_rate": 6.263726223017326e-06,
525
+ "loss": 0.1075,
526
+ "step": 172
527
+ },
528
+ {
529
+ "epoch": 0.13931144915932747,
530
+ "learning_rate": 6.315636197376634e-06,
531
+ "loss": 0.1672,
532
+ "step": 174
533
+ },
534
+ {
535
+ "epoch": 0.14091273018414732,
536
+ "learning_rate": 6.3676613017321305e-06,
537
+ "loss": 0.4658,
538
+ "step": 176
539
+ },
540
+ {
541
+ "epoch": 0.14251401120896717,
542
+ "learning_rate": 6.419799910389257e-06,
543
+ "loss": 0.1964,
544
+ "step": 178
545
+ },
546
+ {
547
+ "epoch": 0.14411529223378702,
548
+ "learning_rate": 6.472050394106689e-06,
549
+ "loss": 0.042,
550
+ "step": 180
551
+ },
552
+ {
553
+ "epoch": 0.14571657325860687,
554
+ "learning_rate": 6.524411120147204e-06,
555
+ "loss": 0.0147,
556
+ "step": 182
557
+ },
558
+ {
559
+ "epoch": 0.14731785428342675,
560
+ "learning_rate": 6.576880452328645e-06,
561
+ "loss": 0.1999,
562
+ "step": 184
563
+ },
564
+ {
565
+ "epoch": 0.1489191353082466,
566
+ "learning_rate": 6.6294567510751675e-06,
567
+ "loss": 0.8296,
568
+ "step": 186
569
+ },
570
+ {
571
+ "epoch": 0.15052041633306645,
572
+ "learning_rate": 6.682138373468341e-06,
573
+ "loss": 0.1899,
574
+ "step": 188
575
+ },
576
+ {
577
+ "epoch": 0.1521216973578863,
578
+ "learning_rate": 6.734923673298605e-06,
579
+ "loss": 0.27,
580
+ "step": 190
581
+ },
582
+ {
583
+ "epoch": 0.15372297838270615,
584
+ "learning_rate": 6.787811001116654e-06,
585
+ "loss": 0.0206,
586
+ "step": 192
587
+ },
588
+ {
589
+ "epoch": 0.15532425940752603,
590
+ "learning_rate": 6.840798704284939e-06,
591
+ "loss": 0.305,
592
+ "step": 194
593
+ },
594
+ {
595
+ "epoch": 0.15692554043234588,
596
+ "learning_rate": 6.893885127029419e-06,
597
+ "loss": 0.1658,
598
+ "step": 196
599
+ },
600
+ {
601
+ "epoch": 0.15852682145716573,
602
+ "learning_rate": 6.94706861049117e-06,
603
+ "loss": 0.1486,
604
+ "step": 198
605
+ },
606
+ {
607
+ "epoch": 0.16012810248198558,
608
+ "learning_rate": 7.000347492778341e-06,
609
+ "loss": 0.1772,
610
+ "step": 200
611
+ },
612
+ {
613
+ "epoch": 0.16172938350680544,
614
+ "learning_rate": 7.05372010901803e-06,
615
+ "loss": 0.4549,
616
+ "step": 202
617
+ },
618
+ {
619
+ "epoch": 0.1633306645316253,
620
+ "learning_rate": 7.1071847914082605e-06,
621
+ "loss": 0.2341,
622
+ "step": 204
623
+ },
624
+ {
625
+ "epoch": 0.16493194555644516,
626
+ "learning_rate": 7.160739869270219e-06,
627
+ "loss": 0.0896,
628
+ "step": 206
629
+ },
630
+ {
631
+ "epoch": 0.16653322658126501,
632
+ "learning_rate": 7.214383669100317e-06,
633
+ "loss": 0.1866,
634
+ "step": 208
635
+ },
636
+ {
637
+ "epoch": 0.16813450760608487,
638
+ "learning_rate": 7.268114514622635e-06,
639
+ "loss": 0.7071,
640
+ "step": 210
641
+ },
642
+ {
643
+ "epoch": 0.16973578863090472,
644
+ "learning_rate": 7.321930726841144e-06,
645
+ "loss": 0.1683,
646
+ "step": 212
647
+ },
648
+ {
649
+ "epoch": 0.17133706965572457,
650
+ "learning_rate": 7.375830624092336e-06,
651
+ "loss": 0.0287,
652
+ "step": 214
653
+ },
654
+ {
655
+ "epoch": 0.17293835068054444,
656
+ "learning_rate": 7.429812522097613e-06,
657
+ "loss": 0.1243,
658
+ "step": 216
659
+ },
660
+ {
661
+ "epoch": 0.1745396317053643,
662
+ "learning_rate": 7.4838747340160475e-06,
663
+ "loss": 0.204,
664
+ "step": 218
665
+ },
666
+ {
667
+ "epoch": 0.17614091273018415,
668
+ "learning_rate": 7.538015570497046e-06,
669
+ "loss": 0.2267,
670
+ "step": 220
671
+ },
672
+ {
673
+ "epoch": 0.177742193755004,
674
+ "learning_rate": 7.592233339733077e-06,
675
+ "loss": 0.3241,
676
+ "step": 222
677
+ },
678
+ {
679
+ "epoch": 0.17934347477982385,
680
+ "learning_rate": 7.646526347512665e-06,
681
+ "loss": 0.492,
682
+ "step": 224
683
+ },
684
+ {
685
+ "epoch": 0.18094475580464373,
686
+ "learning_rate": 7.70089289727319e-06,
687
+ "loss": 0.0819,
688
+ "step": 226
689
+ },
690
+ {
691
+ "epoch": 0.18254603682946358,
692
+ "learning_rate": 7.755331290154041e-06,
693
+ "loss": 0.1381,
694
+ "step": 228
695
+ },
696
+ {
697
+ "epoch": 0.18414731785428343,
698
+ "learning_rate": 7.809839825049565e-06,
699
+ "loss": 0.0647,
700
+ "step": 230
701
+ },
702
+ {
703
+ "epoch": 0.18574859887910328,
704
+ "learning_rate": 7.864416798662347e-06,
705
+ "loss": 0.1587,
706
+ "step": 232
707
+ },
708
+ {
709
+ "epoch": 0.18734987990392313,
710
+ "learning_rate": 7.919060505556376e-06,
711
+ "loss": 0.0265,
712
+ "step": 234
713
+ },
714
+ {
715
+ "epoch": 0.188951160928743,
716
+ "learning_rate": 7.973769238210291e-06,
717
+ "loss": 0.4234,
718
+ "step": 236
719
+ },
720
+ {
721
+ "epoch": 0.19055244195356286,
722
+ "learning_rate": 8.028541287070858e-06,
723
+ "loss": 0.2822,
724
+ "step": 238
725
+ },
726
+ {
727
+ "epoch": 0.1921537229783827,
728
+ "learning_rate": 8.083374940606256e-06,
729
+ "loss": 0.2843,
730
+ "step": 240
731
+ },
732
+ {
733
+ "epoch": 0.19375500400320256,
734
+ "learning_rate": 8.138268485359684e-06,
735
+ "loss": 0.5846,
736
+ "step": 242
737
+ },
738
+ {
739
+ "epoch": 0.1953562850280224,
740
+ "learning_rate": 8.193220206002785e-06,
741
+ "loss": 0.227,
742
+ "step": 244
743
+ },
744
+ {
745
+ "epoch": 0.1969575660528423,
746
+ "learning_rate": 8.248228385389349e-06,
747
+ "loss": 0.225,
748
+ "step": 246
749
+ },
750
+ {
751
+ "epoch": 0.19855884707766214,
752
+ "learning_rate": 8.303291304608936e-06,
753
+ "loss": 0.1251,
754
+ "step": 248
755
+ },
756
+ {
757
+ "epoch": 0.200160128102482,
758
+ "learning_rate": 8.358407243040524e-06,
759
+ "loss": 0.2108,
760
+ "step": 250
761
+ },
762
+ {
763
+ "epoch": 0.20176140912730184,
764
+ "learning_rate": 8.413574478406386e-06,
765
+ "loss": 0.0656,
766
+ "step": 252
767
+ },
768
+ {
769
+ "epoch": 0.2033626901521217,
770
+ "learning_rate": 8.468791286825856e-06,
771
+ "loss": 0.5503,
772
+ "step": 254
773
+ },
774
+ {
775
+ "epoch": 0.20496397117694154,
776
+ "learning_rate": 8.524055942869135e-06,
777
+ "loss": 0.1978,
778
+ "step": 256
779
+ },
780
+ {
781
+ "epoch": 0.20656525220176142,
782
+ "learning_rate": 8.579366719611353e-06,
783
+ "loss": 0.0869,
784
+ "step": 258
785
+ },
786
+ {
787
+ "epoch": 0.20816653322658127,
788
+ "learning_rate": 8.634721888686368e-06,
789
+ "loss": 0.1127,
790
+ "step": 260
791
+ },
792
+ {
793
+ "epoch": 0.20976781425140112,
794
+ "learning_rate": 8.690119720340907e-06,
795
+ "loss": 0.1418,
796
+ "step": 262
797
+ },
798
+ {
799
+ "epoch": 0.21136909527622097,
800
+ "learning_rate": 8.74555848348857e-06,
801
+ "loss": 0.2559,
802
+ "step": 264
803
+ },
804
+ {
805
+ "epoch": 0.21297037630104082,
806
+ "learning_rate": 8.801036445763858e-06,
807
+ "loss": 0.092,
808
+ "step": 266
809
+ },
810
+ {
811
+ "epoch": 0.2145716573258607,
812
+ "learning_rate": 8.856551873576448e-06,
813
+ "loss": 0.109,
814
+ "step": 268
815
+ },
816
+ {
817
+ "epoch": 0.21617293835068055,
818
+ "learning_rate": 8.912103032165206e-06,
819
+ "loss": 0.2023,
820
+ "step": 270
821
+ },
822
+ {
823
+ "epoch": 0.2177742193755004,
824
+ "learning_rate": 8.967688185652527e-06,
825
+ "loss": 0.1366,
826
+ "step": 272
827
+ },
828
+ {
829
+ "epoch": 0.21937550040032025,
830
+ "learning_rate": 9.023305597098526e-06,
831
+ "loss": 0.124,
832
+ "step": 274
833
+ },
834
+ {
835
+ "epoch": 0.2209767814251401,
836
+ "learning_rate": 9.078953528555258e-06,
837
+ "loss": 0.6121,
838
+ "step": 276
839
+ },
840
+ {
841
+ "epoch": 0.22257806244995998,
842
+ "learning_rate": 9.134630241121135e-06,
843
+ "loss": 0.1334,
844
+ "step": 278
845
+ },
846
+ {
847
+ "epoch": 0.22417934347477983,
848
+ "learning_rate": 9.190333994995208e-06,
849
+ "loss": 0.2663,
850
+ "step": 280
851
+ },
852
+ {
853
+ "epoch": 0.22578062449959968,
854
+ "learning_rate": 9.24606304953148e-06,
855
+ "loss": 0.0988,
856
+ "step": 282
857
+ },
858
+ {
859
+ "epoch": 0.22738190552441953,
860
+ "learning_rate": 9.301815663293426e-06,
861
+ "loss": 0.409,
862
+ "step": 284
863
+ },
864
+ {
865
+ "epoch": 0.22898318654923938,
866
+ "learning_rate": 9.35759009410826e-06,
867
+ "loss": 0.2903,
868
+ "step": 286
869
+ },
870
+ {
871
+ "epoch": 0.23058446757405926,
872
+ "learning_rate": 9.41338459912151e-06,
873
+ "loss": 1.129,
874
+ "step": 288
875
+ },
876
+ {
877
+ "epoch": 0.2321857485988791,
878
+ "learning_rate": 9.469197434851414e-06,
879
+ "loss": 0.0543,
880
+ "step": 290
881
+ },
882
+ {
883
+ "epoch": 0.23378702962369896,
884
+ "learning_rate": 9.52502685724336e-06,
885
+ "loss": 0.37,
886
+ "step": 292
887
+ },
888
+ {
889
+ "epoch": 0.2353883106485188,
890
+ "learning_rate": 9.580871121724498e-06,
891
+ "loss": 0.6854,
892
+ "step": 294
893
+ },
894
+ {
895
+ "epoch": 0.23698959167333866,
896
+ "learning_rate": 9.636728483258116e-06,
897
+ "loss": 0.5659,
898
+ "step": 296
899
+ },
900
+ {
901
+ "epoch": 0.23859087269815854,
902
+ "learning_rate": 9.692597196398302e-06,
903
+ "loss": 0.2975,
904
+ "step": 298
905
+ },
906
+ {
907
+ "epoch": 0.2401921537229784,
908
+ "learning_rate": 9.748475515344416e-06,
909
+ "loss": 0.2951,
910
+ "step": 300
911
+ },
912
+ {
913
+ "epoch": 0.24179343474779824,
914
+ "learning_rate": 9.80436169399561e-06,
915
+ "loss": 0.5071,
916
+ "step": 302
917
+ },
918
+ {
919
+ "epoch": 0.2433947157726181,
920
+ "learning_rate": 9.8602539860055e-06,
921
+ "loss": 0.0566,
922
+ "step": 304
923
+ },
924
+ {
925
+ "epoch": 0.24499599679743794,
926
+ "learning_rate": 9.916150644836596e-06,
927
+ "loss": 0.1737,
928
+ "step": 306
929
+ },
930
+ {
931
+ "epoch": 0.2465972778222578,
932
+ "learning_rate": 9.972049923815011e-06,
933
+ "loss": 0.2336,
934
+ "step": 308
935
+ },
936
+ {
937
+ "epoch": 0.24819855884707767,
938
+ "learning_rate": 1.0027950076184982e-05,
939
+ "loss": 0.3613,
940
+ "step": 310
941
+ },
942
+ {
943
+ "epoch": 0.24979983987189752,
944
+ "learning_rate": 1.0083849355163397e-05,
945
+ "loss": 0.521,
946
+ "step": 312
947
+ },
948
+ {
949
+ "epoch": 0.2514011208967174,
950
+ "learning_rate": 1.0139746013994493e-05,
951
+ "loss": 0.1591,
952
+ "step": 314
953
+ },
954
+ {
955
+ "epoch": 0.2530024019215372,
956
+ "learning_rate": 1.0195638306004383e-05,
957
+ "loss": 0.2951,
958
+ "step": 316
959
+ },
960
+ {
961
+ "epoch": 0.2546036829463571,
962
+ "learning_rate": 1.0251524484655577e-05,
963
+ "loss": 0.0635,
964
+ "step": 318
965
+ },
966
+ {
967
+ "epoch": 0.2562049639711769,
968
+ "learning_rate": 1.0307402803601691e-05,
969
+ "loss": 0.1459,
970
+ "step": 320
971
+ },
972
+ {
973
+ "epoch": 0.2578062449959968,
974
+ "learning_rate": 1.0363271516741877e-05,
975
+ "loss": 0.156,
976
+ "step": 322
977
+ },
978
+ {
979
+ "epoch": 0.2594075260208166,
980
+ "learning_rate": 1.0419128878275495e-05,
981
+ "loss": 0.3462,
982
+ "step": 324
983
+ },
984
+ {
985
+ "epoch": 0.2610088070456365,
986
+ "learning_rate": 1.0474973142756632e-05,
987
+ "loss": 0.1901,
988
+ "step": 326
989
+ },
990
+ {
991
+ "epoch": 0.2626100880704564,
992
+ "learning_rate": 1.053080256514858e-05,
993
+ "loss": 0.2888,
994
+ "step": 328
995
+ },
996
+ {
997
+ "epoch": 0.2642113690952762,
998
+ "learning_rate": 1.0586615400878484e-05,
999
+ "loss": 0.2525,
1000
+ "step": 330
1001
+ },
1002
+ {
1003
+ "epoch": 0.2658126501200961,
1004
+ "learning_rate": 1.0642409905891733e-05,
1005
+ "loss": 0.2064,
1006
+ "step": 332
1007
+ },
1008
+ {
1009
+ "epoch": 0.2674139311449159,
1010
+ "learning_rate": 1.0698184336706567e-05,
1011
+ "loss": 0.318,
1012
+ "step": 334
1013
+ },
1014
+ {
1015
+ "epoch": 0.2690152121697358,
1016
+ "learning_rate": 1.0753936950468513e-05,
1017
+ "loss": 0.3186,
1018
+ "step": 336
1019
+ },
1020
+ {
1021
+ "epoch": 0.27061649319455566,
1022
+ "learning_rate": 1.0809666005004787e-05,
1023
+ "loss": 0.3997,
1024
+ "step": 338
1025
+ },
1026
+ {
1027
+ "epoch": 0.2722177742193755,
1028
+ "learning_rate": 1.0865369758878858e-05,
1029
+ "loss": 0.1775,
1030
+ "step": 340
1031
+ },
1032
+ {
1033
+ "epoch": 0.27381905524419536,
1034
+ "learning_rate": 1.0921046471444737e-05,
1035
+ "loss": 0.2227,
1036
+ "step": 342
1037
+ },
1038
+ {
1039
+ "epoch": 0.2754203362690152,
1040
+ "learning_rate": 1.0976694402901467e-05,
1041
+ "loss": 0.1278,
1042
+ "step": 344
1043
+ },
1044
+ {
1045
+ "epoch": 0.27702161729383507,
1046
+ "learning_rate": 1.1032311814347467e-05,
1047
+ "loss": 0.2362,
1048
+ "step": 346
1049
+ },
1050
+ {
1051
+ "epoch": 0.27862289831865494,
1052
+ "learning_rate": 1.1087896967834787e-05,
1053
+ "loss": 0.2938,
1054
+ "step": 348
1055
+ },
1056
+ {
1057
+ "epoch": 0.28022417934347477,
1058
+ "learning_rate": 1.1143448126423545e-05,
1059
+ "loss": 0.3197,
1060
+ "step": 350
1061
+ },
1062
+ {
1063
+ "epoch": 0.28182546036829464,
1064
+ "learning_rate": 1.1198963554236135e-05,
1065
+ "loss": 0.111,
1066
+ "step": 352
1067
+ },
1068
+ {
1069
+ "epoch": 0.28342674139311447,
1070
+ "learning_rate": 1.1254441516511425e-05,
1071
+ "loss": 0.1264,
1072
+ "step": 354
1073
+ },
1074
+ {
1075
+ "epoch": 0.28502802241793435,
1076
+ "learning_rate": 1.1309880279659087e-05,
1077
+ "loss": 0.2787,
1078
+ "step": 356
1079
+ },
1080
+ {
1081
+ "epoch": 0.2866293034427542,
1082
+ "learning_rate": 1.1365278111313625e-05,
1083
+ "loss": 0.2473,
1084
+ "step": 358
1085
+ },
1086
+ {
1087
+ "epoch": 0.28823058446757405,
1088
+ "learning_rate": 1.142063328038864e-05,
1089
+ "loss": 0.3255,
1090
+ "step": 360
1091
+ },
1092
+ {
1093
+ "epoch": 0.2898318654923939,
1094
+ "learning_rate": 1.1475944057130856e-05,
1095
+ "loss": 0.239,
1096
+ "step": 362
1097
+ },
1098
+ {
1099
+ "epoch": 0.29143314651721375,
1100
+ "learning_rate": 1.1531208713174138e-05,
1101
+ "loss": 0.5546,
1102
+ "step": 364
1103
+ },
1104
+ {
1105
+ "epoch": 0.2930344275420336,
1106
+ "learning_rate": 1.1586425521593607e-05,
1107
+ "loss": 0.0541,
1108
+ "step": 366
1109
+ },
1110
+ {
1111
+ "epoch": 0.2946357085668535,
1112
+ "learning_rate": 1.1641592756959467e-05,
1113
+ "loss": 0.1592,
1114
+ "step": 368
1115
+ },
1116
+ {
1117
+ "epoch": 0.2962369895916733,
1118
+ "learning_rate": 1.1696708695391057e-05,
1119
+ "loss": 0.2305,
1120
+ "step": 370
1121
+ },
1122
+ {
1123
+ "epoch": 0.2978382706164932,
1124
+ "learning_rate": 1.1751771614610643e-05,
1125
+ "loss": 0.1104,
1126
+ "step": 372
1127
+ },
1128
+ {
1129
+ "epoch": 0.29943955164131303,
1130
+ "learning_rate": 1.180677979399721e-05,
1131
+ "loss": 0.1474,
1132
+ "step": 374
1133
+ },
1134
+ {
1135
+ "epoch": 0.3010408326661329,
1136
+ "learning_rate": 1.1861731514640309e-05,
1137
+ "loss": 0.1575,
1138
+ "step": 376
1139
+ },
1140
+ {
1141
+ "epoch": 0.3026421136909528,
1142
+ "learning_rate": 1.1916625059393739e-05,
1143
+ "loss": 0.21,
1144
+ "step": 378
1145
+ },
1146
+ {
1147
+ "epoch": 0.3042433947157726,
1148
+ "learning_rate": 1.1971458712929133e-05,
1149
+ "loss": 0.0702,
1150
+ "step": 380
1151
+ },
1152
+ {
1153
+ "epoch": 0.3058446757405925,
1154
+ "learning_rate": 1.2026230761789702e-05,
1155
+ "loss": 0.1996,
1156
+ "step": 382
1157
+ },
1158
+ {
1159
+ "epoch": 0.3074459567654123,
1160
+ "learning_rate": 1.2080939494443618e-05,
1161
+ "loss": 0.2965,
1162
+ "step": 384
1163
+ },
1164
+ {
1165
+ "epoch": 0.3090472377902322,
1166
+ "learning_rate": 1.2135583201337646e-05,
1167
+ "loss": 0.1831,
1168
+ "step": 386
1169
+ },
1170
+ {
1171
+ "epoch": 0.31064851881505207,
1172
+ "learning_rate": 1.2190160174950428e-05,
1173
+ "loss": 0.1602,
1174
+ "step": 388
1175
+ },
1176
+ {
1177
+ "epoch": 0.3122497998398719,
1178
+ "learning_rate": 1.2244668709845952e-05,
1179
+ "loss": 0.0055,
1180
+ "step": 390
1181
+ },
1182
+ {
1183
+ "epoch": 0.31385108086469177,
1184
+ "learning_rate": 1.2299107102726804e-05,
1185
+ "loss": 0.7346,
1186
+ "step": 392
1187
+ },
1188
+ {
1189
+ "epoch": 0.3154523618895116,
1190
+ "learning_rate": 1.2353473652487329e-05,
1191
+ "loss": 0.043,
1192
+ "step": 394
1193
+ },
1194
+ {
1195
+ "epoch": 0.31705364291433147,
1196
+ "learning_rate": 1.2407766660266916e-05,
1197
+ "loss": 0.0878,
1198
+ "step": 396
1199
+ },
1200
+ {
1201
+ "epoch": 0.31865492393915135,
1202
+ "learning_rate": 1.2461984429502947e-05,
1203
+ "loss": 0.769,
1204
+ "step": 398
1205
+ },
1206
+ {
1207
+ "epoch": 0.32025620496397117,
1208
+ "learning_rate": 1.2516125265983945e-05,
1209
+ "loss": 0.1737,
1210
+ "step": 400
1211
+ },
1212
+ {
1213
+ "epoch": 0.32185748598879105,
1214
+ "learning_rate": 1.257018747790238e-05,
1215
+ "loss": 0.2405,
1216
+ "step": 402
1217
+ },
1218
+ {
1219
+ "epoch": 0.32345876701361087,
1220
+ "learning_rate": 1.2624169375907657e-05,
1221
+ "loss": 0.4884,
1222
+ "step": 404
1223
+ },
1224
+ {
1225
+ "epoch": 0.32506004803843075,
1226
+ "learning_rate": 1.2678069273158849e-05,
1227
+ "loss": 0.194,
1228
+ "step": 406
1229
+ },
1230
+ {
1231
+ "epoch": 0.3266613290632506,
1232
+ "learning_rate": 1.273188548537736e-05,
1233
+ "loss": 0.3149,
1234
+ "step": 408
1235
+ },
1236
+ {
1237
+ "epoch": 0.32826261008807045,
1238
+ "learning_rate": 1.2785616330899676e-05,
1239
+ "loss": 1.8402,
1240
+ "step": 410
1241
+ },
1242
+ {
1243
+ "epoch": 0.32986389111289033,
1244
+ "learning_rate": 1.2839260130729776e-05,
1245
+ "loss": 0.1369,
1246
+ "step": 412
1247
+ },
1248
+ {
1249
+ "epoch": 0.33146517213771015,
1250
+ "learning_rate": 1.2892815208591734e-05,
1251
+ "loss": 0.5522,
1252
+ "step": 414
1253
+ },
1254
+ {
1255
+ "epoch": 0.33306645316253003,
1256
+ "learning_rate": 1.2946279890981966e-05,
1257
+ "loss": 0.2254,
1258
+ "step": 416
1259
+ },
1260
+ {
1261
+ "epoch": 0.33466773418734985,
1262
+ "learning_rate": 1.2999652507221652e-05,
1263
+ "loss": 0.243,
1264
+ "step": 418
1265
+ },
1266
+ {
1267
+ "epoch": 0.33626901521216973,
1268
+ "learning_rate": 1.3052931389508822e-05,
1269
+ "loss": 0.2589,
1270
+ "step": 420
1271
+ },
1272
+ {
1273
+ "epoch": 0.3378702962369896,
1274
+ "learning_rate": 1.3106114872970575e-05,
1275
+ "loss": 0.189,
1276
+ "step": 422
1277
+ },
1278
+ {
1279
+ "epoch": 0.33947157726180943,
1280
+ "learning_rate": 1.3159201295715054e-05,
1281
+ "loss": 0.5865,
1282
+ "step": 424
1283
+ },
1284
+ {
1285
+ "epoch": 0.3410728582866293,
1286
+ "learning_rate": 1.321218899888334e-05,
1287
+ "loss": 0.1693,
1288
+ "step": 426
1289
+ },
1290
+ {
1291
+ "epoch": 0.34267413931144913,
1292
+ "learning_rate": 1.326507632670139e-05,
1293
+ "loss": 0.4265,
1294
+ "step": 428
1295
+ },
1296
+ {
1297
+ "epoch": 0.344275420336269,
1298
+ "learning_rate": 1.3317861626531652e-05,
1299
+ "loss": 0.3939,
1300
+ "step": 430
1301
+ },
1302
+ {
1303
+ "epoch": 0.3458767013610889,
1304
+ "learning_rate": 1.3370543248924826e-05,
1305
+ "loss": 0.4309,
1306
+ "step": 432
1307
+ },
1308
+ {
1309
+ "epoch": 0.3474779823859087,
1310
+ "learning_rate": 1.3423119547671348e-05,
1311
+ "loss": 0.2518,
1312
+ "step": 434
1313
+ },
1314
+ {
1315
+ "epoch": 0.3490792634107286,
1316
+ "learning_rate": 1.347558887985279e-05,
1317
+ "loss": 0.3826,
1318
+ "step": 436
1319
+ },
1320
+ {
1321
+ "epoch": 0.3506805444355484,
1322
+ "learning_rate": 1.3527949605893305e-05,
1323
+ "loss": 0.1508,
1324
+ "step": 438
1325
+ },
1326
+ {
1327
+ "epoch": 0.3522818254603683,
1328
+ "learning_rate": 1.3580200089610739e-05,
1329
+ "loss": 0.4003,
1330
+ "step": 440
1331
+ },
1332
+ {
1333
+ "epoch": 0.35388310648518817,
1334
+ "learning_rate": 1.3632338698267863e-05,
1335
+ "loss": 0.2644,
1336
+ "step": 442
1337
+ },
1338
+ {
1339
+ "epoch": 0.355484387510008,
1340
+ "learning_rate": 1.368436380262336e-05,
1341
+ "loss": 0.3196,
1342
+ "step": 444
1343
+ },
1344
+ {
1345
+ "epoch": 0.35708566853482787,
1346
+ "learning_rate": 1.3736273776982667e-05,
1347
+ "loss": 0.1834,
1348
+ "step": 446
1349
+ },
1350
+ {
1351
+ "epoch": 0.3586869495596477,
1352
+ "learning_rate": 1.3788066999248893e-05,
1353
+ "loss": 0.2493,
1354
+ "step": 448
1355
+ },
1356
+ {
1357
+ "epoch": 0.3602882305844676,
1358
+ "learning_rate": 1.3839741850973435e-05,
1359
+ "loss": 0.1866,
1360
+ "step": 450
1361
+ },
1362
+ {
1363
+ "epoch": 0.36188951160928745,
1364
+ "learning_rate": 1.3891296717406533e-05,
1365
+ "loss": 0.1911,
1366
+ "step": 452
1367
+ },
1368
+ {
1369
+ "epoch": 0.3634907926341073,
1370
+ "learning_rate": 1.3942729987547808e-05,
1371
+ "loss": 0.3398,
1372
+ "step": 454
1373
+ },
1374
+ {
1375
+ "epoch": 0.36509207365892715,
1376
+ "learning_rate": 1.3994040054196498e-05,
1377
+ "loss": 0.4,
1378
+ "step": 456
1379
+ },
1380
+ {
1381
+ "epoch": 0.366693354683747,
1382
+ "learning_rate": 1.4045225314001789e-05,
1383
+ "loss": 0.1742,
1384
+ "step": 458
1385
+ },
1386
+ {
1387
+ "epoch": 0.36829463570856685,
1388
+ "learning_rate": 1.4096284167512856e-05,
1389
+ "loss": 0.161,
1390
+ "step": 460
1391
+ },
1392
+ {
1393
+ "epoch": 0.36989591673338673,
1394
+ "learning_rate": 1.4147215019228813e-05,
1395
+ "loss": 0.1911,
1396
+ "step": 462
1397
+ },
1398
+ {
1399
+ "epoch": 0.37149719775820655,
1400
+ "learning_rate": 1.4198016277648665e-05,
1401
+ "loss": 0.1084,
1402
+ "step": 464
1403
+ },
1404
+ {
1405
+ "epoch": 0.37309847878302643,
1406
+ "learning_rate": 1.4248686355320922e-05,
1407
+ "loss": 0.3494,
1408
+ "step": 466
1409
+ },
1410
+ {
1411
+ "epoch": 0.37469975980784626,
1412
+ "learning_rate": 1.429922366889332e-05,
1413
+ "loss": 0.4,
1414
+ "step": 468
1415
+ },
1416
+ {
1417
+ "epoch": 0.37630104083266613,
1418
+ "learning_rate": 1.4349626639162231e-05,
1419
+ "loss": 0.3706,
1420
+ "step": 470
1421
+ },
1422
+ {
1423
+ "epoch": 0.377902321857486,
1424
+ "learning_rate": 1.4399893691121985e-05,
1425
+ "loss": 0.4302,
1426
+ "step": 472
1427
+ },
1428
+ {
1429
+ "epoch": 0.37950360288230583,
1430
+ "learning_rate": 1.4450023254014185e-05,
1431
+ "loss": 0.2218,
1432
+ "step": 474
1433
+ },
1434
+ {
1435
+ "epoch": 0.3811048839071257,
1436
+ "learning_rate": 1.4500013761376663e-05,
1437
+ "loss": 0.2239,
1438
+ "step": 476
1439
+ },
1440
+ {
1441
+ "epoch": 0.38270616493194554,
1442
+ "learning_rate": 1.454986365109255e-05,
1443
+ "loss": 0.1917,
1444
+ "step": 478
1445
+ },
1446
+ {
1447
+ "epoch": 0.3843074459567654,
1448
+ "learning_rate": 1.4599571365439027e-05,
1449
+ "loss": 0.514,
1450
+ "step": 480
1451
+ },
1452
+ {
1453
+ "epoch": 0.3859087269815853,
1454
+ "learning_rate": 1.4649135351135968e-05,
1455
+ "loss": 0.0929,
1456
+ "step": 482
1457
+ },
1458
+ {
1459
+ "epoch": 0.3875100080064051,
1460
+ "learning_rate": 1.4698554059394563e-05,
1461
+ "loss": 0.2467,
1462
+ "step": 484
1463
+ },
1464
+ {
1465
+ "epoch": 0.389111289031225,
1466
+ "learning_rate": 1.4747825945965675e-05,
1467
+ "loss": 0.2526,
1468
+ "step": 486
1469
+ },
1470
+ {
1471
+ "epoch": 0.3907125700560448,
1472
+ "learning_rate": 1.4796949471188033e-05,
1473
+ "loss": 0.3333,
1474
+ "step": 488
1475
+ },
1476
+ {
1477
+ "epoch": 0.3923138510808647,
1478
+ "learning_rate": 1.4845923100036479e-05,
1479
+ "loss": 0.2936,
1480
+ "step": 490
1481
+ },
1482
+ {
1483
+ "epoch": 0.3939151321056846,
1484
+ "learning_rate": 1.4894745302169786e-05,
1485
+ "loss": 0.168,
1486
+ "step": 492
1487
+ },
1488
+ {
1489
+ "epoch": 0.3955164131305044,
1490
+ "learning_rate": 1.4943414551978597e-05,
1491
+ "loss": 0.2293,
1492
+ "step": 494
1493
+ },
1494
+ {
1495
+ "epoch": 0.3971176941553243,
1496
+ "learning_rate": 1.499192932863305e-05,
1497
+ "loss": 0.2809,
1498
+ "step": 496
1499
+ },
1500
+ {
1501
+ "epoch": 0.3987189751801441,
1502
+ "learning_rate": 1.5040288116130261e-05,
1503
+ "loss": 0.4036,
1504
+ "step": 498
1505
+ },
1506
+ {
1507
+ "epoch": 0.400320256204964,
1508
+ "learning_rate": 1.5088489403341793e-05,
1509
+ "loss": 0.3494,
1510
+ "step": 500
1511
+ },
1512
+ {
1513
+ "epoch": 0.40192153722978385,
1514
+ "learning_rate": 1.513653168406076e-05,
1515
+ "loss": 0.1981,
1516
+ "step": 502
1517
+ },
1518
+ {
1519
+ "epoch": 0.4035228182546037,
1520
+ "learning_rate": 1.5184413457049006e-05,
1521
+ "loss": 0.4441,
1522
+ "step": 504
1523
+ },
1524
+ {
1525
+ "epoch": 0.40512409927942356,
1526
+ "learning_rate": 1.5232133226083954e-05,
1527
+ "loss": 0.1469,
1528
+ "step": 506
1529
+ },
1530
+ {
1531
+ "epoch": 0.4067253803042434,
1532
+ "learning_rate": 1.527968950000533e-05,
1533
+ "loss": 0.3933,
1534
+ "step": 508
1535
+ },
1536
+ {
1537
+ "epoch": 0.40832666132906326,
1538
+ "learning_rate": 1.532708079276185e-05,
1539
+ "loss": 0.1119,
1540
+ "step": 510
1541
+ },
1542
+ {
1543
+ "epoch": 0.4099279423538831,
1544
+ "learning_rate": 1.5374305623457594e-05,
1545
+ "loss": 0.4375,
1546
+ "step": 512
1547
+ },
1548
+ {
1549
+ "epoch": 0.41152922337870296,
1550
+ "learning_rate": 1.542136251639826e-05,
1551
+ "loss": 0.1107,
1552
+ "step": 514
1553
+ },
1554
+ {
1555
+ "epoch": 0.41313050440352284,
1556
+ "learning_rate": 1.5468250001137368e-05,
1557
+ "loss": 0.1726,
1558
+ "step": 516
1559
+ },
1560
+ {
1561
+ "epoch": 0.41473178542834266,
1562
+ "learning_rate": 1.551496661252208e-05,
1563
+ "loss": 0.3434,
1564
+ "step": 518
1565
+ },
1566
+ {
1567
+ "epoch": 0.41633306645316254,
1568
+ "learning_rate": 1.5561510890739113e-05,
1569
+ "loss": 0.3449,
1570
+ "step": 520
1571
+ },
1572
+ {
1573
+ "epoch": 0.41793434747798236,
1574
+ "learning_rate": 1.5607881381360296e-05,
1575
+ "loss": 0.1956,
1576
+ "step": 522
1577
+ },
1578
+ {
1579
+ "epoch": 0.41953562850280224,
1580
+ "learning_rate": 1.565407663538797e-05,
1581
+ "loss": 0.2114,
1582
+ "step": 524
1583
+ },
1584
+ {
1585
+ "epoch": 0.4211369095276221,
1586
+ "learning_rate": 1.5700095209300376e-05,
1587
+ "loss": 0.2248,
1588
+ "step": 526
1589
+ },
1590
+ {
1591
+ "epoch": 0.42273819055244194,
1592
+ "learning_rate": 1.5745935665096647e-05,
1593
+ "loss": 0.1809,
1594
+ "step": 528
1595
+ },
1596
+ {
1597
+ "epoch": 0.4243394715772618,
1598
+ "learning_rate": 1.5791596570341844e-05,
1599
+ "loss": 0.7246,
1600
+ "step": 530
1601
+ },
1602
+ {
1603
+ "epoch": 0.42594075260208164,
1604
+ "learning_rate": 1.5837076498211666e-05,
1605
+ "loss": 0.4036,
1606
+ "step": 532
1607
+ },
1608
+ {
1609
+ "epoch": 0.4275420336269015,
1610
+ "learning_rate": 1.5882374027537005e-05,
1611
+ "loss": 0.1076,
1612
+ "step": 534
1613
+ },
1614
+ {
1615
+ "epoch": 0.4291433146517214,
1616
+ "learning_rate": 1.5927487742848448e-05,
1617
+ "loss": 0.676,
1618
+ "step": 536
1619
+ },
1620
+ {
1621
+ "epoch": 0.4307445956765412,
1622
+ "learning_rate": 1.5972416234420393e-05,
1623
+ "loss": 0.5394,
1624
+ "step": 538
1625
+ },
1626
+ {
1627
+ "epoch": 0.4323458767013611,
1628
+ "learning_rate": 1.60171580983152e-05,
1629
+ "loss": 0.2514,
1630
+ "step": 540
1631
+ },
1632
+ {
1633
+ "epoch": 0.4339471577261809,
1634
+ "learning_rate": 1.606171193642703e-05,
1635
+ "loss": 0.2542,
1636
+ "step": 542
1637
+ },
1638
+ {
1639
+ "epoch": 0.4355484387510008,
1640
+ "learning_rate": 1.6106076356525474e-05,
1641
+ "loss": 0.4332,
1642
+ "step": 544
1643
+ },
1644
+ {
1645
+ "epoch": 0.4371497197758207,
1646
+ "learning_rate": 1.6150249972299153e-05,
1647
+ "loss": 0.1449,
1648
+ "step": 546
1649
+ },
1650
+ {
1651
+ "epoch": 0.4387510008006405,
1652
+ "learning_rate": 1.6194231403398994e-05,
1653
+ "loss": 0.417,
1654
+ "step": 548
1655
+ },
1656
+ {
1657
+ "epoch": 0.4403522818254604,
1658
+ "learning_rate": 1.6238019275481313e-05,
1659
+ "loss": 0.2424,
1660
+ "step": 550
1661
+ },
1662
+ {
1663
+ "epoch": 0.4419535628502802,
1664
+ "learning_rate": 1.6281612220250883e-05,
1665
+ "loss": 0.242,
1666
+ "step": 552
1667
+ },
1668
+ {
1669
+ "epoch": 0.4435548438751001,
1670
+ "learning_rate": 1.6325008875503543e-05,
1671
+ "loss": 0.2277,
1672
+ "step": 554
1673
+ },
1674
+ {
1675
+ "epoch": 0.44515612489991996,
1676
+ "learning_rate": 1.6368207885168897e-05,
1677
+ "loss": 0.3083,
1678
+ "step": 556
1679
+ },
1680
+ {
1681
+ "epoch": 0.4467574059247398,
1682
+ "learning_rate": 1.641120789935263e-05,
1683
+ "loss": 0.3959,
1684
+ "step": 558
1685
+ },
1686
+ {
1687
+ "epoch": 0.44835868694955966,
1688
+ "learning_rate": 1.6454007574378637e-05,
1689
+ "loss": 0.3832,
1690
+ "step": 560
1691
+ },
1692
+ {
1693
+ "epoch": 0.4499599679743795,
1694
+ "learning_rate": 1.6496605572831134e-05,
1695
+ "loss": 0.365,
1696
+ "step": 562
1697
+ },
1698
+ {
1699
+ "epoch": 0.45156124899919936,
1700
+ "learning_rate": 1.6539000563596318e-05,
1701
+ "loss": 0.2909,
1702
+ "step": 564
1703
+ },
1704
+ {
1705
+ "epoch": 0.45316253002401924,
1706
+ "learning_rate": 1.6581191221904077e-05,
1707
+ "loss": 0.1024,
1708
+ "step": 566
1709
+ },
1710
+ {
1711
+ "epoch": 0.45476381104883906,
1712
+ "learning_rate": 1.6623176229369324e-05,
1713
+ "loss": 0.2723,
1714
+ "step": 568
1715
+ },
1716
+ {
1717
+ "epoch": 0.45636509207365894,
1718
+ "learning_rate": 1.6664954274033168e-05,
1719
+ "loss": 0.3812,
1720
+ "step": 570
1721
+ },
1722
+ {
1723
+ "epoch": 0.45796637309847876,
1724
+ "learning_rate": 1.6706524050403996e-05,
1725
+ "loss": 0.0368,
1726
+ "step": 572
1727
+ },
1728
+ {
1729
+ "epoch": 0.45956765412329864,
1730
+ "learning_rate": 1.674788425949818e-05,
1731
+ "loss": 0.3394,
1732
+ "step": 574
1733
+ },
1734
+ {
1735
+ "epoch": 0.4611689351481185,
1736
+ "learning_rate": 1.6789033608880735e-05,
1737
+ "loss": 0.0958,
1738
+ "step": 576
1739
+ },
1740
+ {
1741
+ "epoch": 0.46277021617293834,
1742
+ "learning_rate": 1.6829970812705674e-05,
1743
+ "loss": 0.1656,
1744
+ "step": 578
1745
+ },
1746
+ {
1747
+ "epoch": 0.4643714971977582,
1748
+ "learning_rate": 1.6870694591756165e-05,
1749
+ "loss": 0.4163,
1750
+ "step": 580
1751
+ },
1752
+ {
1753
+ "epoch": 0.46597277822257804,
1754
+ "learning_rate": 1.6911203673484577e-05,
1755
+ "loss": 0.0417,
1756
+ "step": 582
1757
+ },
1758
+ {
1759
+ "epoch": 0.4675740592473979,
1760
+ "learning_rate": 1.695149679205214e-05,
1761
+ "loss": 0.7376,
1762
+ "step": 584
1763
+ },
1764
+ {
1765
+ "epoch": 0.4691753402722178,
1766
+ "learning_rate": 1.6991572688368628e-05,
1767
+ "loss": 0.3798,
1768
+ "step": 586
1769
+ },
1770
+ {
1771
+ "epoch": 0.4707766212970376,
1772
+ "learning_rate": 1.7031430110131562e-05,
1773
+ "loss": 0.4544,
1774
+ "step": 588
1775
+ },
1776
+ {
1777
+ "epoch": 0.4723779023218575,
1778
+ "learning_rate": 1.7071067811865467e-05,
1779
+ "loss": 0.3427,
1780
+ "step": 590
1781
+ },
1782
+ {
1783
+ "epoch": 0.4739791833466773,
1784
+ "learning_rate": 1.7110484554960738e-05,
1785
+ "loss": 0.0882,
1786
+ "step": 592
1787
+ },
1788
+ {
1789
+ "epoch": 0.4755804643714972,
1790
+ "learning_rate": 1.7149679107712306e-05,
1791
+ "loss": 0.5429,
1792
+ "step": 594
1793
+ },
1794
+ {
1795
+ "epoch": 0.4771817453963171,
1796
+ "learning_rate": 1.7188650245358215e-05,
1797
+ "loss": 0.0116,
1798
+ "step": 596
1799
+ },
1800
+ {
1801
+ "epoch": 0.4787830264211369,
1802
+ "learning_rate": 1.722739675011779e-05,
1803
+ "loss": 0.35,
1804
+ "step": 598
1805
+ },
1806
+ {
1807
+ "epoch": 0.4803843074459568,
1808
+ "learning_rate": 1.726591741122981e-05,
1809
+ "loss": 0.2514,
1810
+ "step": 600
1811
+ },
1812
+ {
1813
+ "epoch": 0.4819855884707766,
1814
+ "learning_rate": 1.730421102499021e-05,
1815
+ "loss": 0.4055,
1816
+ "step": 602
1817
+ },
1818
+ {
1819
+ "epoch": 0.4835868694955965,
1820
+ "learning_rate": 1.734227639478982e-05,
1821
+ "loss": 0.4334,
1822
+ "step": 604
1823
+ },
1824
+ {
1825
+ "epoch": 0.4851881505204163,
1826
+ "learning_rate": 1.738011233115165e-05,
1827
+ "loss": 0.2647,
1828
+ "step": 606
1829
+ },
1830
+ {
1831
+ "epoch": 0.4867894315452362,
1832
+ "learning_rate": 1.7417717651768144e-05,
1833
+ "loss": 0.2909,
1834
+ "step": 608
1835
+ },
1836
+ {
1837
+ "epoch": 0.48839071257005606,
1838
+ "learning_rate": 1.7455091181538087e-05,
1839
+ "loss": 0.0694,
1840
+ "step": 610
1841
+ },
1842
+ {
1843
+ "epoch": 0.4899919935948759,
1844
+ "learning_rate": 1.74922317526033e-05,
1845
+ "loss": 0.0212,
1846
+ "step": 612
1847
+ },
1848
+ {
1849
+ "epoch": 0.49159327461969576,
1850
+ "learning_rate": 1.752913820438519e-05,
1851
+ "loss": 0.1282,
1852
+ "step": 614
1853
+ },
1854
+ {
1855
+ "epoch": 0.4931945556445156,
1856
+ "learning_rate": 1.756580938362096e-05,
1857
+ "loss": 0.2675,
1858
+ "step": 616
1859
+ },
1860
+ {
1861
+ "epoch": 0.49479583666933546,
1862
+ "learning_rate": 1.7602244144399693e-05,
1863
+ "loss": 0.5806,
1864
+ "step": 618
1865
+ },
1866
+ {
1867
+ "epoch": 0.49639711769415534,
1868
+ "learning_rate": 1.7638441348198147e-05,
1869
+ "loss": 0.0669,
1870
+ "step": 620
1871
+ },
1872
+ {
1873
+ "epoch": 0.49799839871897517,
1874
+ "learning_rate": 1.7674399863916295e-05,
1875
+ "loss": 0.5326,
1876
+ "step": 622
1877
+ },
1878
+ {
1879
+ "epoch": 0.49959967974379504,
1880
+ "learning_rate": 1.771011856791273e-05,
1881
+ "loss": 0.058,
1882
+ "step": 624
1883
+ },
1884
+ {
1885
+ "epoch": 0.5012009607686149,
1886
+ "learning_rate": 1.7745596344039712e-05,
1887
+ "loss": 0.1398,
1888
+ "step": 626
1889
+ },
1890
+ {
1891
+ "epoch": 0.5028022417934348,
1892
+ "learning_rate": 1.7780832083678116e-05,
1893
+ "loss": 0.1384,
1894
+ "step": 628
1895
+ },
1896
+ {
1897
+ "epoch": 0.5044035228182546,
1898
+ "learning_rate": 1.7815824685772035e-05,
1899
+ "loss": 0.3157,
1900
+ "step": 630
1901
+ },
1902
+ {
1903
+ "epoch": 0.5060048038430744,
1904
+ "learning_rate": 1.7850573056863156e-05,
1905
+ "loss": 0.1699,
1906
+ "step": 632
1907
+ },
1908
+ {
1909
+ "epoch": 0.5076060848678943,
1910
+ "learning_rate": 1.7885076111125004e-05,
1911
+ "loss": 0.5987,
1912
+ "step": 634
1913
+ },
1914
+ {
1915
+ "epoch": 0.5092073658927142,
1916
+ "learning_rate": 1.791933277039679e-05,
1917
+ "loss": 0.3425,
1918
+ "step": 636
1919
+ },
1920
+ {
1921
+ "epoch": 0.510808646917534,
1922
+ "learning_rate": 1.7953341964217183e-05,
1923
+ "loss": 0.0768,
1924
+ "step": 638
1925
+ },
1926
+ {
1927
+ "epoch": 0.5124099279423538,
1928
+ "learning_rate": 1.7987102629857696e-05,
1929
+ "loss": 0.0989,
1930
+ "step": 640
1931
+ },
1932
+ {
1933
+ "epoch": 0.5140112089671738,
1934
+ "learning_rate": 1.8020613712355912e-05,
1935
+ "loss": 0.129,
1936
+ "step": 642
1937
+ },
1938
+ {
1939
+ "epoch": 0.5156124899919936,
1940
+ "learning_rate": 1.805387416454847e-05,
1941
+ "loss": 0.252,
1942
+ "step": 644
1943
+ },
1944
+ {
1945
+ "epoch": 0.5172137710168134,
1946
+ "learning_rate": 1.8086882947103787e-05,
1947
+ "loss": 0.2271,
1948
+ "step": 646
1949
+ },
1950
+ {
1951
+ "epoch": 0.5188150520416333,
1952
+ "learning_rate": 1.811963902855447e-05,
1953
+ "loss": 0.253,
1954
+ "step": 648
1955
+ },
1956
+ {
1957
+ "epoch": 0.5204163330664532,
1958
+ "learning_rate": 1.8152141385329658e-05,
1959
+ "loss": 0.3181,
1960
+ "step": 650
1961
+ },
1962
+ {
1963
+ "epoch": 0.522017614091273,
1964
+ "learning_rate": 1.8184389001786895e-05,
1965
+ "loss": 0.1894,
1966
+ "step": 652
1967
+ },
1968
+ {
1969
+ "epoch": 0.5236188951160928,
1970
+ "learning_rate": 1.821638087024396e-05,
1971
+ "loss": 0.1544,
1972
+ "step": 654
1973
+ },
1974
+ {
1975
+ "epoch": 0.5252201761409128,
1976
+ "learning_rate": 1.8248115991010296e-05,
1977
+ "loss": 0.2476,
1978
+ "step": 656
1979
+ },
1980
+ {
1981
+ "epoch": 0.5268214571657326,
1982
+ "learning_rate": 1.8279593372418264e-05,
1983
+ "loss": 0.4412,
1984
+ "step": 658
1985
+ },
1986
+ {
1987
+ "epoch": 0.5284227381905524,
1988
+ "learning_rate": 1.8310812030854155e-05,
1989
+ "loss": 0.0098,
1990
+ "step": 660
1991
+ },
1992
+ {
1993
+ "epoch": 0.5300240192153723,
1994
+ "learning_rate": 1.834177099078887e-05,
1995
+ "loss": 0.1315,
1996
+ "step": 662
1997
+ },
1998
+ {
1999
+ "epoch": 0.5316253002401922,
2000
+ "learning_rate": 1.8372469284808465e-05,
2001
+ "loss": 0.1228,
2002
+ "step": 664
2003
+ },
2004
+ {
2005
+ "epoch": 0.533226581265012,
2006
+ "learning_rate": 1.840290595364436e-05,
2007
+ "loss": 0.9322,
2008
+ "step": 666
2009
+ },
2010
+ {
2011
+ "epoch": 0.5348278622898318,
2012
+ "learning_rate": 1.8433080046203286e-05,
2013
+ "loss": 0.3805,
2014
+ "step": 668
2015
+ },
2016
+ {
2017
+ "epoch": 0.5364291433146517,
2018
+ "learning_rate": 1.8462990619597054e-05,
2019
+ "loss": 0.1881,
2020
+ "step": 670
2021
+ },
2022
+ {
2023
+ "epoch": 0.5380304243394716,
2024
+ "learning_rate": 1.8492636739171966e-05,
2025
+ "loss": 0.3647,
2026
+ "step": 672
2027
+ },
2028
+ {
2029
+ "epoch": 0.5396317053642914,
2030
+ "learning_rate": 1.8522017478538067e-05,
2031
+ "loss": 0.3042,
2032
+ "step": 674
2033
+ },
2034
+ {
2035
+ "epoch": 0.5412329863891113,
2036
+ "learning_rate": 1.855113191959808e-05,
2037
+ "loss": 0.4389,
2038
+ "step": 676
2039
+ },
2040
+ {
2041
+ "epoch": 0.5428342674139311,
2042
+ "learning_rate": 1.8579979152576063e-05,
2043
+ "loss": 0.1327,
2044
+ "step": 678
2045
+ },
2046
+ {
2047
+ "epoch": 0.544435548438751,
2048
+ "learning_rate": 1.8608558276045895e-05,
2049
+ "loss": 0.2536,
2050
+ "step": 680
2051
+ },
2052
+ {
2053
+ "epoch": 0.5460368294635709,
2054
+ "learning_rate": 1.86368683969594e-05,
2055
+ "loss": 0.1594,
2056
+ "step": 682
2057
+ },
2058
+ {
2059
+ "epoch": 0.5476381104883907,
2060
+ "learning_rate": 1.866490863067425e-05,
2061
+ "loss": 0.1688,
2062
+ "step": 684
2063
+ },
2064
+ {
2065
+ "epoch": 0.5492393915132106,
2066
+ "learning_rate": 1.8692678100981663e-05,
2067
+ "loss": 0.0977,
2068
+ "step": 686
2069
+ },
2070
+ {
2071
+ "epoch": 0.5508406725380304,
2072
+ "learning_rate": 1.8720175940133705e-05,
2073
+ "loss": 0.4264,
2074
+ "step": 688
2075
+ },
2076
+ {
2077
+ "epoch": 0.5524419535628503,
2078
+ "learning_rate": 1.8747401288870472e-05,
2079
+ "loss": 0.0024,
2080
+ "step": 690
2081
+ },
2082
+ {
2083
+ "epoch": 0.5540432345876701,
2084
+ "learning_rate": 1.877435329644691e-05,
2085
+ "loss": 0.2463,
2086
+ "step": 692
2087
+ },
2088
+ {
2089
+ "epoch": 0.55564451561249,
2090
+ "learning_rate": 1.8801031120659393e-05,
2091
+ "loss": 0.1728,
2092
+ "step": 694
2093
+ },
2094
+ {
2095
+ "epoch": 0.5572457966373099,
2096
+ "learning_rate": 1.8827433927872066e-05,
2097
+ "loss": 0.3265,
2098
+ "step": 696
2099
+ },
2100
+ {
2101
+ "epoch": 0.5588470776621297,
2102
+ "learning_rate": 1.8853560893042854e-05,
2103
+ "loss": 0.3823,
2104
+ "step": 698
2105
+ },
2106
+ {
2107
+ "epoch": 0.5604483586869495,
2108
+ "learning_rate": 1.8879411199749303e-05,
2109
+ "loss": 0.1635,
2110
+ "step": 700
2111
+ },
2112
+ {
2113
+ "epoch": 0.5620496397117695,
2114
+ "learning_rate": 1.8904984040214037e-05,
2115
+ "loss": 0.2391,
2116
+ "step": 702
2117
+ },
2118
+ {
2119
+ "epoch": 0.5636509207365893,
2120
+ "learning_rate": 1.893027861533002e-05,
2121
+ "loss": 0.0641,
2122
+ "step": 704
2123
+ },
2124
+ {
2125
+ "epoch": 0.5652522017614091,
2126
+ "learning_rate": 1.8955294134685528e-05,
2127
+ "loss": 0.0634,
2128
+ "step": 706
2129
+ },
2130
+ {
2131
+ "epoch": 0.5668534827862289,
2132
+ "learning_rate": 1.898002981658886e-05,
2133
+ "loss": 0.3219,
2134
+ "step": 708
2135
+ },
2136
+ {
2137
+ "epoch": 0.5684547638110489,
2138
+ "learning_rate": 1.9004484888092724e-05,
2139
+ "loss": 0.2285,
2140
+ "step": 710
2141
+ },
2142
+ {
2143
+ "epoch": 0.5700560448358687,
2144
+ "learning_rate": 1.9028658585018455e-05,
2145
+ "loss": 0.2359,
2146
+ "step": 712
2147
+ },
2148
+ {
2149
+ "epoch": 0.5716573258606885,
2150
+ "learning_rate": 1.9052550151979816e-05,
2151
+ "loss": 0.0369,
2152
+ "step": 714
2153
+ },
2154
+ {
2155
+ "epoch": 0.5732586068855084,
2156
+ "learning_rate": 1.9076158842406674e-05,
2157
+ "loss": 0.024,
2158
+ "step": 716
2159
+ },
2160
+ {
2161
+ "epoch": 0.5748598879103283,
2162
+ "learning_rate": 1.909948391856829e-05,
2163
+ "loss": 0.0789,
2164
+ "step": 718
2165
+ },
2166
+ {
2167
+ "epoch": 0.5764611689351481,
2168
+ "learning_rate": 1.912252465159637e-05,
2169
+ "loss": 0.4336,
2170
+ "step": 720
2171
+ },
2172
+ {
2173
+ "epoch": 0.578062449959968,
2174
+ "learning_rate": 1.9145280321507872e-05,
2175
+ "loss": 0.3042,
2176
+ "step": 722
2177
+ },
2178
+ {
2179
+ "epoch": 0.5796637309847879,
2180
+ "learning_rate": 1.9167750217227454e-05,
2181
+ "loss": 0.245,
2182
+ "step": 724
2183
+ },
2184
+ {
2185
+ "epoch": 0.5812650120096077,
2186
+ "learning_rate": 1.9189933636609747e-05,
2187
+ "loss": 0.0515,
2188
+ "step": 726
2189
+ },
2190
+ {
2191
+ "epoch": 0.5828662930344275,
2192
+ "learning_rate": 1.9211829886461274e-05,
2193
+ "loss": 0.2889,
2194
+ "step": 728
2195
+ },
2196
+ {
2197
+ "epoch": 0.5844675740592474,
2198
+ "learning_rate": 1.9233438282562085e-05,
2199
+ "loss": 0.0882,
2200
+ "step": 730
2201
+ },
2202
+ {
2203
+ "epoch": 0.5860688550840673,
2204
+ "learning_rate": 1.925475814968719e-05,
2205
+ "loss": 0.0002,
2206
+ "step": 732
2207
+ },
2208
+ {
2209
+ "epoch": 0.5876701361088871,
2210
+ "learning_rate": 1.9275788821627607e-05,
2211
+ "loss": 0.0721,
2212
+ "step": 734
2213
+ },
2214
+ {
2215
+ "epoch": 0.589271417133707,
2216
+ "learning_rate": 1.9296529641211215e-05,
2217
+ "loss": 0.01,
2218
+ "step": 736
2219
+ },
2220
+ {
2221
+ "epoch": 0.5908726981585268,
2222
+ "learning_rate": 1.9316979960323286e-05,
2223
+ "loss": 0.021,
2224
+ "step": 738
2225
+ },
2226
+ {
2227
+ "epoch": 0.5924739791833467,
2228
+ "learning_rate": 1.9337139139926707e-05,
2229
+ "loss": 0.5328,
2230
+ "step": 740
2231
+ },
2232
+ {
2233
+ "epoch": 0.5940752602081665,
2234
+ "learning_rate": 1.935700655008199e-05,
2235
+ "loss": 0.4535,
2236
+ "step": 742
2237
+ },
2238
+ {
2239
+ "epoch": 0.5956765412329864,
2240
+ "learning_rate": 1.9376581569966933e-05,
2241
+ "loss": 0.2055,
2242
+ "step": 744
2243
+ },
2244
+ {
2245
+ "epoch": 0.5972778222578062,
2246
+ "learning_rate": 1.939586358789602e-05,
2247
+ "loss": 0.0065,
2248
+ "step": 746
2249
+ },
2250
+ {
2251
+ "epoch": 0.5988791032826261,
2252
+ "learning_rate": 1.9414852001339547e-05,
2253
+ "loss": 0.7148,
2254
+ "step": 748
2255
+ },
2256
+ {
2257
+ "epoch": 0.600480384307446,
2258
+ "learning_rate": 1.9433546216942423e-05,
2259
+ "loss": 0.0204,
2260
+ "step": 750
2261
+ },
2262
+ {
2263
+ "epoch": 0.6020816653322658,
2264
+ "learning_rate": 1.945194565054276e-05,
2265
+ "loss": 0.8355,
2266
+ "step": 752
2267
+ },
2268
+ {
2269
+ "epoch": 0.6036829463570856,
2270
+ "learning_rate": 1.9470049727190073e-05,
2271
+ "loss": 0.5139,
2272
+ "step": 754
2273
+ },
2274
+ {
2275
+ "epoch": 0.6052842273819056,
2276
+ "learning_rate": 1.948785788116329e-05,
2277
+ "loss": 0.0002,
2278
+ "step": 756
2279
+ },
2280
+ {
2281
+ "epoch": 0.6068855084067254,
2282
+ "learning_rate": 1.9505369555988395e-05,
2283
+ "loss": 0.2042,
2284
+ "step": 758
2285
+ },
2286
+ {
2287
+ "epoch": 0.6084867894315452,
2288
+ "learning_rate": 1.952258420445583e-05,
2289
+ "loss": 0.0885,
2290
+ "step": 760
2291
+ },
2292
+ {
2293
+ "epoch": 0.610088070456365,
2294
+ "learning_rate": 1.953950128863762e-05,
2295
+ "loss": 0.0436,
2296
+ "step": 762
2297
+ },
2298
+ {
2299
+ "epoch": 0.611689351481185,
2300
+ "learning_rate": 1.9556120279904144e-05,
2301
+ "loss": 0.5328,
2302
+ "step": 764
2303
+ },
2304
+ {
2305
+ "epoch": 0.6132906325060048,
2306
+ "learning_rate": 1.957244065894066e-05,
2307
+ "loss": 0.2262,
2308
+ "step": 766
2309
+ },
2310
+ {
2311
+ "epoch": 0.6148919135308246,
2312
+ "learning_rate": 1.9588461915763566e-05,
2313
+ "loss": 0.3054,
2314
+ "step": 768
2315
+ },
2316
+ {
2317
+ "epoch": 0.6164931945556446,
2318
+ "learning_rate": 1.9604183549736283e-05,
2319
+ "loss": 0.3508,
2320
+ "step": 770
2321
+ },
2322
+ {
2323
+ "epoch": 0.6180944755804644,
2324
+ "learning_rate": 1.9619605069584954e-05,
2325
+ "loss": 0.5364,
2326
+ "step": 772
2327
+ },
2328
+ {
2329
+ "epoch": 0.6196957566052842,
2330
+ "learning_rate": 1.9634725993413744e-05,
2331
+ "loss": 0.1168,
2332
+ "step": 774
2333
+ },
2334
+ {
2335
+ "epoch": 0.6212970376301041,
2336
+ "learning_rate": 1.964954584871995e-05,
2337
+ "loss": 0.4526,
2338
+ "step": 776
2339
+ },
2340
+ {
2341
+ "epoch": 0.622898318654924,
2342
+ "learning_rate": 1.966406417240872e-05,
2343
+ "loss": 0.2059,
2344
+ "step": 778
2345
+ },
2346
+ {
2347
+ "epoch": 0.6244995996797438,
2348
+ "learning_rate": 1.967828051080755e-05,
2349
+ "loss": 0.2176,
2350
+ "step": 780
2351
+ },
2352
+ {
2353
+ "epoch": 0.6261008807045636,
2354
+ "learning_rate": 1.969219441968046e-05,
2355
+ "loss": 0.0018,
2356
+ "step": 782
2357
+ },
2358
+ {
2359
+ "epoch": 0.6277021617293835,
2360
+ "learning_rate": 1.9705805464241856e-05,
2361
+ "loss": 0.1679,
2362
+ "step": 784
2363
+ },
2364
+ {
2365
+ "epoch": 0.6293034427542034,
2366
+ "learning_rate": 1.971911321917015e-05,
2367
+ "loss": 0.1927,
2368
+ "step": 786
2369
+ },
2370
+ {
2371
+ "epoch": 0.6309047237790232,
2372
+ "learning_rate": 1.9732117268621005e-05,
2373
+ "loss": 0.4173,
2374
+ "step": 788
2375
+ },
2376
+ {
2377
+ "epoch": 0.6325060048038431,
2378
+ "learning_rate": 1.9744817206240377e-05,
2379
+ "loss": 0.3615,
2380
+ "step": 790
2381
+ },
2382
+ {
2383
+ "epoch": 0.6341072858286629,
2384
+ "learning_rate": 1.9757212635177177e-05,
2385
+ "loss": 0.1433,
2386
+ "step": 792
2387
+ },
2388
+ {
2389
+ "epoch": 0.6357085668534828,
2390
+ "learning_rate": 1.976930316809569e-05,
2391
+ "loss": 0.2274,
2392
+ "step": 794
2393
+ },
2394
+ {
2395
+ "epoch": 0.6373098478783027,
2396
+ "learning_rate": 1.978108842718768e-05,
2397
+ "loss": 0.4554,
2398
+ "step": 796
2399
+ },
2400
+ {
2401
+ "epoch": 0.6389111289031225,
2402
+ "learning_rate": 1.9792568044184176e-05,
2403
+ "loss": 0.309,
2404
+ "step": 798
2405
+ },
2406
+ {
2407
+ "epoch": 0.6405124099279423,
2408
+ "learning_rate": 1.9803741660367015e-05,
2409
+ "loss": 0.125,
2410
+ "step": 800
2411
+ },
2412
+ {
2413
+ "epoch": 0.6421136909527622,
2414
+ "learning_rate": 1.9814608926580007e-05,
2415
+ "loss": 0.2541,
2416
+ "step": 802
2417
+ },
2418
+ {
2419
+ "epoch": 0.6437149719775821,
2420
+ "learning_rate": 1.9825169503239885e-05,
2421
+ "loss": 0.4126,
2422
+ "step": 804
2423
+ },
2424
+ {
2425
+ "epoch": 0.6453162530024019,
2426
+ "learning_rate": 1.9835423060346892e-05,
2427
+ "loss": 0.2168,
2428
+ "step": 806
2429
+ },
2430
+ {
2431
+ "epoch": 0.6469175340272217,
2432
+ "learning_rate": 1.9845369277495102e-05,
2433
+ "loss": 0.2062,
2434
+ "step": 808
2435
+ },
2436
+ {
2437
+ "epoch": 0.6485188150520417,
2438
+ "learning_rate": 1.985500784388244e-05,
2439
+ "loss": 0.3649,
2440
+ "step": 810
2441
+ },
2442
+ {
2443
+ "epoch": 0.6501200960768615,
2444
+ "learning_rate": 1.9864338458320366e-05,
2445
+ "loss": 0.3101,
2446
+ "step": 812
2447
+ },
2448
+ {
2449
+ "epoch": 0.6517213771016813,
2450
+ "learning_rate": 1.9873360829243323e-05,
2451
+ "loss": 0.0315,
2452
+ "step": 814
2453
+ },
2454
+ {
2455
+ "epoch": 0.6533226581265013,
2456
+ "learning_rate": 1.9882074674717836e-05,
2457
+ "loss": 0.2392,
2458
+ "step": 816
2459
+ },
2460
+ {
2461
+ "epoch": 0.6549239391513211,
2462
+ "learning_rate": 1.989047972245129e-05,
2463
+ "loss": 0.0814,
2464
+ "step": 818
2465
+ },
2466
+ {
2467
+ "epoch": 0.6565252201761409,
2468
+ "learning_rate": 1.989857570980049e-05,
2469
+ "loss": 0.1961,
2470
+ "step": 820
2471
+ },
2472
+ {
2473
+ "epoch": 0.6581265012009607,
2474
+ "learning_rate": 1.9906362383779826e-05,
2475
+ "loss": 0.0243,
2476
+ "step": 822
2477
+ },
2478
+ {
2479
+ "epoch": 0.6597277822257807,
2480
+ "learning_rate": 1.9913839501069213e-05,
2481
+ "loss": 0.3149,
2482
+ "step": 824
2483
+ },
2484
+ {
2485
+ "epoch": 0.6613290632506005,
2486
+ "learning_rate": 1.9921006828021666e-05,
2487
+ "loss": 0.0862,
2488
+ "step": 826
2489
+ },
2490
+ {
2491
+ "epoch": 0.6629303442754203,
2492
+ "learning_rate": 1.9927864140670615e-05,
2493
+ "loss": 0.2755,
2494
+ "step": 828
2495
+ },
2496
+ {
2497
+ "epoch": 0.6645316253002402,
2498
+ "learning_rate": 1.99344112247369e-05,
2499
+ "loss": 0.2877,
2500
+ "step": 830
2501
+ },
2502
+ {
2503
+ "epoch": 0.6661329063250601,
2504
+ "learning_rate": 1.9940647875635463e-05,
2505
+ "loss": 0.2791,
2506
+ "step": 832
2507
+ },
2508
+ {
2509
+ "epoch": 0.6677341873498799,
2510
+ "learning_rate": 1.994657389848176e-05,
2511
+ "loss": 0.1761,
2512
+ "step": 834
2513
+ },
2514
+ {
2515
+ "epoch": 0.6693354683746997,
2516
+ "learning_rate": 1.9952189108097825e-05,
2517
+ "loss": 0.2275,
2518
+ "step": 836
2519
+ },
2520
+ {
2521
+ "epoch": 0.6709367493995196,
2522
+ "learning_rate": 1.9957493329018064e-05,
2523
+ "loss": 0.0233,
2524
+ "step": 838
2525
+ },
2526
+ {
2527
+ "epoch": 0.6725380304243395,
2528
+ "learning_rate": 1.996248639549475e-05,
2529
+ "loss": 0.2653,
2530
+ "step": 840
2531
+ },
2532
+ {
2533
+ "epoch": 0.6741393114491593,
2534
+ "learning_rate": 1.9967168151503196e-05,
2535
+ "loss": 0.3435,
2536
+ "step": 842
2537
+ },
2538
+ {
2539
+ "epoch": 0.6757405924739792,
2540
+ "learning_rate": 1.997153845074662e-05,
2541
+ "loss": 0.0327,
2542
+ "step": 844
2543
+ },
2544
+ {
2545
+ "epoch": 0.677341873498799,
2546
+ "learning_rate": 1.997559715666073e-05,
2547
+ "loss": 0.2651,
2548
+ "step": 846
2549
+ },
2550
+ {
2551
+ "epoch": 0.6789431545236189,
2552
+ "learning_rate": 1.9979344142417986e-05,
2553
+ "loss": 0.3056,
2554
+ "step": 848
2555
+ },
2556
+ {
2557
+ "epoch": 0.6805444355484388,
2558
+ "learning_rate": 1.998277929093157e-05,
2559
+ "loss": 0.1792,
2560
+ "step": 850
2561
+ },
2562
+ {
2563
+ "epoch": 0.6821457165732586,
2564
+ "learning_rate": 1.9985902494859023e-05,
2565
+ "loss": 0.1139,
2566
+ "step": 852
2567
+ },
2568
+ {
2569
+ "epoch": 0.6837469975980784,
2570
+ "learning_rate": 1.9988713656605635e-05,
2571
+ "loss": 0.548,
2572
+ "step": 854
2573
+ },
2574
+ {
2575
+ "epoch": 0.6853482786228983,
2576
+ "learning_rate": 1.9991212688327456e-05,
2577
+ "loss": 0.1276,
2578
+ "step": 856
2579
+ },
2580
+ {
2581
+ "epoch": 0.6869495596477182,
2582
+ "learning_rate": 1.999339951193407e-05,
2583
+ "loss": 0.0769,
2584
+ "step": 858
2585
+ },
2586
+ {
2587
+ "epoch": 0.688550840672538,
2588
+ "learning_rate": 1.9995274059091018e-05,
2589
+ "loss": 0.2463,
2590
+ "step": 860
2591
+ },
2592
+ {
2593
+ "epoch": 0.6901521216973578,
2594
+ "learning_rate": 1.999683627122195e-05,
2595
+ "loss": 0.5896,
2596
+ "step": 862
2597
+ },
2598
+ {
2599
+ "epoch": 0.6917534027221778,
2600
+ "learning_rate": 1.9998086099510433e-05,
2601
+ "loss": 0.0092,
2602
+ "step": 864
2603
+ },
2604
+ {
2605
+ "epoch": 0.6933546837469976,
2606
+ "learning_rate": 1.99990235049015e-05,
2607
+ "loss": 0.3945,
2608
+ "step": 866
2609
+ },
2610
+ {
2611
+ "epoch": 0.6949559647718174,
2612
+ "learning_rate": 1.999964845810285e-05,
2613
+ "loss": 0.3901,
2614
+ "step": 868
2615
+ },
2616
+ {
2617
+ "epoch": 0.6965572457966374,
2618
+ "learning_rate": 1.999996093958578e-05,
2619
+ "loss": 0.0916,
2620
+ "step": 870
2621
+ },
2622
+ {
2623
+ "epoch": 0.6981585268214572,
2624
+ "learning_rate": 1.999996093958578e-05,
2625
+ "loss": 0.2292,
2626
+ "step": 872
2627
+ },
2628
+ {
2629
+ "epoch": 0.699759807846277,
2630
+ "learning_rate": 1.999964845810285e-05,
2631
+ "loss": 0.1592,
2632
+ "step": 874
2633
+ },
2634
+ {
2635
+ "epoch": 0.7013610888710968,
2636
+ "learning_rate": 1.99990235049015e-05,
2637
+ "loss": 0.4008,
2638
+ "step": 876
2639
+ },
2640
+ {
2641
+ "epoch": 0.7029623698959168,
2642
+ "learning_rate": 1.9998086099510433e-05,
2643
+ "loss": 0.1462,
2644
+ "step": 878
2645
+ },
2646
+ {
2647
+ "epoch": 0.7045636509207366,
2648
+ "learning_rate": 1.999683627122195e-05,
2649
+ "loss": 0.0401,
2650
+ "step": 880
2651
+ },
2652
+ {
2653
+ "epoch": 0.7061649319455564,
2654
+ "learning_rate": 1.999527405909102e-05,
2655
+ "loss": 0.1604,
2656
+ "step": 882
2657
+ },
2658
+ {
2659
+ "epoch": 0.7077662129703763,
2660
+ "learning_rate": 1.999339951193407e-05,
2661
+ "loss": 0.1657,
2662
+ "step": 884
2663
+ },
2664
+ {
2665
+ "epoch": 0.7093674939951962,
2666
+ "learning_rate": 1.9991212688327456e-05,
2667
+ "loss": 0.2581,
2668
+ "step": 886
2669
+ },
2670
+ {
2671
+ "epoch": 0.710968775020016,
2672
+ "learning_rate": 1.9988713656605635e-05,
2673
+ "loss": 0.0265,
2674
+ "step": 888
2675
+ },
2676
+ {
2677
+ "epoch": 0.7125700560448359,
2678
+ "learning_rate": 1.9985902494859026e-05,
2679
+ "loss": 0.0464,
2680
+ "step": 890
2681
+ },
2682
+ {
2683
+ "epoch": 0.7141713370696557,
2684
+ "learning_rate": 1.9982779290931572e-05,
2685
+ "loss": 0.0836,
2686
+ "step": 892
2687
+ },
2688
+ {
2689
+ "epoch": 0.7157726180944756,
2690
+ "learning_rate": 1.997934414241799e-05,
2691
+ "loss": 0.0439,
2692
+ "step": 894
2693
+ },
2694
+ {
2695
+ "epoch": 0.7173738991192954,
2696
+ "learning_rate": 1.997559715666073e-05,
2697
+ "loss": 0.0822,
2698
+ "step": 896
2699
+ },
2700
+ {
2701
+ "epoch": 0.7189751801441153,
2702
+ "learning_rate": 1.997153845074662e-05,
2703
+ "loss": 0.2426,
2704
+ "step": 898
2705
+ },
2706
+ {
2707
+ "epoch": 0.7205764611689351,
2708
+ "learning_rate": 1.9967168151503193e-05,
2709
+ "loss": 0.0023,
2710
+ "step": 900
2711
+ },
2712
+ {
2713
+ "epoch": 0.722177742193755,
2714
+ "learning_rate": 1.9962486395494753e-05,
2715
+ "loss": 0.114,
2716
+ "step": 902
2717
+ },
2718
+ {
2719
+ "epoch": 0.7237790232185749,
2720
+ "learning_rate": 1.9957493329018064e-05,
2721
+ "loss": 0.532,
2722
+ "step": 904
2723
+ },
2724
+ {
2725
+ "epoch": 0.7253803042433947,
2726
+ "learning_rate": 1.9952189108097825e-05,
2727
+ "loss": 0.4572,
2728
+ "step": 906
2729
+ },
2730
+ {
2731
+ "epoch": 0.7269815852682145,
2732
+ "learning_rate": 1.994657389848176e-05,
2733
+ "loss": 0.3566,
2734
+ "step": 908
2735
+ },
2736
+ {
2737
+ "epoch": 0.7285828662930345,
2738
+ "learning_rate": 1.9940647875635466e-05,
2739
+ "loss": 0.205,
2740
+ "step": 910
2741
+ },
2742
+ {
2743
+ "epoch": 0.7301841473178543,
2744
+ "learning_rate": 1.99344112247369e-05,
2745
+ "loss": 0.4722,
2746
+ "step": 912
2747
+ },
2748
+ {
2749
+ "epoch": 0.7317854283426741,
2750
+ "learning_rate": 1.9927864140670618e-05,
2751
+ "loss": 0.021,
2752
+ "step": 914
2753
+ },
2754
+ {
2755
+ "epoch": 0.733386709367494,
2756
+ "learning_rate": 1.9921006828021666e-05,
2757
+ "loss": 0.1926,
2758
+ "step": 916
2759
+ },
2760
+ {
2761
+ "epoch": 0.7349879903923139,
2762
+ "learning_rate": 1.9913839501069213e-05,
2763
+ "loss": 0.2962,
2764
+ "step": 918
2765
+ },
2766
+ {
2767
+ "epoch": 0.7365892714171337,
2768
+ "learning_rate": 1.9906362383779826e-05,
2769
+ "loss": 0.0869,
2770
+ "step": 920
2771
+ },
2772
+ {
2773
+ "epoch": 0.7381905524419535,
2774
+ "learning_rate": 1.989857570980049e-05,
2775
+ "loss": 0.0743,
2776
+ "step": 922
2777
+ },
2778
+ {
2779
+ "epoch": 0.7397918334667735,
2780
+ "learning_rate": 1.9890479722451292e-05,
2781
+ "loss": 0.3135,
2782
+ "step": 924
2783
+ },
2784
+ {
2785
+ "epoch": 0.7413931144915933,
2786
+ "learning_rate": 1.9882074674717832e-05,
2787
+ "loss": 1.2724,
2788
+ "step": 926
2789
+ },
2790
+ {
2791
+ "epoch": 0.7429943955164131,
2792
+ "learning_rate": 1.987336082924333e-05,
2793
+ "loss": 0.0381,
2794
+ "step": 928
2795
+ },
2796
+ {
2797
+ "epoch": 0.7445956765412329,
2798
+ "learning_rate": 1.986433845832037e-05,
2799
+ "loss": 0.6571,
2800
+ "step": 930
2801
+ },
2802
+ {
2803
+ "epoch": 0.7461969575660529,
2804
+ "learning_rate": 1.9855007843882437e-05,
2805
+ "loss": 0.1995,
2806
+ "step": 932
2807
+ },
2808
+ {
2809
+ "epoch": 0.7477982385908727,
2810
+ "learning_rate": 1.9845369277495105e-05,
2811
+ "loss": 0.1977,
2812
+ "step": 934
2813
+ },
2814
+ {
2815
+ "epoch": 0.7493995196156925,
2816
+ "learning_rate": 1.9835423060346892e-05,
2817
+ "loss": 0.3571,
2818
+ "step": 936
2819
+ },
2820
+ {
2821
+ "epoch": 0.7510008006405124,
2822
+ "learning_rate": 1.9825169503239885e-05,
2823
+ "loss": 0.1503,
2824
+ "step": 938
2825
+ },
2826
+ {
2827
+ "epoch": 0.7526020816653323,
2828
+ "learning_rate": 1.9814608926580007e-05,
2829
+ "loss": 0.2454,
2830
+ "step": 940
2831
+ },
2832
+ {
2833
+ "epoch": 0.7542033626901521,
2834
+ "learning_rate": 1.9803741660367018e-05,
2835
+ "loss": 0.2311,
2836
+ "step": 942
2837
+ },
2838
+ {
2839
+ "epoch": 0.755804643714972,
2840
+ "learning_rate": 1.979256804418418e-05,
2841
+ "loss": 0.0518,
2842
+ "step": 944
2843
+ },
2844
+ {
2845
+ "epoch": 0.7574059247397918,
2846
+ "learning_rate": 1.9781088427187677e-05,
2847
+ "loss": 0.3416,
2848
+ "step": 946
2849
+ },
2850
+ {
2851
+ "epoch": 0.7590072057646117,
2852
+ "learning_rate": 1.976930316809569e-05,
2853
+ "loss": 0.0772,
2854
+ "step": 948
2855
+ },
2856
+ {
2857
+ "epoch": 0.7606084867894315,
2858
+ "learning_rate": 1.9757212635177177e-05,
2859
+ "loss": 0.4751,
2860
+ "step": 950
2861
+ },
2862
+ {
2863
+ "epoch": 0.7622097678142514,
2864
+ "learning_rate": 1.9744817206240374e-05,
2865
+ "loss": 0.4526,
2866
+ "step": 952
2867
+ },
2868
+ {
2869
+ "epoch": 0.7638110488390712,
2870
+ "learning_rate": 1.9732117268621005e-05,
2871
+ "loss": 0.3096,
2872
+ "step": 954
2873
+ },
2874
+ {
2875
+ "epoch": 0.7654123298638911,
2876
+ "learning_rate": 1.9719113219170152e-05,
2877
+ "loss": 0.2254,
2878
+ "step": 956
2879
+ },
2880
+ {
2881
+ "epoch": 0.767013610888711,
2882
+ "learning_rate": 1.970580546424186e-05,
2883
+ "loss": 0.1723,
2884
+ "step": 958
2885
+ },
2886
+ {
2887
+ "epoch": 0.7686148919135308,
2888
+ "learning_rate": 1.9692194419680463e-05,
2889
+ "loss": 0.6533,
2890
+ "step": 960
2891
+ },
2892
+ {
2893
+ "epoch": 0.7702161729383507,
2894
+ "learning_rate": 1.9678280510807552e-05,
2895
+ "loss": 0.281,
2896
+ "step": 962
2897
+ },
2898
+ {
2899
+ "epoch": 0.7718174539631706,
2900
+ "learning_rate": 1.966406417240872e-05,
2901
+ "loss": 0.399,
2902
+ "step": 964
2903
+ },
2904
+ {
2905
+ "epoch": 0.7734187349879904,
2906
+ "learning_rate": 1.964954584871995e-05,
2907
+ "loss": 0.228,
2908
+ "step": 966
2909
+ },
2910
+ {
2911
+ "epoch": 0.7750200160128102,
2912
+ "learning_rate": 1.9634725993413744e-05,
2913
+ "loss": 0.5152,
2914
+ "step": 968
2915
+ },
2916
+ {
2917
+ "epoch": 0.77662129703763,
2918
+ "learning_rate": 1.9619605069584954e-05,
2919
+ "loss": 0.1713,
2920
+ "step": 970
2921
+ },
2922
+ {
2923
+ "epoch": 0.77822257806245,
2924
+ "learning_rate": 1.9604183549736287e-05,
2925
+ "loss": 0.2849,
2926
+ "step": 972
2927
+ },
2928
+ {
2929
+ "epoch": 0.7798238590872698,
2930
+ "learning_rate": 1.958846191576357e-05,
2931
+ "loss": 0.2035,
2932
+ "step": 974
2933
+ },
2934
+ {
2935
+ "epoch": 0.7814251401120896,
2936
+ "learning_rate": 1.9572440658940667e-05,
2937
+ "loss": 0.0795,
2938
+ "step": 976
2939
+ },
2940
+ {
2941
+ "epoch": 0.7830264211369096,
2942
+ "learning_rate": 1.955612027990415e-05,
2943
+ "loss": 0.177,
2944
+ "step": 978
2945
+ },
2946
+ {
2947
+ "epoch": 0.7846277021617294,
2948
+ "learning_rate": 1.953950128863763e-05,
2949
+ "loss": 0.2624,
2950
+ "step": 980
2951
+ },
2952
+ {
2953
+ "epoch": 0.7862289831865492,
2954
+ "learning_rate": 1.9522584204455835e-05,
2955
+ "loss": 0.2466,
2956
+ "step": 982
2957
+ },
2958
+ {
2959
+ "epoch": 0.7878302642113691,
2960
+ "learning_rate": 1.9505369555988395e-05,
2961
+ "loss": 0.1225,
2962
+ "step": 984
2963
+ },
2964
+ {
2965
+ "epoch": 0.789431545236189,
2966
+ "learning_rate": 1.9487857881163295e-05,
2967
+ "loss": 0.1407,
2968
+ "step": 986
2969
+ },
2970
+ {
2971
+ "epoch": 0.7910328262610088,
2972
+ "learning_rate": 1.947004972719008e-05,
2973
+ "loss": 0.5051,
2974
+ "step": 988
2975
+ },
2976
+ {
2977
+ "epoch": 0.7926341072858286,
2978
+ "learning_rate": 1.945194565054276e-05,
2979
+ "loss": 0.1115,
2980
+ "step": 990
2981
+ },
2982
+ {
2983
+ "epoch": 0.7942353883106485,
2984
+ "learning_rate": 1.9433546216942433e-05,
2985
+ "loss": 0.0047,
2986
+ "step": 992
2987
+ },
2988
+ {
2989
+ "epoch": 0.7958366693354684,
2990
+ "learning_rate": 1.941485200133955e-05,
2991
+ "loss": 0.4239,
2992
+ "step": 994
2993
+ },
2994
+ {
2995
+ "epoch": 0.7974379503602882,
2996
+ "learning_rate": 1.9395863587896025e-05,
2997
+ "loss": 0.4847,
2998
+ "step": 996
2999
+ },
3000
+ {
3001
+ "epoch": 0.7990392313851081,
3002
+ "learning_rate": 1.937658156996694e-05,
3003
+ "loss": 0.3656,
3004
+ "step": 998
3005
+ },
3006
+ {
3007
+ "epoch": 0.800640512409928,
3008
+ "learning_rate": 1.9357006550082e-05,
3009
+ "loss": 0.1793,
3010
+ "step": 1000
3011
+ },
3012
+ {
3013
+ "epoch": 0.8022417934347478,
3014
+ "learning_rate": 1.933713913992671e-05,
3015
+ "loss": 0.1453,
3016
+ "step": 1002
3017
+ },
3018
+ {
3019
+ "epoch": 0.8038430744595677,
3020
+ "learning_rate": 1.9316979960323283e-05,
3021
+ "loss": 0.7052,
3022
+ "step": 1004
3023
+ },
3024
+ {
3025
+ "epoch": 0.8054443554843875,
3026
+ "learning_rate": 1.9296529641211226e-05,
3027
+ "loss": 0.1244,
3028
+ "step": 1006
3029
+ },
3030
+ {
3031
+ "epoch": 0.8070456365092074,
3032
+ "learning_rate": 1.9275788821627607e-05,
3033
+ "loss": 0.374,
3034
+ "step": 1008
3035
+ },
3036
+ {
3037
+ "epoch": 0.8086469175340272,
3038
+ "learning_rate": 1.9254758149687187e-05,
3039
+ "loss": 0.3294,
3040
+ "step": 1010
3041
+ },
3042
+ {
3043
+ "epoch": 0.8102481985588471,
3044
+ "learning_rate": 1.9233438282562095e-05,
3045
+ "loss": 0.0984,
3046
+ "step": 1012
3047
+ },
3048
+ {
3049
+ "epoch": 0.8118494795836669,
3050
+ "learning_rate": 1.9211829886461278e-05,
3051
+ "loss": 0.3529,
3052
+ "step": 1014
3053
+ },
3054
+ {
3055
+ "epoch": 0.8134507606084868,
3056
+ "learning_rate": 1.918993363660975e-05,
3057
+ "loss": 0.1602,
3058
+ "step": 1016
3059
+ },
3060
+ {
3061
+ "epoch": 0.8150520416333067,
3062
+ "learning_rate": 1.916775021722745e-05,
3063
+ "loss": 0.1997,
3064
+ "step": 1018
3065
+ },
3066
+ {
3067
+ "epoch": 0.8166533226581265,
3068
+ "learning_rate": 1.9145280321507872e-05,
3069
+ "loss": 0.5403,
3070
+ "step": 1020
3071
+ },
3072
+ {
3073
+ "epoch": 0.8182546036829463,
3074
+ "learning_rate": 1.9122524651596372e-05,
3075
+ "loss": 0.0639,
3076
+ "step": 1022
3077
+ },
3078
+ {
3079
+ "epoch": 0.8198558847077662,
3080
+ "learning_rate": 1.9099483918568287e-05,
3081
+ "loss": 0.1201,
3082
+ "step": 1024
3083
+ },
3084
+ {
3085
+ "epoch": 0.8214571657325861,
3086
+ "learning_rate": 1.907615884240668e-05,
3087
+ "loss": 0.0731,
3088
+ "step": 1026
3089
+ },
3090
+ {
3091
+ "epoch": 0.8230584467574059,
3092
+ "learning_rate": 1.905255015197982e-05,
3093
+ "loss": 0.1547,
3094
+ "step": 1028
3095
+ },
3096
+ {
3097
+ "epoch": 0.8246597277822257,
3098
+ "learning_rate": 1.902865858501845e-05,
3099
+ "loss": 0.1453,
3100
+ "step": 1030
3101
+ },
3102
+ {
3103
+ "epoch": 0.8262610088070457,
3104
+ "learning_rate": 1.9004484888092734e-05,
3105
+ "loss": 0.3729,
3106
+ "step": 1032
3107
+ },
3108
+ {
3109
+ "epoch": 0.8278622898318655,
3110
+ "learning_rate": 1.8980029816588863e-05,
3111
+ "loss": 0.2768,
3112
+ "step": 1034
3113
+ },
3114
+ {
3115
+ "epoch": 0.8294635708566853,
3116
+ "learning_rate": 1.8955294134685528e-05,
3117
+ "loss": 0.205,
3118
+ "step": 1036
3119
+ },
3120
+ {
3121
+ "epoch": 0.8310648518815053,
3122
+ "learning_rate": 1.893027861533003e-05,
3123
+ "loss": 0.9087,
3124
+ "step": 1038
3125
+ },
3126
+ {
3127
+ "epoch": 0.8326661329063251,
3128
+ "learning_rate": 1.8904984040214043e-05,
3129
+ "loss": 0.1169,
3130
+ "step": 1040
3131
+ },
3132
+ {
3133
+ "epoch": 0.8342674139311449,
3134
+ "learning_rate": 1.8879411199749306e-05,
3135
+ "loss": 0.629,
3136
+ "step": 1042
3137
+ },
3138
+ {
3139
+ "epoch": 0.8358686949559647,
3140
+ "learning_rate": 1.885356089304285e-05,
3141
+ "loss": 0.323,
3142
+ "step": 1044
3143
+ },
3144
+ {
3145
+ "epoch": 0.8374699759807847,
3146
+ "learning_rate": 1.882743392787207e-05,
3147
+ "loss": 0.1265,
3148
+ "step": 1046
3149
+ },
3150
+ {
3151
+ "epoch": 0.8390712570056045,
3152
+ "learning_rate": 1.8801031120659396e-05,
3153
+ "loss": 0.0609,
3154
+ "step": 1048
3155
+ },
3156
+ {
3157
+ "epoch": 0.8406725380304243,
3158
+ "learning_rate": 1.877435329644691e-05,
3159
+ "loss": 0.2982,
3160
+ "step": 1050
3161
+ },
3162
+ {
3163
+ "epoch": 0.8422738190552442,
3164
+ "learning_rate": 1.8747401288870482e-05,
3165
+ "loss": 0.2404,
3166
+ "step": 1052
3167
+ },
3168
+ {
3169
+ "epoch": 0.8438751000800641,
3170
+ "learning_rate": 1.8720175940133712e-05,
3171
+ "loss": 0.2915,
3172
+ "step": 1054
3173
+ },
3174
+ {
3175
+ "epoch": 0.8454763811048839,
3176
+ "learning_rate": 1.8692678100981663e-05,
3177
+ "loss": 0.0284,
3178
+ "step": 1056
3179
+ },
3180
+ {
3181
+ "epoch": 0.8470776621297038,
3182
+ "learning_rate": 1.8664908630674264e-05,
3183
+ "loss": 0.4157,
3184
+ "step": 1058
3185
+ },
3186
+ {
3187
+ "epoch": 0.8486789431545236,
3188
+ "learning_rate": 1.8636868396959406e-05,
3189
+ "loss": 0.2116,
3190
+ "step": 1060
3191
+ },
3192
+ {
3193
+ "epoch": 0.8502802241793435,
3194
+ "learning_rate": 1.8608558276045898e-05,
3195
+ "loss": 0.1604,
3196
+ "step": 1062
3197
+ },
3198
+ {
3199
+ "epoch": 0.8518815052041633,
3200
+ "learning_rate": 1.8579979152576076e-05,
3201
+ "loss": 0.196,
3202
+ "step": 1064
3203
+ },
3204
+ {
3205
+ "epoch": 0.8534827862289832,
3206
+ "learning_rate": 1.8551131919598084e-05,
3207
+ "loss": 0.1915,
3208
+ "step": 1066
3209
+ },
3210
+ {
3211
+ "epoch": 0.855084067253803,
3212
+ "learning_rate": 1.852201747853807e-05,
3213
+ "loss": 0.2589,
3214
+ "step": 1068
3215
+ },
3216
+ {
3217
+ "epoch": 0.8566853482786229,
3218
+ "learning_rate": 1.849263673917196e-05,
3219
+ "loss": 0.3002,
3220
+ "step": 1070
3221
+ },
3222
+ {
3223
+ "epoch": 0.8582866293034428,
3224
+ "learning_rate": 1.846299061959706e-05,
3225
+ "loss": 0.1926,
3226
+ "step": 1072
3227
+ },
3228
+ {
3229
+ "epoch": 0.8598879103282626,
3230
+ "learning_rate": 1.8433080046203293e-05,
3231
+ "loss": 0.4974,
3232
+ "step": 1074
3233
+ },
3234
+ {
3235
+ "epoch": 0.8614891913530824,
3236
+ "learning_rate": 1.8402905953644356e-05,
3237
+ "loss": 0.3675,
3238
+ "step": 1076
3239
+ },
3240
+ {
3241
+ "epoch": 0.8630904723779024,
3242
+ "learning_rate": 1.837246928480848e-05,
3243
+ "loss": 0.1309,
3244
+ "step": 1078
3245
+ },
3246
+ {
3247
+ "epoch": 0.8646917534027222,
3248
+ "learning_rate": 1.8341770990788874e-05,
3249
+ "loss": 0.1405,
3250
+ "step": 1080
3251
+ },
3252
+ {
3253
+ "epoch": 0.866293034427542,
3254
+ "learning_rate": 1.831081203085415e-05,
3255
+ "loss": 0.088,
3256
+ "step": 1082
3257
+ },
3258
+ {
3259
+ "epoch": 0.8678943154523618,
3260
+ "learning_rate": 1.8279593372418284e-05,
3261
+ "loss": 0.3894,
3262
+ "step": 1084
3263
+ },
3264
+ {
3265
+ "epoch": 0.8694955964771818,
3266
+ "learning_rate": 1.8248115991010303e-05,
3267
+ "loss": 0.1894,
3268
+ "step": 1086
3269
+ },
3270
+ {
3271
+ "epoch": 0.8710968775020016,
3272
+ "learning_rate": 1.8216380870243963e-05,
3273
+ "loss": 0.1194,
3274
+ "step": 1088
3275
+ },
3276
+ {
3277
+ "epoch": 0.8726981585268214,
3278
+ "learning_rate": 1.8184389001786912e-05,
3279
+ "loss": 0.4904,
3280
+ "step": 1090
3281
+ },
3282
+ {
3283
+ "epoch": 0.8742994395516414,
3284
+ "learning_rate": 1.815214138532966e-05,
3285
+ "loss": 0.3006,
3286
+ "step": 1092
3287
+ },
3288
+ {
3289
+ "epoch": 0.8759007205764612,
3290
+ "learning_rate": 1.8119639028554475e-05,
3291
+ "loss": 0.0661,
3292
+ "step": 1094
3293
+ },
3294
+ {
3295
+ "epoch": 0.877502001601281,
3296
+ "learning_rate": 1.808688294710378e-05,
3297
+ "loss": 0.4522,
3298
+ "step": 1096
3299
+ },
3300
+ {
3301
+ "epoch": 0.8791032826261009,
3302
+ "learning_rate": 1.805387416454849e-05,
3303
+ "loss": 1.0015,
3304
+ "step": 1098
3305
+ },
3306
+ {
3307
+ "epoch": 0.8807045636509208,
3308
+ "learning_rate": 1.802061371235592e-05,
3309
+ "loss": 0.0829,
3310
+ "step": 1100
3311
+ },
3312
+ {
3313
+ "epoch": 0.8823058446757406,
3314
+ "learning_rate": 1.7987102629857692e-05,
3315
+ "loss": 0.0227,
3316
+ "step": 1102
3317
+ },
3318
+ {
3319
+ "epoch": 0.8839071257005604,
3320
+ "learning_rate": 1.7953341964217196e-05,
3321
+ "loss": 0.0373,
3322
+ "step": 1104
3323
+ },
3324
+ {
3325
+ "epoch": 0.8855084067253803,
3326
+ "learning_rate": 1.7919332770396798e-05,
3327
+ "loss": 0.3724,
3328
+ "step": 1106
3329
+ },
3330
+ {
3331
+ "epoch": 0.8871096877502002,
3332
+ "learning_rate": 1.7885076111125e-05,
3333
+ "loss": 0.0994,
3334
+ "step": 1108
3335
+ },
3336
+ {
3337
+ "epoch": 0.88871096877502,
3338
+ "learning_rate": 1.7850573056863173e-05,
3339
+ "loss": 0.7036,
3340
+ "step": 1110
3341
+ },
3342
+ {
3343
+ "epoch": 0.8903122497998399,
3344
+ "learning_rate": 1.7815824685772042e-05,
3345
+ "loss": 0.1373,
3346
+ "step": 1112
3347
+ },
3348
+ {
3349
+ "epoch": 0.8919135308246597,
3350
+ "learning_rate": 1.7780832083678122e-05,
3351
+ "loss": 0.1676,
3352
+ "step": 1114
3353
+ },
3354
+ {
3355
+ "epoch": 0.8935148118494796,
3356
+ "learning_rate": 1.774559634403971e-05,
3357
+ "loss": 0.6738,
3358
+ "step": 1116
3359
+ },
3360
+ {
3361
+ "epoch": 0.8951160928742994,
3362
+ "learning_rate": 1.7710118567912732e-05,
3363
+ "loss": 0.1152,
3364
+ "step": 1118
3365
+ },
3366
+ {
3367
+ "epoch": 0.8967173738991193,
3368
+ "learning_rate": 1.7674399863916298e-05,
3369
+ "loss": 0.265,
3370
+ "step": 1120
3371
+ },
3372
+ {
3373
+ "epoch": 0.8983186549239391,
3374
+ "learning_rate": 1.7638441348198144e-05,
3375
+ "loss": 0.3219,
3376
+ "step": 1122
3377
+ },
3378
+ {
3379
+ "epoch": 0.899919935948759,
3380
+ "learning_rate": 1.7602244144399713e-05,
3381
+ "loss": 0.7533,
3382
+ "step": 1124
3383
+ },
3384
+ {
3385
+ "epoch": 0.9015212169735789,
3386
+ "learning_rate": 1.7565809383620966e-05,
3387
+ "loss": 0.3681,
3388
+ "step": 1126
3389
+ },
3390
+ {
3391
+ "epoch": 0.9031224979983987,
3392
+ "learning_rate": 1.7529138204385186e-05,
3393
+ "loss": 0.438,
3394
+ "step": 1128
3395
+ },
3396
+ {
3397
+ "epoch": 0.9047237790232185,
3398
+ "learning_rate": 1.7492231752603305e-05,
3399
+ "loss": 0.1269,
3400
+ "step": 1130
3401
+ },
3402
+ {
3403
+ "epoch": 0.9063250600480385,
3404
+ "learning_rate": 1.7455091181538094e-05,
3405
+ "loss": 0.246,
3406
+ "step": 1132
3407
+ },
3408
+ {
3409
+ "epoch": 0.9079263410728583,
3410
+ "learning_rate": 1.741771765176815e-05,
3411
+ "loss": 0.3602,
3412
+ "step": 1134
3413
+ },
3414
+ {
3415
+ "epoch": 0.9095276220976781,
3416
+ "learning_rate": 1.7380112331151657e-05,
3417
+ "loss": 0.3644,
3418
+ "step": 1136
3419
+ },
3420
+ {
3421
+ "epoch": 0.911128903122498,
3422
+ "learning_rate": 1.7342276394789825e-05,
3423
+ "loss": 0.1733,
3424
+ "step": 1138
3425
+ },
3426
+ {
3427
+ "epoch": 0.9127301841473179,
3428
+ "learning_rate": 1.7304211024990216e-05,
3429
+ "loss": 0.3662,
3430
+ "step": 1140
3431
+ },
3432
+ {
3433
+ "epoch": 0.9143314651721377,
3434
+ "learning_rate": 1.7265917411229803e-05,
3435
+ "loss": 0.2163,
3436
+ "step": 1142
3437
+ },
3438
+ {
3439
+ "epoch": 0.9159327461969575,
3440
+ "learning_rate": 1.7227396750117802e-05,
3441
+ "loss": 0.0666,
3442
+ "step": 1144
3443
+ },
3444
+ {
3445
+ "epoch": 0.9175340272217775,
3446
+ "learning_rate": 1.718865024535822e-05,
3447
+ "loss": 0.5219,
3448
+ "step": 1146
3449
+ },
3450
+ {
3451
+ "epoch": 0.9191353082465973,
3452
+ "learning_rate": 1.7149679107712317e-05,
3453
+ "loss": 0.459,
3454
+ "step": 1148
3455
+ },
3456
+ {
3457
+ "epoch": 0.9207365892714171,
3458
+ "learning_rate": 1.711048455496075e-05,
3459
+ "loss": 0.4002,
3460
+ "step": 1150
3461
+ },
3462
+ {
3463
+ "epoch": 0.922337870296237,
3464
+ "learning_rate": 1.7071067811865474e-05,
3465
+ "loss": 0.2244,
3466
+ "step": 1152
3467
+ },
3468
+ {
3469
+ "epoch": 0.9239391513210569,
3470
+ "learning_rate": 1.7031430110131566e-05,
3471
+ "loss": 0.3854,
3472
+ "step": 1154
3473
+ },
3474
+ {
3475
+ "epoch": 0.9255404323458767,
3476
+ "learning_rate": 1.699157268836863e-05,
3477
+ "loss": 0.1912,
3478
+ "step": 1156
3479
+ },
3480
+ {
3481
+ "epoch": 0.9271417133706965,
3482
+ "learning_rate": 1.6951496792052148e-05,
3483
+ "loss": 0.3037,
3484
+ "step": 1158
3485
+ },
3486
+ {
3487
+ "epoch": 0.9287429943955164,
3488
+ "learning_rate": 1.6911203673484583e-05,
3489
+ "loss": 0.3624,
3490
+ "step": 1160
3491
+ },
3492
+ {
3493
+ "epoch": 0.9303442754203363,
3494
+ "learning_rate": 1.687069459175619e-05,
3495
+ "loss": 0.2524,
3496
+ "step": 1162
3497
+ },
3498
+ {
3499
+ "epoch": 0.9319455564451561,
3500
+ "learning_rate": 1.682997081270568e-05,
3501
+ "loss": 0.2356,
3502
+ "step": 1164
3503
+ },
3504
+ {
3505
+ "epoch": 0.933546837469976,
3506
+ "learning_rate": 1.6789033608880742e-05,
3507
+ "loss": 0.4152,
3508
+ "step": 1166
3509
+ },
3510
+ {
3511
+ "epoch": 0.9351481184947958,
3512
+ "learning_rate": 1.6747884259498185e-05,
3513
+ "loss": 0.3348,
3514
+ "step": 1168
3515
+ },
3516
+ {
3517
+ "epoch": 0.9367493995196157,
3518
+ "learning_rate": 1.6706524050404006e-05,
3519
+ "loss": 0.2385,
3520
+ "step": 1170
3521
+ },
3522
+ {
3523
+ "epoch": 0.9383506805444356,
3524
+ "learning_rate": 1.6664954274033175e-05,
3525
+ "loss": 0.2656,
3526
+ "step": 1172
3527
+ },
3528
+ {
3529
+ "epoch": 0.9399519615692554,
3530
+ "learning_rate": 1.662317622936933e-05,
3531
+ "loss": 0.1864,
3532
+ "step": 1174
3533
+ },
3534
+ {
3535
+ "epoch": 0.9415532425940752,
3536
+ "learning_rate": 1.6581191221904098e-05,
3537
+ "loss": 0.0389,
3538
+ "step": 1176
3539
+ },
3540
+ {
3541
+ "epoch": 0.9431545236188951,
3542
+ "learning_rate": 1.6539000563596328e-05,
3543
+ "loss": 0.3571,
3544
+ "step": 1178
3545
+ },
3546
+ {
3547
+ "epoch": 0.944755804643715,
3548
+ "learning_rate": 1.6496605572831127e-05,
3549
+ "loss": 0.2997,
3550
+ "step": 1180
3551
+ },
3552
+ {
3553
+ "epoch": 0.9463570856685348,
3554
+ "learning_rate": 1.6454007574378657e-05,
3555
+ "loss": 0.0873,
3556
+ "step": 1182
3557
+ },
3558
+ {
3559
+ "epoch": 0.9479583666933546,
3560
+ "learning_rate": 1.6411207899352633e-05,
3561
+ "loss": 0.3684,
3562
+ "step": 1184
3563
+ },
3564
+ {
3565
+ "epoch": 0.9495596477181746,
3566
+ "learning_rate": 1.6368207885168904e-05,
3567
+ "loss": 0.8584,
3568
+ "step": 1186
3569
+ },
3570
+ {
3571
+ "epoch": 0.9511609287429944,
3572
+ "learning_rate": 1.6325008875503563e-05,
3573
+ "loss": 0.0825,
3574
+ "step": 1188
3575
+ },
3576
+ {
3577
+ "epoch": 0.9527622097678142,
3578
+ "learning_rate": 1.628161222025089e-05,
3579
+ "loss": 0.3448,
3580
+ "step": 1190
3581
+ },
3582
+ {
3583
+ "epoch": 0.9543634907926342,
3584
+ "learning_rate": 1.623801927548132e-05,
3585
+ "loss": 0.0754,
3586
+ "step": 1192
3587
+ },
3588
+ {
3589
+ "epoch": 0.955964771817454,
3590
+ "learning_rate": 1.6194231403398987e-05,
3591
+ "loss": 0.2999,
3592
+ "step": 1194
3593
+ },
3594
+ {
3595
+ "epoch": 0.9575660528422738,
3596
+ "learning_rate": 1.6150249972299173e-05,
3597
+ "loss": 0.0235,
3598
+ "step": 1196
3599
+ },
3600
+ {
3601
+ "epoch": 0.9591673338670936,
3602
+ "learning_rate": 1.6106076356525484e-05,
3603
+ "loss": 0.3246,
3604
+ "step": 1198
3605
+ },
3606
+ {
3607
+ "epoch": 0.9607686148919136,
3608
+ "learning_rate": 1.6061711936427028e-05,
3609
+ "loss": 0.3452,
3610
+ "step": 1200
3611
+ },
3612
+ {
3613
+ "epoch": 0.9623698959167334,
3614
+ "learning_rate": 1.6017158098315224e-05,
3615
+ "loss": 0.1659,
3616
+ "step": 1202
3617
+ },
3618
+ {
3619
+ "epoch": 0.9639711769415532,
3620
+ "learning_rate": 1.5972416234420404e-05,
3621
+ "loss": 0.1711,
3622
+ "step": 1204
3623
+ },
3624
+ {
3625
+ "epoch": 0.9655724579663731,
3626
+ "learning_rate": 1.592748774284844e-05,
3627
+ "loss": 0.2315,
3628
+ "step": 1206
3629
+ },
3630
+ {
3631
+ "epoch": 0.967173738991193,
3632
+ "learning_rate": 1.588237402753703e-05,
3633
+ "loss": 0.3712,
3634
+ "step": 1208
3635
+ },
3636
+ {
3637
+ "epoch": 0.9687750200160128,
3638
+ "learning_rate": 1.5837076498211673e-05,
3639
+ "loss": 0.2155,
3640
+ "step": 1210
3641
+ },
3642
+ {
3643
+ "epoch": 0.9703763010408326,
3644
+ "learning_rate": 1.579159657034185e-05,
3645
+ "loss": 0.1708,
3646
+ "step": 1212
3647
+ },
3648
+ {
3649
+ "epoch": 0.9719775820656525,
3650
+ "learning_rate": 1.574593566509664e-05,
3651
+ "loss": 0.218,
3652
+ "step": 1214
3653
+ },
3654
+ {
3655
+ "epoch": 0.9735788630904724,
3656
+ "learning_rate": 1.5700095209300386e-05,
3657
+ "loss": 0.3061,
3658
+ "step": 1216
3659
+ },
3660
+ {
3661
+ "epoch": 0.9751801441152922,
3662
+ "learning_rate": 1.5654076635387976e-05,
3663
+ "loss": 0.3219,
3664
+ "step": 1218
3665
+ },
3666
+ {
3667
+ "epoch": 0.9767814251401121,
3668
+ "learning_rate": 1.560788138136029e-05,
3669
+ "loss": 0.2066,
3670
+ "step": 1220
3671
+ },
3672
+ {
3673
+ "epoch": 0.978382706164932,
3674
+ "learning_rate": 1.5561510890739137e-05,
3675
+ "loss": 0.0483,
3676
+ "step": 1222
3677
+ },
3678
+ {
3679
+ "epoch": 0.9799839871897518,
3680
+ "learning_rate": 1.5514966612522088e-05,
3681
+ "loss": 0.338,
3682
+ "step": 1224
3683
+ },
3684
+ {
3685
+ "epoch": 0.9815852682145717,
3686
+ "learning_rate": 1.546825000113736e-05,
3687
+ "loss": 0.1178,
3688
+ "step": 1226
3689
+ },
3690
+ {
3691
+ "epoch": 0.9831865492393915,
3692
+ "learning_rate": 1.5421362516398285e-05,
3693
+ "loss": 0.0207,
3694
+ "step": 1228
3695
+ },
3696
+ {
3697
+ "epoch": 0.9847878302642114,
3698
+ "learning_rate": 1.5374305623457605e-05,
3699
+ "loss": 0.0918,
3700
+ "step": 1230
3701
+ },
3702
+ {
3703
+ "epoch": 0.9863891112890312,
3704
+ "learning_rate": 1.532708079276186e-05,
3705
+ "loss": 0.4725,
3706
+ "step": 1232
3707
+ },
3708
+ {
3709
+ "epoch": 0.9879903923138511,
3710
+ "learning_rate": 1.5279689500005353e-05,
3711
+ "loss": 0.1675,
3712
+ "step": 1234
3713
+ },
3714
+ {
3715
+ "epoch": 0.9895916733386709,
3716
+ "learning_rate": 1.5232133226083962e-05,
3717
+ "loss": 0.0769,
3718
+ "step": 1236
3719
+ },
3720
+ {
3721
+ "epoch": 0.9911929543634908,
3722
+ "learning_rate": 1.5184413457049014e-05,
3723
+ "loss": 0.1771,
3724
+ "step": 1238
3725
+ },
3726
+ {
3727
+ "epoch": 0.9927942353883107,
3728
+ "learning_rate": 1.5136531684060753e-05,
3729
+ "loss": 0.1841,
3730
+ "step": 1240
3731
+ },
3732
+ {
3733
+ "epoch": 0.9943955164131305,
3734
+ "learning_rate": 1.50884894033418e-05,
3735
+ "loss": 0.1286,
3736
+ "step": 1242
3737
+ },
3738
+ {
3739
+ "epoch": 0.9959967974379503,
3740
+ "learning_rate": 1.504028811613027e-05,
3741
+ "loss": 0.1521,
3742
+ "step": 1244
3743
+ },
3744
+ {
3745
+ "epoch": 0.9975980784627703,
3746
+ "learning_rate": 1.4991929328633043e-05,
3747
+ "loss": 0.0993,
3748
+ "step": 1246
3749
+ },
3750
+ {
3751
+ "epoch": 0.9991993594875901,
3752
+ "learning_rate": 1.4943414551978622e-05,
3753
+ "loss": 1.0781,
3754
+ "step": 1248
3755
+ },
3756
+ {
3757
+ "epoch": 1.0,
3758
+ "step": 1249,
3759
+ "total_flos": 7716239844573184.0,
3760
+ "train_loss": 0.25484217935285286,
3761
+ "train_runtime": 2013.0633,
3762
+ "train_samples_per_second": 9.927,
3763
+ "train_steps_per_second": 0.62
3764
+ }
3765
+ ],
3766
+ "logging_steps": 2,
3767
+ "max_steps": 1249,
3768
+ "num_input_tokens_seen": 0,
3769
+ "num_train_epochs": 1,
3770
+ "save_steps": 500,
3771
+ "stateful_callbacks": {},
3772
+ "total_flos": 7716239844573184.0,
3773
+ "train_batch_size": 1,
3774
+ "trial_name": null,
3775
+ "trial_params": null
3776
+ }
client_states_v9_NEURIPS_DISJOINT_Memonly_LORA_llava_lr2e-5_bs1_gradacc32_iter0_125_sft_scenario12_new_10000_random0_0625_seed1/server_model_round0.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:869e2e62bc69ef9c3492bbcedbd2ab2239d0c34a87e1be44dea1be9a5549a443
3
+ size 639793378
client_states_v9_NEURIPS_DISJOINT_Memonly_LORA_llava_lr2e-5_bs1_gradacc32_iter0_125_sft_scenario12_new_10000_random0_0625_seed1/server_model_round1.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8dbd491d2a6d2cfdd487bbd2499573b31c5a4366c7ea2b890d67aab5efdcca87
3
+ size 639793378
client_states_v9_NEURIPS_DISJOINT_Memonly_LORA_llava_lr2e-5_bs1_gradacc32_iter0_125_sft_scenario12_new_10000_random0_0625_seed1/server_model_round2.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8369f289e19c0d10b1b825b4ded821e564f892cacc4eef187078f79bc56b740d
3
+ size 639793378
client_states_v9_NEURIPS_DISJOINT_Memonly_LORA_llava_lr2e-5_bs1_gradacc32_iter0_125_sft_scenario12_new_10000_random0_0625_seed1/server_model_round3.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a0ef5c39ebe1bb987f228f5bccd58021a45d7193f451c8f3bf7de1fc398d6e5c
3
+ size 639793378