tangledgroup
/

tangled-alpha-0.1-core

@@ -63,12 +63,11 @@ train:
   log_interval: 1
   # Number of samples between optimizer steps across data-parallel ranks (type: int, default: 512)
-  global_batch_size: 512
-  # global_batch_size: 256
   # Number of samples per data-parallel rank (type: int, default: 4)
-  # micro_batch_size: 4
-  micro_batch_size: 3
   # micro_batch_size: 2
   # micro_batch_size: 1

   log_interval: 1
   # Number of samples between optimizer steps across data-parallel ranks (type: int, default: 512)
+  # global_batch_size: 512
+  global_batch_size: 256
   # Number of samples per data-parallel rank (type: int, default: 4)
+  micro_batch_size: 4
   # micro_batch_size: 2
   # micro_batch_size: 1