Spaces:

lucalp
/

byte-latent-transformer-flops

Running

App Files Files Community

lucalp commited on Jun 22

Commit

515c5ed

1 Parent(s): 86aec55

drop down

Browse files

Files changed (1) hide show

app.py +20 -19

app.py CHANGED Viewed

@@ -108,14 +108,12 @@ def create_visualization(blt_ps, d_model_slider, local_n_layers_slider):
     # Local Component Transformer Part: 12 * N_local * D_local^2 + 2 * V_local * D_local
     blt_local_transformer_params = (12 * local_n_layers_slider * local_d_model**2) + \
-                                   (2 * local_n_vocab * local_d_model)
     # Local Component Cross-Attention Part: N_local * 4 * D_local^2 (estimated)
     blt_local_ca_params = local_n_layers_slider * 4 * local_d_model**2
     blt_local_total_internal_params = blt_local_transformer_params + blt_local_ca_params
-    # blt_total_model_params = blt_global_internal_params + blt_local_total_internal_params # Kept for potential other uses, not directly for this annotation
     bpe_params_str = format_params_display(bpe_model_params)
     # Format BLT global and local parameters separately
@@ -283,7 +281,7 @@ with gr.Blocks(title="BLT vs BPE FLOPs Comparison") as demo:
                 minimum=2,
                 maximum=24, # Max value for local_n_layers
                 value=10,
-                step=2,     # Ensure even numbers for CA split
                 label="Local Model Layers (local_n_layers)",
                 info="Number of layers in the BLT's local model"
             )
@@ -300,21 +298,24 @@ with gr.Blocks(title="BLT vs BPE FLOPs Comparison") as demo:
     fully compare BPE-based transformers and BLT, you'll need to investigate those
     claims in the paper itself.
             """)
-            gr.Markdown("### Fixed Parameters")
-            gr.Markdown(f"""
-            - **BPE's bytes per token (bpe_ps)**: {bpe_ps}
-            - **BPE/BLT Global - Num Layers (n_layers)**: {n_layers}
-            - **BPE/BLT Global - Num Heads (n_heads)**: {n_heads}
-            - **BPE - Vocabulary Size (n_vocab)**: {n_vocab:,}
-            - **BPE/BLT - Context Length (n_ctx_base)**: {n_ctx_base:,} bytes
-            - **BLT Local - Model Dimension (local_d_model)**: {local_d_model}
-            - **BLT Local - Num Heads (local_n_heads)**: {local_n_heads}
-            - **BLT Local - Vocabulary Size (local_n_vocab)**: {local_n_vocab}
-            - **BLT Local - FF Multiplier (local_d_ff_multiplier)**: {local_d_ff_multiplier}
-            """)
-            gr.Markdown("### Current Values & Totals")
-            info_text = gr.Markdown("")
         with gr.Column(scale=2):
             plot = gr.Plot(label="FLOPs Comparison & Model Parameters")
@@ -328,7 +329,7 @@ with gr.Blocks(title="BLT vs BPE FLOPs Comparison") as demo:
         bpe_model_p = (12 * n_layers * d_model_val**2) + (2 * n_vocab * d_model_val)
         blt_global_p = 12 * n_layers * d_model_val**2
         blt_local_transformer_p = (12 * local_n_layers_val * local_d_model**2) + \
-                                  (2 * local_n_vocab * local_d_model)
         blt_local_ca_p = local_n_layers_val * 4 * local_d_model**2
         blt_local_total_internal_p = blt_local_transformer_p + blt_local_ca_p
         blt_total_model_p = blt_global_p + blt_local_total_internal_p

     # Local Component Transformer Part: 12 * N_local * D_local^2 + 2 * V_local * D_local
     blt_local_transformer_params = (12 * local_n_layers_slider * local_d_model**2) + \
+                                     (2 * local_n_vocab * local_d_model)
     # Local Component Cross-Attention Part: N_local * 4 * D_local^2 (estimated)
     blt_local_ca_params = local_n_layers_slider * 4 * local_d_model**2
     blt_local_total_internal_params = blt_local_transformer_params + blt_local_ca_params
     bpe_params_str = format_params_display(bpe_model_params)
     # Format BLT global and local parameters separately
                 minimum=2,
                 maximum=24, # Max value for local_n_layers
                 value=10,
+                step=2,   # Ensure even numbers for CA split
                 label="Local Model Layers (local_n_layers)",
                 info="Number of layers in the BLT's local model"
             )
     fully compare BPE-based transformers and BLT, you'll need to investigate those
     claims in the paper itself.
             """)
+            # --- UPDATED SECTION 1: Fixed Parameters dropdown ---
+            with gr.Accordion("Fixed Parameters", open=False):
+                gr.Markdown(f"""
+                - **BPE's bytes per token (bpe_ps)**: {bpe_ps}
+                - **BPE/BLT Global - Num Layers (n_layers)**: {n_layers}
+                - **BPE/BLT Global - Num Heads (n_heads)**: {n_heads}
+                - **BPE - Vocabulary Size (n_vocab)**: {n_vocab:,}
+                - **BPE/BLT - Context Length (n_ctx_base)**: {n_ctx_base:,} bytes
+                - **BLT Local - Model Dimension (local_d_model)**: {local_d_model}
+                - **BLT Local - Num Heads (local_n_heads)**: {local_n_heads}
+                - **BLT Local - Vocabulary Size (local_n_vocab)**: {local_n_vocab}
+                - **BLT Local - FF Multiplier (local_d_ff_multiplier)**: {local_d_ff_multiplier}
+                """)
+            # --- UPDATED SECTION 2: Current Values & Totals dropdown ---
+            with gr.Accordion("Current Values & Totals", open=False):
+                info_text = gr.Markdown("")
         with gr.Column(scale=2):
             plot = gr.Plot(label="FLOPs Comparison & Model Parameters")
         bpe_model_p = (12 * n_layers * d_model_val**2) + (2 * n_vocab * d_model_val)
         blt_global_p = 12 * n_layers * d_model_val**2
         blt_local_transformer_p = (12 * local_n_layers_val * local_d_model**2) + \
+                                    (2 * local_n_vocab * local_d_model)
         blt_local_ca_p = local_n_layers_val * 4 * local_d_model**2
         blt_local_total_internal_p = blt_local_transformer_p + blt_local_ca_p
         blt_total_model_p = blt_global_p + blt_local_total_internal_p