Spaces:

gonghuilin123
/

calculate_MFU

Sleeping

File size: 23,535 Bytes

import gradio as gr
import argparse


def num_floating_point_operations(args):
    def calculate_layer_counts():
        """Calculate the number of attention, Mamba, and MLP layers."""
        if args.hybrid_override_pattern:
            counts = {"M": 0, "*": 0, "-": 0}
            for layer_type in args.hybrid_override_pattern:
                if layer_type in counts:
                    counts[layer_type] += 1
            return counts["*"], counts["M"], counts["-"]
        else:
            num_attn_layers = round(args.num_layers * args.hybrid_attention_ratio)
            num_mlp_layers = round(args.num_layers * args.hybrid_mlp_ratio)
            num_mamba_layers = args.num_layers - num_attn_layers - num_mlp_layers
            return num_attn_layers, num_mamba_layers, num_mlp_layers

    def mlp_layer_flops(batch_size, seq_len, hidden_size, expansion=4.0, swiglu=False):
        """Calculate FLOPs for an MLP layer."""
        scale_factor = 3.0 / 2.0 if swiglu else 1.0
        return 4 * expansion * scale_factor * batch_size * seq_len * hidden_size**2

    def attn_layer_flops(
        batch_size,
        seq_len,
        hidden_size,
        num_heads,
        gqa=True,
        gqa_groups=8,
        kv_channels=None,
    ):
        """Calculate FLOPs for an attention layer."""
        p = (kv_channels * num_heads / hidden_size) if kv_channels else 1
        g = gqa_groups if gqa else num_heads
        return (
            4
            * batch_size
            * seq_len
            * hidden_size
            * p
            * (hidden_size + (hidden_size * (g / num_heads)) + (seq_len / 2))
        )

    def mamba_layer_flops(
        batch_size, seq_len, hidden_size, state_dim=16, head_dim=64, num_groups=1
    ):
        """Calculate FLOPs for a Mamba layer."""
        # Note (rwaleffe): flops estimate for scan should be updated based on new SSD kernels,
        # but small percent of overall layer flops
        d_in = 2 * hidden_size
        nheads = d_in // head_dim
        return (
            (
                2
                * batch_size
                * seq_len
                * hidden_size
                * (2 * d_in + 2 * num_groups * state_dim + nheads)
            )  # in_proj
            + (7 * batch_size * seq_len * d_in * state_dim)  # scan
            + (2 * batch_size * seq_len * d_in * hidden_size)  # out_proj
        )

    def hybrid_flops(
        batch_size,
        seq_len,
        hidden_size,
        num_attn_layers,
        num_mamba_layers,
        num_mlp_layers,
        mamba_state_dim=128,
        mamba_head_dim=64,
        mamba_num_groups=8,
        num_attn_heads=32,
        gqa=True,
        gqa_groups=8,
        kv_channels=None,
        mlp_expansion=4.0,
        swiglu=False,
        vocab_size=256000,
    ):
        """Calculate total FLOPs for the hybrid model."""
        flops_fwd = (
            num_attn_layers
            * attn_layer_flops(
                batch_size,
                seq_len,
                hidden_size,
                num_attn_heads,
                gqa,
                gqa_groups,
                kv_channels,
            )
            + num_mlp_layers
            * mlp_layer_flops(batch_size, seq_len, hidden_size, mlp_expansion, swiglu)
            + num_mamba_layers
            * mamba_layer_flops(
                batch_size,
                seq_len,
                hidden_size,
                mamba_state_dim,
                mamba_head_dim,
                mamba_num_groups,
            )
            + (
                2 * batch_size * seq_len * hidden_size * vocab_size
            )  # logits computation
        )
        return flops_fwd * 3

    def transformer_flops():
        """Calculate FLOPs for a standard Transformer model."""
        # TODO(helenn/dnarayanan): Refactor this to reuse the helper methods.
        # Attention projection size.
        query_projection_size = args.kv_channels * args.num_attention_heads
        query_projection_to_hidden_size_ratio = query_projection_size / args.hidden_size
        # Group Query Attention.
        if not args.group_query_attention:
            args.num_query_groups = args.num_attention_heads
        # MoE.
        if args.num_experts is None:
            # Every Transformer MLP is dense.
            num_dense_layers = args.num_layers
            num_moe_layers = 0
            num_experts_routed_to = 0
            last_layer_is_moe = 0
        else:
            # Calculate number of dense and MoE Transformer MLPs.
            if isinstance(args.moe_layer_freq, int):
                moe_layer_pattern = [
                    1 if (i % args.moe_layer_freq == 0) else 0
                    for i in range(args.num_layers)
                ]
            elif isinstance(args.moe_layer_freq, list):
                moe_layer_pattern = args.moe_layer_freq
            else:
                raise RuntimeError("Illegal --moe-layer-freq argument provided!")
            assert len(moe_layer_pattern) == args.num_layers, (
                f"Invalid length of moe_layer_pattern: {len(moe_layer_pattern)}, "
                f"expected {args.num_layers}, "
                f"current moe layer pattern: {args.moe_layer_freq}"
            )
            num_moe_layers = sum(
                moe_layer_pattern
            )  # Number of 1s in `moe_layer_pattern`.
            num_dense_layers = args.num_layers - num_moe_layers
            num_experts_routed_to = args.moe_router_topk
            last_layer_is_moe = moe_layer_pattern[-1]

        if args.mtp_num_layers is not None:
            mtp_num_layers = args.mtp_num_layers
            num_moe_layers += last_layer_is_moe * mtp_num_layers
            num_dense_layers += (1 - last_layer_is_moe) * mtp_num_layers
            num_layers = args.num_layers + mtp_num_layers
        else:
            mtp_num_layers = 0
            num_layers = args.num_layers

        moe_ffn_hidden_size = (
            args.moe_ffn_hidden_size
            if args.moe_ffn_hidden_size is not None
            else args.ffn_hidden_size
        )
        shared_expert_ffn_hidden_size = (
            0
            if args.moe_shared_expert_intermediate_size is None
            else args.moe_shared_expert_intermediate_size
        )
        # SwiGLU.
        gated_linear_multiplier = 3 / 2 if args.swiglu else 1

        # The 12x term below comes from the following factors; for more details, see
        # "APPENDIX: FLOATING-POINT OPERATIONS" in https://arxiv.org/abs/2104.04473.
        # - 3x: Each GEMM in the model needs to be performed 3 times (forward pass,
        #       backward wgrad [weight gradient], backward dgrad [data gradient]).
        # - 2x: GEMMs of a particular size are stacked twice in the standard Transformer model
        #       architectures implemented in this codebase (e.g., h->ffn_h GEMM and ffn_h->h GEMM
        #       in MLP layer).
        # - 2x: A GEMM of a m*n tensor with a n*k tensor requires 2mnk floating-point operations.
        expansion_factor = 3 * 2 * 2

        if args.multi_latent_attention:
            assert not args.group_query_attention
            """
            Basic arithmetic
            let B is batch size, s is seq_len, h is embedding dim,
            for one self_attnetion block (prenorm is not included)
            qkv projection:  6Bsh^2
            attn:            2Bs^2h
            attn over value: 2Bs^2h
            oproj:           2Bsh^2

            references
            https://arxiv.org/abs/2305.10403
            https://arxiv.org/abs/2205.05198
            """
            ## MLA
            if args.q_lora_rank is None:
                q_term = (
                    args.hidden_size
                    * args.num_attention_heads
                    * (args.qk_head_dim + args.qk_pos_emb_head_dim)
                )
            else:
                q_term = args.q_lora_rank * (
                    args.hidden_size
                    + args.num_attention_heads
                    * (args.qk_head_dim + args.qk_pos_emb_head_dim)
                    + 1
                )
            self_attn_term = (
                3
                * 2  # fwd(1) + bwd(2) *FMA
                * num_layers
                * (
                    ## q lora + rope + q norm
                    q_term
                    ## kv lora + rope + kv norm
                    + args.kv_lora_rank
                    * (
                        args.hidden_size
                        + args.num_attention_heads
                        * (args.qk_head_dim + args.v_head_dim)
                        + 1
                    )
                    + args.hidden_size * args.qk_pos_emb_head_dim
                    ## o proj
                    + (args.num_attention_heads * args.v_head_dim) * args.hidden_size
                    ## core attn
                    + args.seq_length
                    * (
                        args.num_attention_heads
                        * (args.qk_head_dim + args.qk_pos_emb_head_dim)
                    )
                    / 2
                    + args.seq_length * args.num_attention_heads * args.v_head_dim / 2
                )
            )

        else:
            ## MHA or GQA
            self_attn_term = (
                expansion_factor
                * num_layers
                * args.hidden_size
                * args.hidden_size
                * (
                    (
                        1
                        + (args.num_query_groups / args.num_attention_heads)
                        # # Only half of the attention matrix is non-zero and needs to be multiplied with V.
                        + (args.seq_length / args.hidden_size / 2)
                    )
                    * query_projection_to_hidden_size_ratio
                )
            )

        total_floating_point_operations = (
            args.batch_size
            * args.seq_length
            * (
                # MLP
                expansion_factor
                * num_layers
                * args.hidden_size
                * (
                    # dense layer (deepseek v2, v3 style)
                    (args.ffn_hidden_size * gated_linear_multiplier)
                    * (num_dense_layers / num_layers)
                    # routed experts
                    + (
                        moe_ffn_hidden_size
                        * num_experts_routed_to
                        * gated_linear_multiplier
                    )
                    * (num_moe_layers / num_layers)
                    # Shared Experts.
                    + (shared_expert_ffn_hidden_size * gated_linear_multiplier)
                    * (num_moe_layers / num_layers)
                )
                # Self Attention
                + self_attn_term
                # MTP norms and proj
                + 3
                * 2
                * mtp_num_layers
                * (
                    # MTP eh norm + final nrom
                    3 * args.hidden_size
                    # MTH eh proj
                    + 2 * args.hidden_size * args.hidden_size
                )
                # Logit.
                + 3
                * 2
                * args.hidden_size
                * args.padded_vocab_size
                * (mtp_num_layers + 1)
            )
        )
        return total_floating_point_operations

    # Main entrypoint for FLOPs calculation.
    if args.is_hybrid_model:
        # Calculate the number of each type of layer.
        num_attn_layers, num_mamba_layers, num_mlp_layers = calculate_layer_counts()

        # Compute hybrid model FLOPs.
        return hybrid_flops(
            batch_size=args.batch_size,
            seq_len=args.seq_length,
            hidden_size=args.hidden_size,
            num_attn_layers=num_attn_layers,
            num_mamba_layers=num_mamba_layers,
            num_mlp_layers=num_mlp_layers,
            mamba_state_dim=args.mamba_state_dim,
            mamba_head_dim=args.mamba_head_dim,
            mamba_num_groups=args.mamba_num_groups,
            num_attn_heads=args.num_attention_heads,
            gqa=args.group_query_attention,
            gqa_groups=args.num_query_groups,
            kv_channels=args.kv_channels,
            mlp_expansion=args.ffn_hidden_size / args.hidden_size,
            swiglu=args.swiglu,
            vocab_size=args.padded_vocab_size,
        )
    else:
        # Compute standard Transformer model FLOPs.
        return transformer_flops()


def calculate_flops(args):
    model_flops = num_floating_point_operations(args)
    flops_per_token = model_flops / (args.batch_size * args.seq_length)
    print(f"FLOPs Per Iteration: {model_flops}\nFLOPs Per Token: {flops_per_token}")
    return model_flops


def calculate_mfu(model_flops, *, iter_elapsed_time, num_p800_cards):
    assert (
        model_flops and iter_elapsed_time and num_p800_cards
    ), "Iter elapsed time and P800 cards must be provided"
    mfu = model_flops / (iter_elapsed_time * num_p800_cards * 3.5e14)
    print(f"MFU P800 bf16: {mfu:.2%}")


def calculate_mfu_web(  is_hybrid_model, group_query_attention, swiglu, num_layers, hidden_size,
                        ffn_hidden_size, padded_vocab_size, num_attention_heads, kv_channels,
                        num_experts, moe_layer_freq, moe_router_topk, moe_ffn_hidden_size, moe_shared_expert_intermediate_size,
                        multi_latent_attention, q_lora_rank, kv_lora_rank, qk_head_dim, v_head_dim, qk_pos_emb_head_dim,
                        mtp_num_layers, seq_length, batch_size, iter_elapsed_time, num_p800_cards
                    ):
    is_hybrid_model = True if is_hybrid_model == "True" else False
    group_query_attention = True if group_query_attention == "True" else False
    swiglu = True if swiglu == "True" else False
    multi_latent_attention = True if multi_latent_attention == "True" else False

    '''
    为了直接调用calculate_flops(args)接口，这里将参数直接打包
    '''
    class parameter:
        def __init__(self, 
                        is_hybrid_model, group_query_attention, swiglu, num_layers, hidden_size,
                        ffn_hidden_size, padded_vocab_size, num_attention_heads, kv_channels,
                        num_experts, moe_layer_freq, moe_router_topk, moe_ffn_hidden_size, moe_shared_expert_intermediate_size,
                        multi_latent_attention, q_lora_rank, kv_lora_rank, qk_head_dim, v_head_dim, qk_pos_emb_head_dim,
                        mtp_num_layers, seq_length, batch_size, iter_elapsed_time, num_p800_cards, 
                        hybrid_override_pattern=None):
            self.is_hybrid_model = is_hybrid_model
            self.group_query_attention = group_query_attention
            self.swiglu = swiglu
            self.num_layers = num_layers
            self.hidden_size = hidden_size
            self.ffn_hidden_size = ffn_hidden_size
            self.padded_vocab_size = padded_vocab_size
            self.num_attention_heads = num_attention_heads
            self.kv_channels = kv_channels
            self.num_experts = num_experts
            self.moe_layer_freq = moe_layer_freq
            self.moe_router_topk = moe_router_topk
            self.moe_ffn_hidden_size = moe_ffn_hidden_size
            self.moe_shared_expert_intermediate_size = moe_shared_expert_intermediate_size
            self.multi_latent_attention = multi_latent_attention
            self.q_lora_rank = q_lora_rank
            self.kv_lora_rank = kv_lora_rank
            self.qk_head_dim = qk_head_dim
            self.v_head_dim = v_head_dim
            self.qk_pos_emb_head_dim = qk_pos_emb_head_dim
            self.mtp_num_layers = mtp_num_layers
            self.seq_length = seq_length
            self.batch_size = batch_size
            self.iter_elapsed_time = iter_elapsed_time
            self.num_p800_cards = num_p800_cards
            self.hybrid_override_pattern = hybrid_override_pattern

    mfu_parameter = parameter(is_hybrid_model, group_query_attention, swiglu, num_layers, hidden_size,
                        ffn_hidden_size, padded_vocab_size, num_attention_heads, kv_channels,
                        num_experts, moe_layer_freq, moe_router_topk, moe_ffn_hidden_size, moe_shared_expert_intermediate_size,
                        multi_latent_attention, q_lora_rank, kv_lora_rank, qk_head_dim, v_head_dim, qk_pos_emb_head_dim,
                        mtp_num_layers, seq_length, batch_size, iter_elapsed_time, num_p800_cards, 
                        hybrid_override_pattern=None)

    model_flops = num_floating_point_operations(mfu_parameter)
    flops_per_token = model_flops / (batch_size * seq_length)
    print(f"FLOPs Per Iteration: {model_flops}\nFLOPs Per Token: {flops_per_token}")

    assert (
            model_flops and iter_elapsed_time and num_p800_cards
        ), "Iter elapsed time and P800 cards must be provided"

    mfu = model_flops / (iter_elapsed_time * num_p800_cards * 3.5e14)
    print(f"MFU P800 bf16: {mfu:.2%}")
    return model_flops, flops_per_token, "{:.2f}%".format(mfu * 100)

if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    args = parser.parse_args()

    # Standard Transformer config
    args.is_hybrid_model = False
    args.group_query_attention = False
    args.swiglu = True
    args.num_layers = 61
    args.hidden_size = 7168
    args.ffn_hidden_size = 18432
    args.padded_vocab_size = 100002
    args.num_attention_heads = 128
    args.kv_channels = 128

    # MoE config
    args.num_experts = 256
    args.moe_layer_freq = 1
    args.moe_router_topk = 8
    args.moe_ffn_hidden_size = 2048
    args.moe_shared_expert_intermediate_size = 2048

    # MLA config
    args.multi_latent_attention = True
    args.q_lora_rank = 1536
    args.kv_lora_rank = 512
    args.qk_head_dim = 128
    args.v_head_dim = 128
    args.qk_pos_emb_head_dim = 64

    # MTP config
    args.mtp_num_layers = 1

    # Data config
    args.seq_length = 4096
    args.batch_size = 1024

    # mfu config
    args.iter_elapsed_time = 100
    args.num_p800_cards = 512

    #calculate_mfu(calculate_flops(args), iter_elapsed_time=args.iter_elapsed_time, num_p800_cards=args.num_p800_cards)
    with gr.Blocks(title="Compute MFU") as demo:
        gr.Markdown("## Compute MFU")
        
        with gr.Group() as custom_group:
            gr.Markdown("Standard Transformer config:")
            with gr.Row():
                is_hybrid_model = gr.Dropdown(["True", "False"], 
                                                label="hybrid model", 
                                                value="True" if args.is_hybrid_model else "False")

                group_query_attention = gr.Dropdown(["True", "False"], 
                                                label="group query attention", 
                                                value="True" if args.group_query_attention else "False")

                swiglu = gr.Dropdown(["True", "False"], 
                                        label="swiglu", 
                                        value="True" if args.swiglu else "False")

                num_layers = gr.Number(label="num layers", value=args.num_layers, precision=0)
                hidden_size = gr.Number(label="hidden size", value=args.hidden_size, precision=0)
                ffn_hidden_size = gr.Number(label="ffn hidden size", value=args.ffn_hidden_size, precision=0)
                padded_vocab_size = gr.Number(label="padded vocab size", value=args.padded_vocab_size, precision=0)
                num_attention_heads = gr.Number(label="num attention heads", value=args.num_attention_heads, precision=0)
                kv_channels = gr.Number(label="kv channels", value=args.kv_channels, precision=0)

        with gr.Group() as custom_group:
            gr.Markdown("MoE config:")
            with gr.Row():
                num_experts = gr.Number(label="num experts", value=args.num_experts, precision=0)
                moe_layer_freq = gr.Number(label="moe layer freq", value=args.moe_layer_freq, precision=0)
                moe_router_topk = gr.Number(label="moe router topk", value=args.moe_router_topk, precision=0)
                moe_ffn_hidden_size = gr.Number(label="moe ffn hidden size", value=args.moe_ffn_hidden_size, precision=0)
                moe_shared_expert_intermediate_size = gr.Number(label="moe shared expert intermediate size", value=args.moe_shared_expert_intermediate_size, precision=0)

        with gr.Group() as custom_group:
            gr.Markdown("MLA config:")
            with gr.Row():
                multi_latent_attention = gr.Dropdown(["True", "False"], 
                                                label="multi_latent_attention", 
                                                value="True" if args.multi_latent_attention else "False")
                q_lora_rank = gr.Number(label="q lora rank", value=args.q_lora_rank, precision=0)
                kv_lora_rank = gr.Number(label="kv lora rank", value=args.kv_lora_rank, precision=0)
                qk_head_dim = gr.Number(label="qk head dim", value=args.qk_head_dim, precision=0)
                v_head_dim = gr.Number(label="v head dim", value=args.v_head_dim, precision=0)
                qk_pos_emb_head_dim = gr.Number(label="qk pos emb head dim", value=args.qk_pos_emb_head_dim, precision=0)

        with gr.Group() as custom_group:
            with gr.Row():
                with gr.Group():
                    gr.Markdown("MTP config:")
                    mtp_num_layers = gr.Number(label="mtp num layers", value=args.mtp_num_layers, precision=0)

                with gr.Group():
                    gr.Markdown("Data config:")
                    with gr.Row():
                        seq_length = gr.Number(label="seq length", value=args.seq_length, precision=0)
                        batch_size = gr.Number(label="batch size", value=args.batch_size, precision=0)

                with gr.Group():
                    gr.Markdown("MFU config:")
                    with gr.Row():
                        iter_elapsed_time = gr.Number(label="iter elapsed time", value=args.iter_elapsed_time, precision=0)
                        num_p800_cards = gr.Number(label="num p800 cards", value=args.num_p800_cards, precision=0)

        # 计算结果显示控件
        with gr.Group() as custom_group:
            gr.Markdown("Compute results:")
            with gr.Row():
                model_flops = gr.Number(label="model flops", precision=0)
                flops_per_token = gr.Number(label="flops per token", precision=0)
                # mfu = gr.Number(label="mfu", precision=0)
                mfu = gr.Textbox(label="MFU P800 bf16")

        # 计算按钮
        btn = gr.Button("Calculate")
        btn.click(  fn=calculate_mfu_web, 
                    inputs=[is_hybrid_model, group_query_attention, swiglu, num_layers, hidden_size,
                        ffn_hidden_size, padded_vocab_size, num_attention_heads, kv_channels,
                        num_experts, moe_layer_freq, moe_router_topk, moe_ffn_hidden_size, moe_shared_expert_intermediate_size,
                        multi_latent_attention, q_lora_rank, kv_lora_rank, qk_head_dim, v_head_dim, qk_pos_emb_head_dim,
                        mtp_num_layers, seq_length, batch_size, iter_elapsed_time, num_p800_cards], 
                    outputs=[model_flops, flops_per_token, mfu]
                )

    # 启动 Gradio 应用
    demo.launch()