import gradio as gr
import pandas as pd
import numpy as np
import os
from utils import (
    plot_distances_tsne,
    plot_distances_umap,
    cluster_languages_hdbscan,
    cluster_languages_kmeans,
    plot_mst,
    cluster_languages_by_families,
    cluster_languages_by_subfamilies,
    filter_languages_by_families,
)
from functools import partial
import datasets


dataset = datasets.load_dataset(
    "mshamrai/language-metric-data", split="train", trust_remote_code=True
)

languages = dataset["languages_list"][0]
average_distances_matrix = np.array(dataset["average_distances_matrix"][0])

DATASETS = dataset["distances_matrices"][0]["dataset_name"]
MODELS = dataset["distances_matrices"][0]["models"][0]["model_name"]

distance_matrices = {
    DATASETS[i]: {
        MODELS[j]: np.array(dataset["distances_matrices"][0]["models"][i]["matrix"][j])
        for j in range(len(MODELS))
    }
    for i in range(len(DATASETS))
}


def filter_languages_nan(model, dataset, use_average):
    if use_average:
        matrix = average_distances_matrix
    else:
        matrix = distance_matrices[dataset][model]

    vector = matrix[0]
    updated_languages = np.array(languages)[~np.isnan(vector)]
    updated_matrix = matrix[~np.isnan(vector), :][:, ~np.isnan(vector)]

    return updated_matrix, updated_languages


def get_similar_languages(model, dataset, selected_language, use_average, n):
    """
    Retrieves the distances for the selected language from the chosen model and dataset,
    sorts them by similarity (lowest distance first), and returns a DataFrame.
    """
    if use_average:
        matrix = average_distances_matrix
    else:
        matrix = distance_matrices[dataset][model]
    selected_language_index = languages.index(selected_language)
    distances = matrix[selected_language_index]
    df = pd.DataFrame({"Language": languages, "Distance": distances})
    sorted_distances = df.sort_values(by="Distance")
    sorted_distances.drop(index=selected_language_index, inplace=True)
    sorted_distances.reset_index(drop=True, inplace=True)
    sorted_distances.reset_index(inplace=True)
    sorted_distances["Distance"] = sorted_distances["Distance"].round(4)
    return sorted_distances.head(n)


def update_languages(model, dataset):
    """
    Returns the language list based on the given model and dataset.
    """
    matrix = distance_matrices[dataset][model]
    vector = matrix[0]
    updated_languages = np.array(languages)[~np.isnan(vector)]
    return list(updated_languages)


def update_language_options(model, dataset, language, use_average):
    if use_average:
        updated_languages = languages
    else:
        updated_languages = update_languages(model, dataset)
    if language not in updated_languages:
        language = updated_languages[0]
    return gr.Dropdown(label="Language", choices=updated_languages, value=language)


def toggle_inputs(use_average):
    if use_average:
        return gr.update(interactive=False, visible=False), gr.update(
            interactive=False, visible=False
        )
    else:
        return gr.update(interactive=True, visible=True), gr.update(
            interactive=True, visible=True
        )


plot_path = "plots/last_plot.pdf"
os.makedirs("plots", exist_ok=True)


def plot_distances(
    model,
    dataset,
    use_average,
    cluster_method,
    cluster_method_param,
    figsize_h,
    figsize_w,
    plot_fn,
):
    """
    Plots all languages from the distances matrix using t-SNE.
    """

    updated_matrix, updated_languages = filter_languages_nan(
        model, dataset, use_average
    )

    if cluster_method == "HDBSCAN":
        filtered_matrix, filtered_languages, clusters = cluster_languages_hdbscan(
            updated_matrix, updated_languages, min_cluster_size=cluster_method_param
        )
        legends = None
    elif cluster_method == "KMeans":
        filtered_matrix, filtered_languages, clusters = cluster_languages_kmeans(
            updated_matrix, updated_languages, n_clusters=cluster_method_param
        )
        legends = None
    elif cluster_method == "Family":
        clusters, legends = cluster_languages_by_families(updated_languages)
        filtered_matrix = updated_matrix
        filtered_languages = updated_languages
    elif cluster_method == "Subfamily":
        clusters, legends = cluster_languages_by_subfamilies(updated_languages)
        filtered_matrix = updated_matrix
        filtered_languages = updated_languages
    else:
        raise ValueError("Invalid cluster method")

    fig = plot_fn(
        filtered_matrix,
        filtered_languages,
        clusters,
        legends,
        fig_size=(figsize_w, figsize_h),
    )
    fig.tight_layout()
    fig.savefig(plot_path, format="pdf")
    return fig, gr.DownloadButton(label="Download Plot", value=plot_path)


def plot_families_subfamilies(
    families, model, dataset, use_average, figsize_h, figsize_w
):
    updated_matrix, updated_languages = filter_languages_nan(
        model, dataset, use_average
    )
    updated_matrix, updated_languages = filter_languages_by_families(
        updated_matrix, updated_languages, families
    )

    clusters, legends = cluster_languages_by_subfamilies(updated_languages)
    fig = plot_mst(
        updated_matrix,
        updated_languages,
        clusters,
        legends,
        fig_size=(figsize_w, figsize_h),
    )
    fig.tight_layout()
    fig.savefig(plot_path, format="pdf")
    return fig, gr.DownloadButton(label="Download Plot", value=plot_path)


with gr.Blocks() as demo:
    gr.Markdown("## Language Distance Explorer")
    average_checkbox = gr.Checkbox(label="Use Average Distances", value=False)
    with gr.Row():
        model_input = gr.Dropdown(label="Model", choices=MODELS, value=MODELS[0])
        dataset_input = gr.Dropdown(
            label="Dataset", choices=DATASETS, value=DATASETS[0]
        )

    with gr.Tab(label="Closest Languages Table"):
        with gr.Row():
            language_input = gr.Dropdown(
                label="Language", choices=languages, value=languages[0]
            )
            top_n_input = gr.Slider(
                label="Top N", minimum=1, maximum=30, step=1, value=10
            )

        output_table = gr.Dataframe(label="Similar Languages")

        model_input.change(
            fn=update_language_options,
            inputs=[model_input, dataset_input, language_input, average_checkbox],
            outputs=language_input,
        )
        dataset_input.change(
            fn=update_language_options,
            inputs=[model_input, dataset_input, language_input, average_checkbox],
            outputs=language_input,
        )
        language_input.change(
            fn=get_similar_languages,
            inputs=[
                model_input,
                dataset_input,
                language_input,
                average_checkbox,
                top_n_input,
            ],
            outputs=output_table,
        )
        model_input.change(
            fn=get_similar_languages,
            inputs=[
                model_input,
                dataset_input,
                language_input,
                average_checkbox,
                top_n_input,
            ],
            outputs=output_table,
        )
        dataset_input.change(
            fn=get_similar_languages,
            inputs=[
                model_input,
                dataset_input,
                language_input,
                average_checkbox,
                top_n_input,
            ],
            outputs=output_table,
        )
        top_n_input.change(
            fn=get_similar_languages,
            inputs=[
                model_input,
                dataset_input,
                language_input,
                average_checkbox,
                top_n_input,
            ],
            outputs=output_table,
        )

        average_checkbox.change(
            fn=toggle_inputs,
            inputs=[average_checkbox],
            outputs=[model_input, dataset_input],
        )

        average_checkbox.change(
            fn=update_language_options,
            inputs=[model_input, dataset_input, language_input, average_checkbox],
            outputs=language_input,
        )
        average_checkbox.change(
            fn=get_similar_languages,
            inputs=[
                model_input,
                dataset_input,
                language_input,
                average_checkbox,
                top_n_input,
            ],
            outputs=output_table,
        )

    with gr.Tab(label="Distance Plot"):
        with gr.Row():
            cluster_method_input = gr.Dropdown(
                label="Cluster Method",
                choices=["HDBSCAN", "KMeans", "Family", "Subfamily"],
                value="HDBSCAN",
            )
            clusters_input = gr.Slider(
                label="Minimum Elements in a Cluster",
                minimum=2,
                maximum=10,
                step=1,
                value=2,
            )

        def update_clusters_input_option(cluster_method):
            if cluster_method == "HDBSCAN":
                return gr.Slider(
                    label="Minimum Elements in a Cluster",
                    minimum=2,
                    maximum=10,
                    step=1,
                    value=2,
                    visible=True,
                    interactive=True,
                )
            elif cluster_method == "KMeans":
                return gr.Slider(
                    label="Number of Clusters",
                    minimum=2,
                    maximum=20,
                    step=1,
                    value=2,
                    visible=True,
                    interactive=True,
                )
            else:
                return gr.update(interactive=False, visible=False)

        cluster_method_input.change(
            fn=update_clusters_input_option,
            inputs=[cluster_method_input],
            outputs=clusters_input,
        )

        with gr.Row():
            plot_tsne_button = gr.Button("Plot t-SNE")
            plot_umap_button = gr.Button("Plot UMAP")
            plot_mst_button = gr.Button("Plot MST")

        with gr.Row():
            plot_figsize_dist_h_input = gr.Slider(
                label="Figure Height", minimum=5, maximum=30, step=1, value=15
            )
            plot_figsize_dist_w_input = gr.Slider(
                label="Figure Width", minimum=5, maximum=30, step=1, value=15
            )

        with gr.Row():
            download_plot_button = gr.DownloadButton("Download Plot")

        with gr.Row():
            plot_output = gr.Plot(label="Distance Plot")

        plot_tsne_button.click(
            fn=partial(plot_distances, plot_fn=plot_distances_tsne),
            inputs=[
                model_input,
                dataset_input,
                average_checkbox,
                cluster_method_input,
                clusters_input,
                plot_figsize_dist_h_input,
                plot_figsize_dist_w_input,
            ],
            outputs=[plot_output, download_plot_button],
        )
        plot_umap_button.click(
            fn=partial(plot_distances, plot_fn=plot_distances_umap),
            inputs=[
                model_input,
                dataset_input,
                average_checkbox,
                cluster_method_input,
                clusters_input,
                plot_figsize_dist_h_input,
                plot_figsize_dist_w_input,
            ],
            outputs=[plot_output, download_plot_button],
        )
        plot_mst_button.click(
            fn=partial(plot_distances, plot_fn=plot_mst),
            inputs=[
                model_input,
                dataset_input,
                average_checkbox,
                cluster_method_input,
                clusters_input,
                plot_figsize_dist_h_input,
                plot_figsize_dist_w_input,
            ],
            outputs=[plot_output, download_plot_button],
        )

    with gr.Tab(label="Language Families Subplot"):

        checked_families_input = gr.CheckboxGroup(
            label="Language Families",
            choices=[
                "Afroasiatic",
                "Austroasiatic",
                "Austronesian",
                "Constructed",
                "Creole",
                "Dravidian",
                "Germanic",
                "Indo-European",
                "Japonic",
                "Kartvelian",
                "Koreanic",
                "Language Isolate",
                "Niger-Congo",
                "Northeast Caucasian",
                "Romance",
                "Sino-Tibetan",
                "Turkic",
                "Uralic",
            ],
            value=["Indo-European"],
        )
        with gr.Row():
            plot_family_button = gr.Button("Plot Families")
            plot_figsize_h_input = gr.Slider(
                label="Figure Height", minimum=5, maximum=30, step=1, value=15
            )
            plot_figsize_w_input = gr.Slider(
                label="Figure Width", minimum=5, maximum=30, step=1, value=15
            )

        with gr.Row():
            download_families_plot_button = gr.DownloadButton(
                "Download Plot", value=plot_path
            )

        plot_family_output = gr.Plot(label="Families Plot")

        plot_family_button.click(
            fn=plot_families_subfamilies,
            inputs=[
                checked_families_input,
                model_input,
                dataset_input,
                average_checkbox,
                plot_figsize_h_input,
                plot_figsize_w_input,
            ],
            outputs=[plot_family_output, download_families_plot_button],
        )


demo.launch(share=True)