Spaces:

davanstrien
/

notebooks_on_the_hub

Runtime error

App Files Files Community

davanstrien HF Staff commited on Apr 3, 2023

Commit

3852cad

1 Parent(s): d12dd0d

update

Browse files

Files changed (1) hide show

app.py +37 -26

app.py CHANGED Viewed

@@ -88,18 +88,28 @@ def get_top_k_notebooks_by_repo_type(type: str = "space", k: int = 50):
 def raw_current_notebook_dataframe():
-    df = pl.DataFrame(yield_notebooks_counts(exclude_users="gradio"))
     return df.to_pandas()
 def update_stats():
-    df = pl.LazyFrame(yield_notebooks_counts(exclude_users="gradio"))
     df = (
         df.with_columns(pl.col("repo_id").str.split_exact("/", 1))
         .unnest("repo_id")
         .rename({"field_0": "user", "field_1": "repo_id"})
     )
     by_user_count = (
         df.groupby("user")
         .agg(pl.col("repo_notebook_count").sum())
@@ -135,31 +145,32 @@ def update_stats():
     final_df = final_df.sort("date")
     pandas_df = final_df.to_pandas()
     # final_df.to_pandas().set_index("date", drop=True).sort_index()
-    return pandas_df, final_df
 with gr.Blocks() as demo:
-    gr.Markdown("# Notebooks on the Hub (updated daily)")
-    pandas_df, final_df = update_stats()
-    gr.Markdown("## Notebooks on the Hub over time")
-    gr.Plot(px.line(pandas_df, x="date", y="repo_notebook_count", color="repo_type"))
-    gr.Markdown("## Notebooks on the Hub (total by date)")
-    gr.DataFrame(
-        final_df.select(pl.col(["date", "repo_notebook_count"]))
-        .groupby("date")
-        .sum()
-        .sort("date")
-        .to_pandas()
-    )
-    gr.Markdown("Top Repos by likes with notebooks")
-    # k = gr.Slider(10, 100, 10,step=5, label="k",interactive=True)
-    # repo_type = gr.Dropdown(["space", "model"], value="space", label="repo_type")
-    gr.DataFrame(get_top_k_notebooks_by_repo_type("space", 10)[["repo_id", "likes"]])
-    gr.DataFrame(get_top_k_notebooks_by_repo_type("model", 10)[["repo_id", "likes"]])
-    # repo_type.update(get_top_k_notebooks_by_repo_type, [repo_type, k],[df])
-    gr.Markdown("## Notebooks on the Hub raw data")
-    gr.DataFrame(pandas_df)
-    # gr.DataFrame(raw_current_notebook_dataframe())
 demo.launch(debug=True)

 def raw_current_notebook_dataframe():
+    df = pl.DataFrame(
+        yield_notebooks_counts(exclude_users={"gradio", "gradio-pr-deploys"})
+    )
     return df.to_pandas()
 def update_stats():
+    df = pl.LazyFrame(
+        yield_notebooks_counts(exclude_users={"gradio", "gradio-pr-deploys"})
+    )
     df = (
         df.with_columns(pl.col("repo_id").str.split_exact("/", 1))
         .unnest("repo_id")
         .rename({"field_0": "user", "field_1": "repo_id"})
     )
+    previous_raw_df = pl.DataFrame(
+        load_dataset("davanstrien/notebooks_on_the_hub_raw", split="train").data.table
+    )
+    final_raw_df = pl.concat([previous_raw_df, df.collect()]).unique()
+    Dataset(final_raw_df.to_arrow()).push_to_hub(
+        "davanstrien/notebooks_on_the_hub_raw", token=HF_TOKEN
+    )
     by_user_count = (
         df.groupby("user")
         .agg(pl.col("repo_notebook_count").sum())
     final_df = final_df.sort("date")
     pandas_df = final_df.to_pandas()
     # final_df.to_pandas().set_index("date", drop=True).sort_index()
+    return pandas_df, final_df, final_raw_df
 with gr.Blocks() as demo:
+    with gr.Tab("Notebooks on the Hub stats"):
+        gr.Markdown("# Notebooks on the Hub (updated daily)")
+        pandas_df, final_df, final_raw_df = update_stats()
+        gr.Markdown("## Notebooks on the Hub over time")
+        gr.Plot(px.line(pandas_df, x="date", y="repo_notebook_count", color="repo_type"))
+        gr.Markdown("## Notebooks on the Hub (total by date)")
+        gr.DataFrame(
+            final_df.select(pl.col(["date", "repo_notebook_count"]))
+            .groupby("date")
+            .sum()
+            .sort("date")
+            .to_pandas()
+        )
+        gr.Markdown("## Top Repos by likes with notebooks")
+        gr.Markdown("#### Top 10 Spaces")
+        gr.DataFrame(get_top_k_notebooks_by_repo_type("space", 10)[["repo_id", "likes"]])
+        gr.Markdown("#### Top 10 Models")
+        gr.DataFrame(get_top_k_notebooks_by_repo_type("model", 10)[["repo_id", "likes"]])
+        # repo_type.update(get_top_k_notebooks_by_repo_type, [repo_type, k],[df])
+    with gr.Tab("raw data"):
+        gr.Markdown("## Notebooks on the Hub raw data")
+        gr.DataFrame(final_raw_df.to_pandas())
 demo.launch(debug=True)