Spaces:

strongeryongchao
/

sentcluster

Sleeping

App Files Files Community

strongeryongchao commited on Jun 14

Commit

5ddcb1d

1 Parent(s): 869d101

the first update

Browse files

Files changed (5) hide show

README.md +7 -11
app.py +49 -0
clustering_utils.py +16 -0
requirements.txt +7 -0
viz_utils.py +40 -0

README.md CHANGED Viewed

@@ -1,12 +1,8 @@
----
-title: Sentcluster
-emoji: 📉
-colorFrom: gray
-colorTo: green
-sdk: gradio
-sdk_version: 5.34.0
-app_file: app.py
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+# 中文句子语义聚类空间
+使用 [text2vec-bge-large-chinese](https://huggingface.co/shibing624/text2vec-bge-large-chinese) + HDBSCAN 实现中文句子聚类分析。支持 Silhouette、DB 指数评估，可视化展示与 CSV 导出。
+## 使用说明
+- 输入文本或上传 txt 文件
+- 自动编码并聚类
+- 展示评分、Echarts 图、聚类结果

app.py ADDED Viewed

	@@ -0,0 +1,49 @@

+import gradio as gr
+from clustering_utils import cluster_sentences
+from viz_utils import generate_force_graph, generate_bubble_chart, generate_umap_plot
+import pandas as pd
+def process_input(sentences, file_obj):
+    if file_obj:
+        sentences = file_obj.read().decode("utf-8").splitlines()
+    elif isinstance(sentences, str):
+        sentences = sentences.strip().splitlines()
+    sentences = [s.strip() for s in sentences if s.strip()]
+    if not sentences:
+        return "请输入句子或上传文件", None, None, None, None
+    labels, embeddings, scores = cluster_sentences(sentences)
+    df = pd.DataFrame({
+        "句子": sentences,
+        "簇ID": labels
+    })
+    force_data = generate_force_graph(sentences, labels)
+    bubble_data = generate_bubble_chart(sentences, labels)
+    umap_data = generate_umap_plot(embeddings, labels)
+    return f"✅ Silhouette: {scores['silhouette']:.4f}, DB: {scores['db']:.4f}", df, force_data, bubble_data, umap_data
+with gr.Blocks(title="Text2Vec 语义聚类") as demo:
+    gr.Markdown("## 🧠 中文句子语义聚类（HDBSCAN + BGE）")
+    with gr.Row():
+        txt_input = gr.Textbox(lines=5, label="批量输入句子（每行一句）")
+        file_input = gr.File(label="或上传 .txt 文件")
+    run_btn = gr.Button("开始聚类")
+    status = gr.Markdown()
+    df_output = gr.Dataframe(label="聚类结果", interactive=False)
+    with gr.Tabs():
+        with gr.Tab("力导图"):
+            force_plot = gr.JSON(label="Echarts 数据")
+        with gr.Tab("气泡图"):
+            bubble_plot = gr.JSON(label="Echarts 数据")
+        with gr.Tab("UMAP分布图"):
+            umap_plot = gr.JSON(label="Echarts 数据")
+    csv_btn = gr.File(label="下载 CSV", visible=False)
+    def export_csv(df):
+        df.to_csv("cluster_result.csv", index=False)
+        return "cluster_result.csv"
+    run_btn.click(process_input, inputs=[txt_input, file_input],
+                  outputs=[status, df_output, force_plot, bubble_plot, umap_plot])
+    df_output.change(export_csv, inputs=[df_output], outputs=[csv_btn])
+demo.launch()

clustering_utils.py ADDED Viewed

	@@ -0,0 +1,16 @@

+from sentence_transformers import SentenceTransformer
+import hdbscan
+from sklearn.metrics import silhouette_score, davies_bouldin_score
+model = SentenceTransformer("shibing624/text2vec-bge-large-chinese")
+def cluster_sentences(sentences):
+    embeddings = model.encode(sentences, normalize_embeddings=True)
+    clusterer = hdbscan.HDBSCAN(min_cluster_size=3, prediction_data=True)
+    labels = clusterer.fit_predict(embeddings)
+    try:
+        sil = silhouette_score(embeddings, labels) if len(set(labels)) > 1 else -1
+        db = davies_bouldin_score(embeddings, labels) if len(set(labels)) > 1 else -1
+    except Exception:
+        sil, db = -1, -1
+    return labels, embeddings, {"silhouette": sil, "db": db}

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+gradio>=4.0.0
+sentence-transformers
+hdbscan
+scikit-learn
+umap-learn
+numpy
+pandas

viz_utils.py ADDED Viewed

	@@ -0,0 +1,40 @@

+import numpy as np
+import umap
+from sklearn.preprocessing import MinMaxScaler
+from collections import defaultdict
+import random
+def color_for_label(label):
+    random.seed(label + 1000)
+    return f"rgb({random.randint(50,200)}, {random.randint(50,200)}, {random.randint(50,200)})"
+def generate_force_graph(sentences, labels):
+    nodes = []
+    links = []
+    label_map = {}
+    for i, (s, l) in enumerate(zip(sentences, labels)):
+        color = color_for_label(l)
+        nodes.append({"name": s, "symbolSize": 10, "category": int(l), "itemStyle": {"color": color}})
+        label_map.setdefault(l, []).append(i)
+    for group in label_map.values():
+        for i in group:
+            for j in group:
+                if i < j:
+                    links.append({"source": sentences[i], "target": sentences[j]})
+    return {"type": "force", "nodes": nodes, "links": links}
+def generate_bubble_chart(sentences, labels):
+    counts = defaultdict(int)
+    for l in labels:
+        counts[l] += 1
+    data = [{"name": f"簇{l}", "value": v, "itemStyle": {"color": color_for_label(l)}} for l, v in counts.items()]
+    return {"type": "bubble", "series": [{"type": "scatter", "data": data}]}
+def generate_umap_plot(embeddings, labels):
+    reducer = umap.UMAP(n_components=2)
+    umap_emb = reducer.fit_transform(embeddings)
+    scaled = MinMaxScaler().fit_transform(umap_emb)
+    data = [{"x": float(x), "y": float(y), "label": int(l), "itemStyle": {"color": color_for_label(l)}}
+            for (x, y), l in zip(scaled, labels)]
+    return {"type": "scatter", "series": [{"data": data}]}