Spaces:

RyanS974
/

525GradioApp

Sleeping

App Files Files Community

Ryan commited on Apr 21

Commit

1b72959

1 Parent(s): 4b11d86

update

Browse files

Files changed (1) hide show

processors/topic_modeling.py +57 -0

processors/topic_modeling.py CHANGED Viewed

@@ -115,4 +115,61 @@ def extract_topics(texts, n_topics=3, n_top_words=10, method="lda"):
             "distribution": normalized_dist.tolist()
         })
     return result

             "distribution": normalized_dist.tolist()
         })
+    return result
+def compare_topics(texts_set_1, texts_set_2, n_topics=3, n_top_words=10, method="lda"):
+    """
+    Compare topics between two sets of texts
+    Args:
+        texts_set_1 (list): First list of text documents
+        texts_set_2 (list): Second list of text documents
+        n_topics (int): Number of topics to extract
+        n_top_words (int): Number of top words per topic
+        method (str): Topic modeling method ('lda' or 'nmf')
+    Returns:
+        dict: Comparison results with topics from both sets and similarity metrics
+    """
+    # Extract topics for each set
+    topics_set_1 = extract_topics(texts_set_1, n_topics, n_top_words, method)
+    topics_set_2 = extract_topics(texts_set_2, n_topics, n_top_words, method)
+    # Calculate similarity between topics
+    similarity_matrix = []
+    for topic1 in topics_set_1["topics"]:
+        topic_similarities = []
+        words1 = set(topic1["words"])
+        for topic2 in topics_set_2["topics"]:
+            words2 = set(topic2["words"])
+            # Jaccard similarity: intersection over union
+            intersection = len(words1.intersection(words2))
+            union = len(words1.union(words2))
+            similarity = intersection / union if union > 0 else 0
+            topic_similarities.append(similarity)
+        similarity_matrix.append(topic_similarities)
+    # Find the best matching topic pairs
+    matched_topics = []
+    for i, similarities in enumerate(similarity_matrix):
+        best_match_idx = np.argmax(similarities)
+        matched_topics.append({
+            "set1_topic_id": i,
+            "set1_topic_words": topics_set_1["topics"][i]["words"],
+            "set2_topic_id": best_match_idx,
+            "set2_topic_words": topics_set_2["topics"][best_match_idx]["words"],
+            "similarity": similarities[best_match_idx]
+        })
+    # Construct result
+    result = {
+        "method": method,
+        "n_topics": n_topics,
+        "set1_topics": topics_set_1["topics"],
+        "set2_topics": topics_set_2["topics"],
+        "similarity_matrix": similarity_matrix,
+        "matched_topics": matched_topics,
+        "average_similarity": np.mean([match["similarity"] for match in matched_topics])
+    }
     return result