Spaces:

chen666-666
/

wechat-ner-re

Sleeping

App Files Files Community

chen666-666 commited on Apr 16

Commit

1d3964d

1 Parent(s): 6129c00

add app.py and requirements.txt

Browse files

Files changed (1) hide show

app.py +26 -9

app.py CHANGED Viewed

@@ -63,13 +63,6 @@ def visualize_kg_text():
     edges = [f"{h} --[{r}]-> {t}" for h, t, r in knowledge_graph["relations"]]
     return "\n".join(["📌 实体:"] + nodes + ["", "📎 关系:"] + edges)
-def visualize_kg_text():
-    nodes = [f"{ent[0]} ({ent[1]})" for ent in knowledge_graph["entities"]]
-    edges = [f"{h} --[{r}]-> {t}" for h, t, r in knowledge_graph["relations"]]
-    return "\n".join(["📌 实体:"] + nodes + ["", "📎 关系:"] + edges)
 # ======================== 实体识别（NER） ========================
 def merge_adjacent_entities(entities):
     merged = []
@@ -97,9 +90,32 @@ def merge_adjacent_entities(entities):
 def ner(text, model_type="bert"):
     start_time = time.time()
     if model_type == "chatglm" and use_chatglm:
-    # ... [原有ChatGLM代码保持不变] ...
-    # 修改6：优化BERT模型处理流程
     raw_results = bert_ner_pipeline(text)
     entities = []
     for r in raw_results:
@@ -115,6 +131,7 @@ def ner(text, model_type="bert"):
     entities = merge_adjacent_entities(entities)
     return entities, time.time() - start_time
 # ======================== 关系抽取（RE） ========================
 def re_extract(entities, text):
     # 修改7：添加实体类型过滤

     edges = [f"{h} --[{r}]-> {t}" for h, t, r in knowledge_graph["relations"]]
     return "\n".join(["📌 实体:"] + nodes + ["", "📎 关系:"] + edges)
 # ======================== 实体识别（NER） ========================
 def merge_adjacent_entities(entities):
     merged = []
 def ner(text, model_type="bert"):
     start_time = time.time()
     if model_type == "chatglm" and use_chatglm:
+        try:
+            prompt = f"""请从以下文本中识别所有实体，严格按照JSON列表格式返回，每个实体包含text、type、start、end字段：
+示例：[{{"text": "北京", "type": "LOC", "start": 0, "end": 2}}]
+文本：{text}"""
+            response = chatglm_model.chat(chatglm_tokenizer, prompt, temperature=0.1)
+            if isinstance(response, tuple):
+                response = response[0]
+            # 增强 JSON 解析
+            try:
+                json_str = re.search(r'\[.*\]', response, re.DOTALL).group()
+                entities = json.loads(json_str)
+                # 验证字段
+                valid_entities = []
+                for ent in entities:
+                    if all(k in ent for k in ("text", "type", "start", "end")):
+                        valid_entities.append(ent)
+                return valid_entities, time.time() - start_time
+            except Exception as e:
+                print(f"JSON 解析失败: {e}")
+                return [], time.time() - start_time
+        except Exception as e:
+            print(f"ChatGLM 调用失败：{e}")
+            return [], time.time() - start_time
+    # 使用微调的 BERT 中文 NER 模型
     raw_results = bert_ner_pipeline(text)
     entities = []
     for r in raw_results:
     entities = merge_adjacent_entities(entities)
     return entities, time.time() - start_time
 # ======================== 关系抽取（RE） ========================
 def re_extract(entities, text):
     # 修改7：添加实体类型过滤