Spaces:

blueradiance
/

masking

Build error

App Files Files Community

blueradiance commited on Apr 17

Commit

a759d12

verified ·

1 Parent(s): ee2c558

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -14

app.py CHANGED Viewed

@@ -27,18 +27,22 @@ def mask_school_names(text):
 model_name = "Leo97/KoELECTRA-small-v3-modu-ner"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForTokenClassification.from_pretrained(model_name)
-ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer, grouped_entities=True)
 def extract_names(text):
-    results = ner_pipeline(text)
     names = []
     for entity in results:
-        if entity["entity_group"] == "PS":
             name = entity["word"].replace("##", "").strip()
             if len(name) >= 2 and name not in names:
                 names.append(name)
-    # 붙임형 직함 기반
     title_suffixes = [
         '대표', '이사', '전무', '상무', '부장', '차장', '과장', '대리', '사원', '실장', '팀장', '소장', '국장', '본부장',
         '선생님', '교사', '교장', '교감', '부교장', '조교수', '교수', '연구원', '박사', '석사', '학사',
@@ -52,7 +56,6 @@ def extract_names(text):
         if name not in names:
             names.append(name)
-    # 띄어쓰기 있는 지칭어 형태에서도 이름 추출
     honorific_suffixes = [
         '어머니', '아버지', '엄마', '아빠', '할머니', '할아버지', '외할머니', '외할아버지',
         '형', '누나', '언니', '오빠', '동생', '아들', '딸',
@@ -105,12 +108,3 @@ def refactored_mask_names(original_text, names, start_counter=100):
 def to_chosung(text):
     CHOSUNG_LIST = [chr(i) for i in range(0x1100, 0x1113)]
-    result = ""
-    for ch in text:
-        if '가' <= ch <= '힣':
-            code = ord(ch) - ord('가')
-            cho = code // 588
-            result += CHOSUNG_LIST[cho]
-        else:
-            result += ch
-    return result

 model_name = "Leo97/KoELECTRA-small-v3-modu-ner"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForTokenClassification.from_pretrained(model_name)
+ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")
 def extract_names(text):
+    try:
+        results = ner_pipeline(text)
+    except Exception as e:
+        print("NER 오류 발생:", e)
+        return []
     names = []
     for entity in results:
+        if entity.get("entity_group") == "PS":
             name = entity["word"].replace("##", "").strip()
             if len(name) >= 2 and name not in names:
                 names.append(name)
     title_suffixes = [
         '대표', '이사', '전무', '상무', '부장', '차장', '과장', '대리', '사원', '실장', '팀장', '소장', '국장', '본부장',
         '선생님', '교사', '교장', '교감', '부교장', '조교수', '교수', '연구원', '박사', '석사', '학사',
         if name not in names:
             names.append(name)
     honorific_suffixes = [
         '어머니', '아버지', '엄마', '아빠', '할머니', '할아버지', '외할머니', '외할아버지',
         '형', '누나', '언니', '오빠', '동생', '아들', '딸',
 def to_chosung(text):
     CHOSUNG_LIST = [chr(i) for i in range(0x1100, 0x1113)]