Spaces:

blueradiance
/

masking

Build error

App Files Files Community

blueradiance commited on Apr 16

Commit

9510376

verified ·

1 Parent(s): 7c61b5f

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -0

app.py CHANGED Viewed

@@ -35,6 +35,7 @@ model = AutoModelForTokenClassification.from_pretrained(model_name)
 ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer, grouped_entities=True)
 def extract_names(text):
     results = ner_pipeline(text)
     names = []
     for entity in results:
@@ -42,8 +43,30 @@ def extract_names(text):
             name = entity["word"].replace("##", "").strip()
             if len(name) >= 2 and name not in names:
                 names.append(name)
     return names
 def refactored_mask_names(original_text, names, start_counter=100):
     korean_josa = ['이가','를','은','는','을','도','만','과','와','에게','에서','으로',
                    '까지','조차','마저','이며','이다','이나','이나마','밖에','이든','이라도',

 ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer, grouped_entities=True)
 def extract_names(text):
+    # 1. 기존 NER 기반 추출
     results = ner_pipeline(text)
     names = []
     for entity in results:
             name = entity["word"].replace("##", "").strip()
             if len(name) >= 2 and name not in names:
                 names.append(name)
+    # 2. 직함 기반 이름 추출 보강
+    title_suffixes = [
+        # 회사 직함
+        '대표', '이사', '전무', '상무', '부장', '차장', '과장', '대리', '사원', '실장', '팀장', '소장', '국장', '본부장',
+        # 교육 관련
+        '선생님', '교사', '교장', '교감', '부교장', '조교수', '교수', '연구원', '박사', '석사', '학사',
+        # 학생 관련
+        '학생', '고등학생', '중학생', '초등학생', '학부모', '수험생',
+        # 기타 사회 호칭
+        '주임', '총무', '회장', '부회장', '사무장', '간호사', '의사', '원장', '기사님', '매니저', '지점장'
+    ]
+    # ex: 김과장, 이선생님, 박학생 등 추출
+    pattern = r'\b([가-힣]{2,4})(' + '|'.join(title_suffixes) + r')\b'
+    matches = re.findall(pattern, text)
+    for match in matches:
+        name = match[0]
+        if name not in names:
+            names.append(name)
     return names
 def refactored_mask_names(original_text, names, start_counter=100):
     korean_josa = ['이가','를','은','는','을','도','만','과','와','에게','에서','으로',
                    '까지','조차','마저','이며','이다','이나','이나마','밖에','이든','이라도',