Spaces:

blueradiance
/

masking

Build error

App Files Files Community

blueradiance commited on Apr 16

Commit

152453b

verified ·

1 Parent(s): 9510376

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -25

app.py CHANGED Viewed

@@ -1,3 +1,6 @@
 school_name_candidates = []
@@ -14,28 +17,19 @@ def mask_school_names(text):
         else:
             return full
-    # 붙어 있는 학교명 (수원매화초등학교)
     text = re.sub(r"(\b[가-힣]{2,20})(초등학교|중학교|고등학교)", replacer, text)
-    # 후처리: 띄어쓰기 있는 패턴 (수원 매화 초등학교 등)
     for name in school_name_candidates:
         pattern = rf"{re.escape(name)}\s?(초등학교|중학교|고등학교)"
         text = re.sub(pattern, to_chosung(name) + " " + r"\1", text)
     return text
-import gradio as gr
-from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline
-import re
-# 모델 초기화
 model_name = "Leo97/KoELECTRA-small-v3-modu-ner"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForTokenClassification.from_pretrained(model_name)
 ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer, grouped_entities=True)
 def extract_names(text):
-    # 1. 기존 NER 기반 추출
     results = ner_pipeline(text)
     names = []
     for entity in results:
@@ -44,19 +38,13 @@ def extract_names(text):
             if len(name) >= 2 and name not in names:
                 names.append(name)
-    # 2. 직함 기반 이름 추출 보강
     title_suffixes = [
-        # 회사 직함
         '대표', '이사', '전무', '상무', '부장', '차장', '과장', '대리', '사원', '실장', '팀장', '소장', '국장', '본부장',
-        # 교육 관련
         '선생님', '교사', '교장', '교감', '부교장', '조교수', '교수', '연구원', '박사', '석사', '학사',
-        # 학생 관련
         '학생', '고등학생', '중학생', '초등학생', '학부모', '수험생',
-        # 기타 사회 호칭
         '주임', '총무', '회장', '부회장', '사무장', '간호사', '의사', '원장', '기사님', '매니저', '지점장'
     ]
-    # ex: 김과장, 이선생님, 박학생 등 추출
     pattern = r'\b([가-힣]{2,4})(' + '|'.join(title_suffixes) + r')\b'
     matches = re.findall(pattern, text)
     for match in matches:
@@ -66,7 +54,6 @@ def extract_names(text):
     return names
 def refactored_mask_names(original_text, names, start_counter=100):
     korean_josa = ['이가','를','은','는','을','도','만','과','와','에게','에서','으로',
                    '까지','조차','마저','이며','이다','이나','이나마','밖에','이든','이라도',
@@ -109,16 +96,32 @@ def to_chosung(text):
             result += ch
     return result
 def mask_department(text):
     text = re.sub(r"([가-힣]{2,20}학과)", lambda m: to_chosung(m.group(1)[:-2]) + "학과", text)
     return text
 def sanitize_sensitive_info(text, keyword_string, replace_word):
     text = mask_school_names(text)
     text = mask_department(text)
     text = re.sub(r"(\d)학년(\s?(\d)반)?", lambda m: "*학년" + (" *반" if m.group(3) else ""), text)
     text = re.sub(r"(\d)학년\s?(\d)반", r"*학년 *반", text)
@@ -134,10 +137,15 @@ def sanitize_sensitive_info(text, keyword_string, replace_word):
     text = re.sub(r"[\w\.-]+@[\w\.-]+", r"******@****", text)
     text = re.sub(r"(\d{6})[-](\d)\d{6}", r"*******-\2*****", text)
     text = re.sub(r"([가-힣]+(대로|로|길))\s?(\d+)(호|번길|가)?", r"\1 ***", text)
-    text = re.sub(r"(\d{2,6})[-]?(\d{2,6})[-]?(\d{2,6})", lambda m: f"{m.group(1)[:2]}{'*'*(len(m.group(1))-2)}{'*'*len(m.group(2))}{m.group(3)[-4:]}", text)
-    text = re.sub(r"(\d{4})[- ]?(\d{4})[- ]?(\d{4})[- ]?(\d{4})", lambda m: f"{m.group(1)}-****-****-{m.group(4)}", text)
-    text = re.sub(r"(\d{1,3})\.(\d{1,3})\.(\d{1,3})\.(\d{1,3})", lambda m: f"{m.group(1)}.{m.group(2)}.*.*", text)
-    text = re.sub(r"([가-힣]{1,10})(은행|동|로|길)\s?([\d\-]{4,})", lambda m: m.group(1) + m.group(2) + " " + re.sub(r"\d", "*", m.group(3)), text)
     return text
 def final_name_remask_exact_only(text, mapping_dict):
@@ -169,7 +177,6 @@ with gr.Blocks() as demo:
     gr.Markdown("""
 🛡️ **민감정보 마스킹 [땡땡이 마스킹]**
 이름 + 민감정보 + 초/중/고 마스킹기 (초성 기반)
 ⚠️ *완벽하지 않을 수 있습니다. 반드시 직접 최종 점검하세요.*
 """)
     input_text = gr.Textbox(lines=15, label="📥 원본 텍스트 입력")
@@ -178,7 +185,7 @@ with gr.Blocks() as demo:
     run_button = gr.Button("🚀 마스킹 실행")
     masked_output = gr.Textbox(lines=15, label="🔐 마스킹된 텍스트")
     mapping_output = gr.Textbox(lines=10, label="🏷️ 이름 태그 매핑", interactive=False)
     run_button.click(fn=apply_masking, inputs=[input_text, keyword_input, replace_input], outputs=[masked_output, mapping_output])
 demo.launch()

+import re
+import gradio as gr
+from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline
 school_name_candidates = []
         else:
             return full
     text = re.sub(r"(\b[가-힣]{2,20})(초등학교|중학교|고등학교)", replacer, text)
     for name in school_name_candidates:
         pattern = rf"{re.escape(name)}\s?(초등학교|중학교|고등학교)"
         text = re.sub(pattern, to_chosung(name) + " " + r"\1", text)
     return text
 model_name = "Leo97/KoELECTRA-small-v3-modu-ner"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForTokenClassification.from_pretrained(model_name)
 ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer, grouped_entities=True)
 def extract_names(text):
     results = ner_pipeline(text)
     names = []
     for entity in results:
             if len(name) >= 2 and name not in names:
                 names.append(name)
     title_suffixes = [
         '대표', '이사', '전무', '상무', '부장', '차장', '과장', '대리', '사원', '실장', '팀장', '소장', '국장', '본부장',
         '선생님', '교사', '교장', '교감', '부교장', '조교수', '교수', '연구원', '박사', '석사', '학사',
         '학생', '고등학생', '중학생', '초등학생', '학부모', '수험생',
         '주임', '총무', '회장', '부회장', '사무장', '간호사', '의사', '원장', '기사님', '매니저', '지점장'
     ]
     pattern = r'\b([가-힣]{2,4})(' + '|'.join(title_suffixes) + r')\b'
     matches = re.findall(pattern, text)
     for match in matches:
     return names
 def refactored_mask_names(original_text, names, start_counter=100):
     korean_josa = ['이가','를','은','는','을','도','만','과','와','에게','에서','으로',
                    '까지','조차','마저','이며','이다','이나','이나마','밖에','이든','이라도',
             result += ch
     return result
 def mask_department(text):
     text = re.sub(r"([가-힣]{2,20}학과)", lambda m: to_chosung(m.group(1)[:-2]) + "학과", text)
     return text
+def mask_general_human_terms(text):
+    human_terms = [
+        '엄마', '아빠', '어머니', '아버지', '부모', '부모님', '자식', '아들', '딸',
+        '할아버지', '할머니', '외할아버지', '외할머니',
+        '형', '누나', '오빠', '언니', '동생', '형제', '자매',
+        '이모', '고모', '삼촌', '외삼촌', '숙모', '고모부', '이모부', '조카', '손자', '손녀', '사촌',
+        '사위', '며느리', '장모', '장인', '처제', '시누이', '형수', '제수씨', '매형', '올케',
+        '아동', '아이', '학생', '주민', '피해자', '당사자', '보호자', '가족',
+        r'[가-힣]{1,3}씨', r'[가-힣]{1,3}님', r'[가-힣]{1,3}양', r'[가-힣]{1,3}군', r'[가-힣]{1,3}어르신'
+    ]
+    for term in human_terms:
+        pattern = rf'\b{term}\b'
+        text = re.sub(pattern, '○○○', text)
+    return text
 def sanitize_sensitive_info(text, keyword_string, replace_word):
     text = mask_school_names(text)
     text = mask_department(text)
+    text = mask_general_human_terms(text)
     text = re.sub(r"(\d)학년(\s?(\d)반)?", lambda m: "*학년" + (" *반" if m.group(3) else ""), text)
     text = re.sub(r"(\d)학년\s?(\d)반", r"*학년 *반", text)
     text = re.sub(r"[\w\.-]+@[\w\.-]+", r"******@****", text)
     text = re.sub(r"(\d{6})[-](\d)\d{6}", r"*******-\2*****", text)
     text = re.sub(r"([가-힣]+(대로|로|길))\s?(\d+)(호|번길|가)?", r"\1 ***", text)
+    text = re.sub(r"(\d{2,6})[-]?(\d{2,6})[-]?(\d{2,6})",
+                  lambda m: f"{m.group(1)[:2]}{'*'*(len(m.group(1))-2)}{'*'*len(m.group(2))}{m.group(3)[-4:]}", text)
+    text = re.sub(r"(\d{4})[- ]?(\d{4})[- ]?(\d{4})[- ]?(\d{4})",
+                  lambda m: f"{m.group(1)}-****-****-{m.group(4)}", text)
+    text = re.sub(r"(\d{1,3})\.(\d{1,3})\.(\d{1,3})\.(\d{1,3})",
+                  lambda m: f"{m.group(1)}.{m.group(2)}.*.*", text)
+    text = re.sub(r"([가-힣]{1,10})(은행|동|로|길)\s?([\d\-]{4,})",
+                  lambda m: m.group(1) + m.group(2) + " " + re.sub(r"\d", "*", m.group(3)), text)
     return text
 def final_name_remask_exact_only(text, mapping_dict):
     gr.Markdown("""
 🛡️ **민감정보 마스킹 [땡땡이 마스킹]**
 이름 + 민감정보 + 초/중/고 마스킹기 (초성 기반)
 ⚠️ *완벽하지 않을 수 있습니다. 반드시 직접 최종 점검하세요.*
 """)
     input_text = gr.Textbox(lines=15, label="📥 원본 텍스트 입력")
     run_button = gr.Button("🚀 마스킹 실행")
     masked_output = gr.Textbox(lines=15, label="🔐 마스킹된 텍스트")
     mapping_output = gr.Textbox(lines=10, label="🏷️ 이름 태그 매핑", interactive=False)
     run_button.click(fn=apply_masking, inputs=[input_text, keyword_input, replace_input], outputs=[masked_output, mapping_output])
 demo.launch()