Spaces:
Running
Running
Commit
ยท
fbdc62b
1
Parent(s):
ee9cdb8
Update app.py
Browse files
app.py
CHANGED
|
@@ -13,11 +13,12 @@ id2label = {0: "NEGATIVE", 1: "POSITIVE"}
|
|
| 13 |
label2id = {"NEGATIVE": 0, "POSITIVE": 1}
|
| 14 |
|
| 15 |
|
| 16 |
-
title = "
|
| 17 |
-
description = "์ํํ์ ์
๋ ฅํ์ฌ ๊ธ์ ์ ์ธ์ง ๋ถ์ ์ ์ธ์ง๋ฅผ ๋ถ๋ฅํ๋
|
| 18 |
-
|
| 19 |
-
|
| 20 |
-
|
|
|
|
| 21 |
class LanguageIdentification:
|
| 22 |
def __init__(self):
|
| 23 |
pretrained_lang_model = "./lid.176.ftz"
|
|
@@ -40,6 +41,7 @@ def tokenized_data(tokenizer, inputs):
|
|
| 40 |
truncation=True)
|
| 41 |
|
| 42 |
|
|
|
|
| 43 |
examples = []
|
| 44 |
df = pd.read_csv('examples.csv', sep='\t', index_col='Unnamed: 0')
|
| 45 |
np.random.seed(100)
|
|
@@ -148,29 +150,46 @@ def builder(Lang, Text):
|
|
| 148 |
return id2label[prediction.item()]
|
| 149 |
|
| 150 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 151 |
with gr.Blocks() as demo1:
|
| 152 |
gr.Markdown(
|
| 153 |
"""
|
| 154 |
<h1 align="center">
|
| 155 |
-
|
| 156 |
</h1>
|
| 157 |
""")
|
| 158 |
|
| 159 |
gr.Markdown(
|
| 160 |
"""
|
| 161 |
-
์ํ ๋ฆฌ๋ทฐ๋ฅผ ์
๋ ฅํ๋ฉด,
|
| 162 |
-
์์ด์ ํ๊ธ์ ์ง์ํ๋ฉฐ, ์ธ์ด๋ฅผ ์ง์ ์ ํํ ์๋, ํน์ ๋ชจ๋ธ์ด ์ธ์ด๊ฐ์ง๋ฅผ ์ง์ ํ๋๋ก ํ ์
|
| 163 |
๋ฆฌ๋ทฐ๋ฅผ ์
๋ ฅํ๋ฉด, (1) ๊ฐ์ง๋ ์ธ์ด, (2) ๊ธ์ ๋ฆฌ๋ทฐ์ผ ํ๋ฅ ๊ณผ ๋ถ์ ๋ฆฌ๋ทฐ์ผ ํ๋ฅ , (3) ์
๋ ฅ๋ ๋ฆฌ๋ทฐ์ ์ด๋ ๋จ์ด๊ฐ ๊ธ์ /๋ถ์ ๊ฒฐ์ ์ ์ํฅ์ ์ฃผ์๋์ง \
|
| 164 |
-
(๊ธ์ ์ผ ๊ฒฝ์ฐ ๋นจ๊ฐ์, ๋ถ์ ์ผ ๊ฒฝ์ฐ ํ๋์)๋ฅผ ํ์ธํ ์
|
| 165 |
""")
|
| 166 |
|
| 167 |
with gr.Accordion(label="๋ชจ๋ธ์ ๋ํ ์ค๋ช
( ์ฌ๊ธฐ๋ฅผ ํด๋ฆญ ํ์์ค. )", open=False):
|
| 168 |
gr.Markdown(
|
| 169 |
"""
|
| 170 |
-
์์ด ๋ชจ๋ธ์ bert-base-uncased ๊ธฐ๋ฐ์ผ๋ก, ์์ด ์ํ ๋ฆฌ๋ทฐ ๋ถ์ ๋ฐ์ดํฐ์
์ธ SST-2๋ก ํ์ต ๋ฐ
|
| 171 |
-
ํ๊ธ ๋ชจ๋ธ์ klue/roberta-base ๊ธฐ๋ฐ์ด๋ค. ๊ธฐ์กด ํ๊ธ ์ํ ๋ฆฌ๋ทฐ ๋ถ์ ๋ฐ์ดํฐ์
์ด ์กด์ฌํ์ง ์์, ๋ค์ด๋ฒ ์ํ์ ๋ฆฌ๋ทฐ๋ฅผ ํฌ๋กค๋งํด์ ์ํ ๋ฆฌ๋ทฐ ๋ถ์ ๋ฐ์ดํฐ์
์ ์ ์ํ๊ณ , ์ด๋ฅผ ์ด์ฉํ์ฌ ๋ชจ๋ธ์ ํ์ต ๋ฐ
|
| 172 |
-
์์ด ๋ชจ๋ธ์ SST-2์์ 92.8%, ํ๊ธ ๋ชจ๋ธ์ ๋ค์ด๋ฒ ์ํ ๋ฆฌ๋ทฐ ๋ฐ์ดํฐ์
์์ 94%์ ์ ํ๋๋ฅผ
|
| 173 |
-
์ธ์ด๊ฐ์ง๋ fasttext์ language detector๋ฅผ ์ฌ์ฉํ์๋ค. ๋ฆฌ๋ทฐ์ ๋จ์ด๋ณ ์ํฅ๋ ฅ์, ๋จ์ด ๊ฐ๊ฐ์ ๋ชจ๋ธ์ ๋ฃ์์ ๋ ๊ฒฐ๊ณผ๊ฐ ๊ธ์ ์ผ๋ก ๋์ค๋์ง ๋ถ์ ์ผ๋ก ๋์ค๋์ง๋ฅผ ๋ฐํ์ผ๋ก
|
| 174 |
""")
|
| 175 |
|
| 176 |
with gr.Row():
|
|
|
|
| 13 |
label2id = {"NEGATIVE": 0, "POSITIVE": 1}
|
| 14 |
|
| 15 |
|
| 16 |
+
title = "์ํ ๋ฆฌ๋ทฐ ์ ์ ํ๋ณ๊ธฐ"
|
| 17 |
+
description = "์ํํ์ ์
๋ ฅํ์ฌ ๊ธ์ ์ ์ธ์ง ๋ถ์ ์ ์ธ์ง๋ฅผ ๋ถ๋ฅํ๋ ํ๋ก๊ทธ๋จ์
๋๋ค. \
|
| 18 |
+
ํ๊ตญ์ด ๋ฒ์ ๊ณผ ์์ด ๋ฒ์ ์ค์์ ์ ํํ ์ ์์ต๋๋ค. \
|
| 19 |
+
ํ๊ตญ์ด์ธ์ง ์์ด์ธ์ง ํ๋จํ๊ณ ์์ธกํด์ฃผ๋ ""Default""๋ผ๋ ๋ฒ์ ๋ ์ ๊ณตํฉ๋๋ค."
|
| 20 |
+
|
| 21 |
+
|
| 22 |
class LanguageIdentification:
|
| 23 |
def __init__(self):
|
| 24 |
pretrained_lang_model = "./lid.176.ftz"
|
|
|
|
| 41 |
truncation=True)
|
| 42 |
|
| 43 |
|
| 44 |
+
|
| 45 |
examples = []
|
| 46 |
df = pd.read_csv('examples.csv', sep='\t', index_col='Unnamed: 0')
|
| 47 |
np.random.seed(100)
|
|
|
|
| 150 |
return id2label[prediction.item()]
|
| 151 |
|
| 152 |
|
| 153 |
+
# demo3 = gr.Interface.load("models/mdj1412/movie_review_score_discriminator_eng", inputs="text", outputs="text",
|
| 154 |
+
# title=title, theme="peach",
|
| 155 |
+
# allow_flagging="auto",
|
| 156 |
+
# description=description, examples=examples)
|
| 157 |
+
|
| 158 |
+
|
| 159 |
+
|
| 160 |
+
# demo = gr.Interface(builder, inputs=[gr.inputs.Dropdown(['Default', 'Eng', 'Kor']), gr.Textbox(placeholder="๋ฆฌ๋ทฐ๋ฅผ ์
๋ ฅํ์์ค.")],
|
| 161 |
+
# outputs=[ gr.Label(num_top_classes=3, label='Lang'),
|
| 162 |
+
# gr.Label(num_top_classes=2, label='Result'),
|
| 163 |
+
# gr.HighlightedText(label="Analysis", combine_adjacent=False)
|
| 164 |
+
# .style(color_map={"+++": "#CF0000", "++": "#FF3232", "+": "#FFD4D4", "---": "#0004FE", "--": "#4C47FF", "-": "#BEBDFF"}) ],
|
| 165 |
+
# # outputs='label',
|
| 166 |
+
# title=title, description=description, examples=examples)
|
| 167 |
+
|
| 168 |
+
|
| 169 |
+
|
| 170 |
with gr.Blocks() as demo1:
|
| 171 |
gr.Markdown(
|
| 172 |
"""
|
| 173 |
<h1 align="center">
|
| 174 |
+
์ํ ๋ฆฌ๋ทฐ ์ ์ ํ๋ณ๊ธฐ
|
| 175 |
</h1>
|
| 176 |
""")
|
| 177 |
|
| 178 |
gr.Markdown(
|
| 179 |
"""
|
| 180 |
+
์ํ ๋ฆฌ๋ทฐ๋ฅผ ์
๋ ฅํ๋ฉด, ๋ฆฌ๋ทฐ๊ฐ ๊ธ์ ์ธ์ง ๋ถ์ ์ธ์ง ํ๋ณํด์ฃผ๋ ๋ชจ๋ธ์ด๋ค. \
|
| 181 |
+
์์ด์ ํ๊ธ์ ์ง์ํ๋ฉฐ, ์ธ์ด๋ฅผ ์ง์ ์ ํํ ์๋, ํน์ ๋ชจ๋ธ์ด ์ธ์ด๊ฐ์ง๋ฅผ ์ง์ ํ๋๋ก ํ ์ ์๋ค.
|
| 182 |
๋ฆฌ๋ทฐ๋ฅผ ์
๋ ฅํ๋ฉด, (1) ๊ฐ์ง๋ ์ธ์ด, (2) ๊ธ์ ๋ฆฌ๋ทฐ์ผ ํ๋ฅ ๊ณผ ๋ถ์ ๋ฆฌ๋ทฐ์ผ ํ๋ฅ , (3) ์
๋ ฅ๋ ๋ฆฌ๋ทฐ์ ์ด๋ ๋จ์ด๊ฐ ๊ธ์ /๋ถ์ ๊ฒฐ์ ์ ์ํฅ์ ์ฃผ์๋์ง \
|
| 183 |
+
(๊ธ์ ์ผ ๊ฒฝ์ฐ ๋นจ๊ฐ์, ๋ถ์ ์ผ ๊ฒฝ์ฐ ํ๋์)๋ฅผ ํ์ธํ ์ ์๋ค.
|
| 184 |
""")
|
| 185 |
|
| 186 |
with gr.Accordion(label="๋ชจ๋ธ์ ๋ํ ์ค๋ช
( ์ฌ๊ธฐ๋ฅผ ํด๋ฆญ ํ์์ค. )", open=False):
|
| 187 |
gr.Markdown(
|
| 188 |
"""
|
| 189 |
+
์์ด ๋ชจ๋ธ์ bert-base-uncased ๊ธฐ๋ฐ์ผ๋ก, ์์ด ์ํ ๋ฆฌ๋ทฐ ๋ถ์ ๋ฐ์ดํฐ์
์ธ SST-2๋ก ํ์ต ๋ฐ ํ๊ฐ๋์๋ค.
|
| 190 |
+
ํ๊ธ ๋ชจ๋ธ์ klue/roberta-base ๊ธฐ๋ฐ์ด๋ค. ๊ธฐ์กด ํ๊ธ ์ํ ๋ฆฌ๋ทฐ ๋ถ์ ๋ฐ์ดํฐ์
์ด ์กด์ฌํ์ง ์์, ๋ค์ด๋ฒ ์ํ์ ๋ฆฌ๋ทฐ๋ฅผ ํฌ๋กค๋งํด์ ์ํ ๋ฆฌ๋ทฐ ๋ถ์ ๋ฐ์ดํฐ์
์ ์ ์ํ๊ณ , ์ด๋ฅผ ์ด์ฉํ์ฌ ๋ชจ๋ธ์ ํ์ต ๋ฐ ํ๊ฐํ์๋ค.
|
| 191 |
+
์์ด ๋ชจ๋ธ์ SST-2์์ 92.8%, ํ๊ธ ๋ชจ๋ธ์ ๋ค์ด๋ฒ ์ํ ๋ฆฌ๋ทฐ ๋ฐ์ดํฐ์
์์ 94%์ ์ ํ๋๋ฅผ ๊ฐ์ง๋ค (test set ๊ธฐ์ค).
|
| 192 |
+
์ธ์ด๊ฐ์ง๋ fasttext์ language detector๋ฅผ ์ฌ์ฉํ์๋ค. ๋ฆฌ๋ทฐ์ ๋จ์ด๋ณ ์ํฅ๋ ฅ์, ๋จ์ด ๊ฐ๊ฐ์ ๋ชจ๋ธ์ ๋ฃ์์ ๋ ๊ฒฐ๊ณผ๊ฐ ๊ธ์ ์ผ๋ก ๋์ค๋์ง ๋ถ์ ์ผ๋ก ๋์ค๋์ง๋ฅผ ๋ฐํ์ผ๋ก ์ธก์ ํ์๋ค.
|
| 193 |
""")
|
| 194 |
|
| 195 |
with gr.Row():
|