Spaces:

CxGrammar
/

CxGParser

Runtime error

App Files Files Community

yaowenxu commited on Aug 10

Commit

b50ea7f

1 Parent(s): 7afc79c

Update app.py

Browse files

Signed-off-by: Michael_Xu <[email protected]>

Files changed (7) hide show

.gitattributes +3 -36
Dockerfile +3 -10
README.md +15 -1
app.py +87 -48
data/eng/1.0/learner_examplar_1.0.json +3 -0
data/{learner_examplar_1.1.json → eng/1.1/learner_examplar_1.1.json} +0 -0
requirements.txt +1 -1

.gitattributes CHANGED Viewed

@@ -1,36 +1,3 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text
-data/learner_examplar_1.1.json filter=lfs diff=lfs merge=lfs -text

+# This file is used to manage Git LFS (Large File Storage) for specific files in the repository.
+data/eng/1.0/learner_examplar_1.0.json filter=lfs diff=lfs merge=lfs -text
+data/eng/1.1/learner_examplar_1.1.json filter=lfs diff=lfs merge=lfs -text

Dockerfile CHANGED Viewed

@@ -1,6 +1,8 @@
 FROM python:3.10
-# 安装系统依赖
 RUN apt-get update && apt-get install -y \
     git \
     cmake \
@@ -16,28 +18,19 @@ RUN pip install -U --no-cache-dir \
     spacy==3.5.0 \
     torch==1.13.1
-# 复制依赖文件
 COPY requirements.txt .
-# 安装 Python 依赖
 RUN pip install -r requirements.txt
 RUN pip install -U --no-cache-dir \
     numpy==1.24.1
-# 下载 spaCy 模型
 RUN python -m spacy download en_core_web_sm
-# 安装 ffrecord 库
 RUN pip install git+https://github.com/HFAiLab/ffrecord.git
-# 设置工作目录
 WORKDIR /app
-# 复制应用文件
-COPY . .
-# 复制应用代码
 COPY . .
 ENV PYTHONPATH=/app

 FROM python:3.10
+LABEL maintainer="CxGrammar Team"
+LABEL org.opencontainers.image.source=https://github.com/cxgrammar/cxglearner
 RUN apt-get update && apt-get install -y \
     git \
     cmake \
     spacy==3.5.0 \
     torch==1.13.1
 COPY requirements.txt .
 RUN pip install -r requirements.txt
 RUN pip install -U --no-cache-dir \
     numpy==1.24.1
 RUN python -m spacy download en_core_web_sm
 RUN pip install git+https://github.com/HFAiLab/ffrecord.git
 WORKDIR /app
 COPY . .
 ENV PYTHONPATH=/app

README.md CHANGED Viewed

@@ -9,4 +9,18 @@ license: mit
 short_description: The Parser Component of CxGLearner
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 short_description: The Parser Component of CxGLearner
 ---
+# CxGParser
+CxG Induction Tools.
+## Citation
+If you use GxGLearner in your research, please cite [CoELM: Construction-Enhanced Language Modeling](https://aclanthology.org/2024.acl-long.542/).
+```
+@inproceedings{xu2024coelm,
+  title={CoELM: Construction-Enhanced Language Modeling},
+  author={Xu, Lvxiaowei and Gong, Zhilin and Dai, Jianhua and Wang, Tianxiang and Cai, Ming and Peng, Jiawei},
+  booktitle={Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)},
+  pages={10061--10081},
+  year={2024}
+}
+```

app.py CHANGED Viewed

@@ -1,95 +1,133 @@
-import gradio as gr
-import pandas as pd
-import numpy as np
-import tempfile
-import random
-import os
 import json
 from pathlib import Path
 from cxglearner.parser import Parser
 from cxglearner.config import DefaultConfigs, Config
 from cxglearner.utils import init_logger
 from cxglearner.utils.utils_cxs import convert_slots_to_str
-temp_dir = tempfile.gettempdir()
-log_dir = Path(temp_dir) / "logs"
-log_dir.mkdir(exist_ok=True)
-cahce_dir = Path(temp_dir) / "cache"
 config = Config(DefaultConfigs.eng)
-config.experiment.log_path = log_dir / "eng.log"
 logger = init_logger(config)
-parser = Parser(config=config, version="1.1", logger=logger, cache_dir=cahce_dir)
-examples = [["she should be more polite with the customers."]]
-MAX_EXAMPLAR = 10
-with open("data/learner_examplar_1.1.json", "r", encoding="utf-8") as fp:
-    examplars = json.load(fp)
-logger.debug(len(examplars))
 def fill_input_box(example):
     return example[0]
-def parse_text(text):
-    if not text: return gr.Dataframe(),  gr.update(choices=[], value=None), gr.Dataframe()
     encoded_elements = parser.encoder.encode(text, raw=True)
-    tokens, upos, xpos = np.array(encoded_elements["lexical"]), np.array(encoded_elements["upos"]["spaCy"]), np.array(
-        encoded_elements["xpos"]["spaCy"])
     encoded_elements = np.vstack((tokens, upos, xpos))
     radio_parsed = parser.parse(text)
-    radio_parsed = ["{} | {} | {}-{}".format(cxs[0],
-                            convert_slots_to_str(parser.cxs_decoder[cxs[0]], parser.encoder, logger), cxs[1] + 1, cxs[2])
-                    for cxs in radio_parsed[0]]
     if len(radio_parsed) == 0:
         radio_display = gr.Radio(label="Constructions", choices=[])
     else:
-        radio_display = gr.Radio(
-            label="Constructions", choices=radio_parsed, interactive=True, value=radio_parsed[0]
-        )
     if len(radio_parsed) == 0:
-        cons_df = pd.DataFrame()
     else:
         cxs = radio_parsed[0]
         index, cxs, ranges = cxs.split("|")
         cxs = cxs.strip()
         if cxs in examplars:
             exams = random.choices(examplars[cxs], k=min(MAX_EXAMPLAR, len(examplars[cxs])))
-            cons_df =  pd.DataFrame(exams, columns=[cxs])
         else:
-            cons_df = pd.DataFrame()
-    return encoded_elements, radio_display, cons_df
-def refresh_examplar(option: str):
-    print(option)
     index, cxs, ranges = option.split("|")
     index = eval(index)
     cxs = cxs.strip()
     if cxs in examplars:
         exams = random.choices(examplars[cxs], k=min(MAX_EXAMPLAR, len(examplars[cxs])))
-        return pd.DataFrame(exams, columns=[cxs])
     return pd.DataFrame()
-def clear_text():
-    return "", pd.DataFrame(), gr.Radio(label="Constructions", choices=[]), pd.DataFrame()
 with gr.Blocks() as demo:
     with gr.Column():
         gr.Markdown("## CxGLearner Parser")
         with gr.Row():
             input_text = gr.Textbox(label="Input Text", placeholder="Enter a sentence here...")
         with gr.Row():
-            dataset = gr.Dataset(components=[input_text],
-                                 samples=examples,
-                                 label="Click an example")
-            clear_buttton = gr.Button("Clear")
-            parser_button = gr.Button("Parse")
     with gr.Column():
         gr.Markdown("### Results of Encoding and Parsing")
@@ -100,9 +138,10 @@ with gr.Blocks() as demo:
         gr.Markdown("### Examplars")
         cons_display = gr.Dataframe()
-    parser_button.click(fn=parse_text, inputs=[input_text], outputs=[enc_display, cxs_display, cons_display])
-    clear_buttton.click(fn=clear_text, inputs=[], outputs=[input_text, enc_display, cxs_display, cons_display])
     dataset.click(fn=fill_input_box, inputs=dataset, outputs=input_text)
-    cxs_display.select(refresh_examplar, inputs=[cxs_display], outputs=cons_display)
-demo.launch()

+import warnings
+warnings.filterwarnings("ignore", category=UserWarning)
 import json
+import random
+import tempfile
 from pathlib import Path
+import numpy as np
+import pandas as pd
+import gradio as gr
 from cxglearner.parser import Parser
 from cxglearner.config import DefaultConfigs, Config
 from cxglearner.utils import init_logger
 from cxglearner.utils.utils_cxs import convert_slots_to_str
+MAX_EXAMPLAR = 8
+examples = [
+    ["She should be more polite with the customers."],
+    ["The advantage of a bad memory is that one enjoys several times the same good things for the first time."],
+]
+cache_dir = Path(tempfile.gettempdir()) / "cxg"
+cache_dir.mkdir(exist_ok=True)
 config = Config(DefaultConfigs.eng)
+config.experiment.log_path = cache_dir / "cxg.log"
 logger = init_logger(config)
+parser_1_0 = Parser(config=config, version="1.0", logger=logger, cache_dir=cache_dir)
+parser_1_1 = Parser(config=config, version="1.1", logger=logger, cache_dir=cache_dir)
+examplars_1_0 = json.load(open("data/eng/1.0/learner_examplar_1.0.json", "r", encoding="utf-8"))
+examplars_1_1 = json.load(open("data/eng/1.1/learner_examplar_1.1.json", "r", encoding="utf-8"))
+metadata = {
+    "English": {
+        "1.0": [parser_1_0, examplars_1_0],
+        "1.1": [parser_1_1, examplars_1_1],
+    },
+    "Chinese": {},
+}
 def fill_input_box(example):
     return example[0]
+def clear_text():
+    return "", pd.DataFrame(), gr.Radio(label="Constructions", choices=[]), pd.DataFrame()
+def parse_text(text, language, version):
+    if not text:
+        return pd.DataFrame(), gr.Radio(label="Constructions", choices=[]), pd.DataFrame()
+    print(language, version, text)
+    parser = metadata[language][version][0]
     encoded_elements = parser.encoder.encode(text, raw=True)
+    tokens, upos, xpos = np.array(encoded_elements["lexical"]), np.array(encoded_elements["upos"]["spaCy"]), np.array(encoded_elements["xpos"]["spaCy"])
     encoded_elements = np.vstack((tokens, upos, xpos))
     radio_parsed = parser.parse(text)
+    radio_parsed = ["{} | {} | {}-{}".format(cxs[0],convert_slots_to_str(parser.cxs_decoder[cxs[0]], parser.encoder, logger), cxs[1] + 1, cxs[2]) for cxs in radio_parsed[0]]
     if len(radio_parsed) == 0:
         radio_display = gr.Radio(label="Constructions", choices=[])
     else:
+        radio_display = gr.Radio(label="Constructions", choices=radio_parsed, interactive=True, value=radio_parsed[0])
     if len(radio_parsed) == 0:
+        cons_display = pd.DataFrame()
     else:
         cxs = radio_parsed[0]
         index, cxs, ranges = cxs.split("|")
         cxs = cxs.strip()
+        examplars = metadata[language][version][1]
+        columns_name = cxs
+        if version == "1.0":
+            cxs = cxs.replace('Ġ', '')
         if cxs in examplars:
             exams = random.choices(examplars[cxs], k=min(MAX_EXAMPLAR, len(examplars[cxs])))
+            cons_display =  pd.DataFrame(exams, columns=[columns_name])
         else:
+            cons_display = pd.DataFrame()
+    return encoded_elements, radio_display, cons_display
+def refresh_examplar(option, language, version):
+    print(language, version, option)
     index, cxs, ranges = option.split("|")
     index = eval(index)
     cxs = cxs.strip()
+    examplars = metadata[language][version][1]
+    columns_name = cxs
+    if version == "1.0":
+        cxs = cxs.replace('Ġ', '')
     if cxs in examplars:
         exams = random.choices(examplars[cxs], k=min(MAX_EXAMPLAR, len(examplars[cxs])))
+        return pd.DataFrame(exams, columns=[columns_name])
     return pd.DataFrame()
 with gr.Blocks() as demo:
     with gr.Column():
         gr.Markdown("## CxGLearner Parser")
         with gr.Row():
             input_text = gr.Textbox(label="Input Text", placeholder="Enter a sentence here...")
+        with gr.Row():
+            dataset = gr.Dataset(components=[input_text], samples=examples, label="Make a Choice")
+            with gr.Row():
+                language_radio = gr.Radio(["English", "Chinese"], value="English", interactive=False, label="Which language would you like to parse?")
+                version_radio = gr.Radio(["1.1", "1.0"], value="1.1", interactive=True, label="Which version would you like to use?")
         with gr.Row():
+                clear_buttton = gr.Button("Clear")
+                parser_button = gr.Button("Parse")
     with gr.Column():
         gr.Markdown("### Results of Encoding and Parsing")
         gr.Markdown("### Examplars")
         cons_display = gr.Dataframe()
     dataset.click(fn=fill_input_box, inputs=dataset, outputs=input_text)
+    clear_buttton.click(fn=clear_text, inputs=[], outputs=[input_text, enc_display, cxs_display, cons_display])
+    parser_button.click(fn=parse_text, inputs=[input_text, language_radio, version_radio], outputs=[enc_display, cxs_display, cons_display])
+    cxs_display.change(refresh_examplar, inputs=[cxs_display, language_radio, version_radio], outputs=cons_display)
+demo.launch()

data/eng/1.0/learner_examplar_1.0.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f41818549b054007efc199805241c12ad84dfc8d9da36a2b68d8695d28b1ecbd
+size 22783497

data/{learner_examplar_1.1.json → eng/1.1/learner_examplar_1.1.json} RENAMED Viewed

File without changes

requirements.txt CHANGED Viewed

@@ -1,4 +1,4 @@
 unidecode
 beautifulsoup4
-cxglearner==1.3.1
 gradio

 unidecode
 beautifulsoup4
+cxglearner==1.3.2
 gradio