Spaces:

CxGrammar
/

CxGParser

Running

App Files Files Community

XLXW commited on 5 days ago

Commit

eb40ae9

verified ·

1 Parent(s): d91e25b

Initialize code

Browse files

Files changed (5) hide show

.gitattributes +1 -0
Dockerfile +49 -0
app.py +105 -0
data/learner_examplar_1.1.json +3 -0
requirements.txt +4 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+data/learner_examplar_1.1.json filter=lfs diff=lfs merge=lfs -text

Dockerfile ADDED Viewed

	@@ -0,0 +1,49 @@

+FROM python:3.10
+# 安装系统依赖
+RUN apt-get update && apt-get install -y \
+    git \
+    cmake \
+    build-essential \
+    zlib1g-dev \
+    libaio-dev \
+    pkg-config \
+    && rm -rf /var/lib/apt/lists/*
+RUN pip install -U --no-cache-dir \
+    cmake==4.0.3 \
+    pybind11==2.13.6 \
+    spacy==3.5.0 \
+    torch==1.13.1
+# 复制依赖文件
+COPY requirements.txt .
+# 安装 Python 依赖
+RUN pip install -r requirements.txt
+RUN pip install -U --no-cache-dir \
+    numpy==1.24.1
+# 下载 spaCy 模型
+RUN python -m spacy download en_core_web_sm
+# 安装 ffrecord 库
+RUN pip install git+https://github.com/HFAiLab/ffrecord.git
+# 设置工作目录
+WORKDIR /app
+# 复制应用文件
+COPY . .
+# 复制应用代码
+COPY . .
+ENV PYTHONPATH=/app
+ENV GRADIO_SERVER_NAME=0.0.0.0
+ENV GRADIO_SERVER_PORT=7860
+EXPOSE 7860
+CMD ["python", "app.py"]

app.py ADDED Viewed

	@@ -0,0 +1,105 @@

+import gradio as gr
+import pandas as pd
+import numpy as np
+import tempfile
+import random
+import os
+import json
+from pathlib import Path
+from cxglearner.parser import Parser
+from cxglearner.config import DefaultConfigs, Config
+from cxglearner.utils import init_logger
+from cxglearner.utils.utils_cxs import convert_slots_to_str
+temp_dir = tempfile.gettempdir()
+log_dir = Path(temp_dir) / "logs"
+log_dir.mkdir(exist_ok=True)
+cahce_dir = Path(temp_dir) / "cache"
+config = Config(DefaultConfigs.eng)
+config.experiment.log_path = log_dir / "eng.log"
+logger = init_logger(config)
+parser = Parser(config=config, version="1.1", logger=logger, cache_dir=cahce_dir)
+examples = [["she should be more polite with the customers."]]
+MAX_EXAMPLAR = 10
+with open("data/learner_examplar_1.1.json", "r", encoding="utf-8") as fp:
+    examplars = json.load(fp)
+logger.debug(len(examplars))
+def fill_input_box(example):
+    return example[0]
+def parse_text(text):
+    if not text: return gr.Dataframe(),  gr.update(choices=[], value=None), gr.Dataframe()
+    encoded_elements = parser.encoder.encode(text, raw=True)
+    tokens, upos, xpos = np.array(encoded_elements["lexical"]), np.array(encoded_elements["upos"]["spaCy"]), np.array(
+        encoded_elements["xpos"]["spaCy"])
+    encoded_elements = np.vstack((tokens, upos, xpos))
+    radio_parsed = parser.parse(text)
+    radio_parsed = ["{} | {} | {}-{}".format(cxs[0],
+                            convert_slots_to_str(parser.cxs_decoder[cxs[0]], parser.encoder, logger), cxs[1] + 1, cxs[2])
+                    for cxs in radio_parsed[0]]
+    radio_display = gr.Radio(
+        label="Constructions", choices=radio_parsed, interactive=True, value=radio_parsed[0]
+    )
+    if len(radio_parsed) == 0:
+        cons_df = pd.DataFrame()
+    else:
+        cxs = radio_parsed[0]
+        index, cxs, ranges = cxs.split("|")
+        cxs = cxs.strip()
+        if cxs in examplars:
+            exams = random.choices(examplars[cxs], k=min(MAX_EXAMPLAR, len(examplars[cxs])))
+            cons_df =  pd.DataFrame(exams, columns=[cxs])
+        else:
+            cons_df = pd.DataFrame()
+    return encoded_elements, radio_display, cons_df
+def refresh_examplar(option: str):
+    print(option)
+    index, cxs, ranges = option.split("|")
+    index = eval(index)
+    cxs = cxs.strip()
+    if cxs in examplars:
+        exams = random.choices(examplars[cxs], k=min(MAX_EXAMPLAR, len(examplars[cxs])))
+        return pd.DataFrame(exams, columns=[cxs])
+    return pd.DataFrame()
+def clear_text():
+    return "", pd.DataFrame(), gr.Radio(label="Constructions", choices=[])
+with gr.Blocks() as demo:
+    with gr.Column():
+        gr.Markdown("## CxGLearner Parser")
+        with gr.Row():
+            input_text = gr.Textbox(label="Input Text", placeholder="Enter a sentence here...")
+        with gr.Row():
+            dataset = gr.Dataset(components=[input_text],
+                                 samples=examples,
+                                 label="Click an example")
+            clear_buttton = gr.Button("Clear")
+            parser_button = gr.Button("Parse")
+    with gr.Column():
+        gr.Markdown("### Results of Encoding and Parsing")
+        enc_display = gr.Dataframe()
+        cxs_display = gr.Radio(label="Constructions", choices=[])
+    with gr.Column():
+        gr.Markdown("### Examplars")
+        cons_display = gr.Dataframe()
+    parser_button.click(fn=parse_text, inputs=[input_text], outputs=[enc_display, cxs_display, cons_display])
+    clear_buttton.click(fn=clear_text, inputs=[], outputs=[input_text, enc_display, cxs_display])
+    dataset.click(fn=fill_input_box, inputs=dataset, outputs=input_text)
+    cxs_display.select(refresh_examplar, inputs=[cxs_display], outputs=cons_display)
+demo.launch()

data/learner_examplar_1.1.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d7e7c22b12c2da2ee5d50067c285448e951189372b5b25724e58321691592463
+size 21753927

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+unidecode
+beautifulsoup4
+cxglearner==1.3.1
+gradio