Spaces:

bor
/

scattertext-en-novels

Running

App Files Files Community

Bor Hodošček commited on Jul 1

Commit

66b97d8

unverified ·

1 Parent(s): 1df67da

feat: speech support for category mode; fix: run only when form filled in

Browse files

Files changed (1) hide show

app.py +40 -9

app.py CHANGED Viewed

@@ -226,6 +226,7 @@ def function_export():
         chunk_texts,
         make_speech_df,
         parse_texts,
         train_scikit_cached,
     )
@@ -285,6 +286,10 @@ def data_settings():
     files_b = mo.ui.file(
         label="Bのファイルアップロード（UTF-8、.txt形式）", multiple=True, kind="area"
     )
     author_tpl = r"""
     ## Category Comparisonモード
@@ -300,6 +305,7 @@ def data_settings():
     ### グループB
     {label_b}
     {files_b}
     """
     category_form = (
         mo.md(author_tpl)
@@ -309,6 +315,7 @@ def data_settings():
             files_a=files_a,
             label_b=label_b,
             files_b=files_b,
         )
         .form(show_clear_button=True, bordered=True)
     )
@@ -340,7 +347,7 @@ def data_settings():
         }
     )
     mode_tabs
-    return category_form, mode_tabs, speech_form
 @app.cell
@@ -350,8 +357,11 @@ def data_check(
     mode_tabs,
     parse_texts,
     speech_form,
 ):
-    mo.stop(category_form.value is None and speech_form.value is None)
     validation_messages: list[str] = []
@@ -395,6 +405,16 @@ def data_check(
                 category_a_texts = [Path(default_a).read_text(encoding="utf-8")]
                 category_a_names = [default_a]
             # Group B: either uploaded files or default
             if category_form.value["files_b"]:
                 category_b_texts = (
@@ -407,6 +427,17 @@ def data_check(
                 category_b_texts = [Path(default_b).read_text(encoding="utf-8")]
                 category_b_names = [default_b]
             # infer categories: use UI labels when files uploaded,
             # otherwise derive from filename‐stem
             # (e.g. "e-r-eddison_..." -> "E R Eddison")
@@ -458,17 +489,17 @@ def data_check(
     {"\n".join(map(lambda x: f"- {x}", validation_messages))}
     解析済テキスト一覧:
-    {mo.ui.table(data, selection="multi", format_mapping={"text": lambda s: s[:20] + "..."}) if not data.empty else "No data"}
     """)
     return data, data_form
-@app.cell
-def _(data):
-    max_tokens = data["text"].map(lambda s: len(s.split())).max()
-    return
 @app.cell
 def sampling_controls_setup():
     chunk_size = mo.ui.slider(

         chunk_texts,
         make_speech_df,
         parse_texts,
+        split_speech_text,
         train_scikit_cached,
     )
     files_b = mo.ui.file(
         label="Bのファイルアップロード（UTF-8、.txt形式）", multiple=True, kind="area"
     )
+    split_speech = mo.ui.switch(
+        label="Split speech vs non-speech segments?",
+        value=True,
+    )
     author_tpl = r"""
     ## Category Comparisonモード
     ### グループB
     {label_b}
     {files_b}
+    {split_speech}
     """
     category_form = (
         mo.md(author_tpl)
             files_a=files_a,
             label_b=label_b,
             files_b=files_b,
+            split_speech=split_speech,
         )
         .form(show_clear_button=True, bordered=True)
     )
         }
     )
     mode_tabs
+    return category_form, mode_tabs, speech_form, split_speech
 @app.cell
     mode_tabs,
     parse_texts,
     speech_form,
+    split_speech,
+    split_speech_text,
 ):
+    mo.stop(mode_tabs.value == "Speech vs Non-Speech" and speech_form.value is None)
+    mo.stop(mode_tabs.value == "Category Comparison" and category_form.value is None)
     validation_messages: list[str] = []
                 category_a_texts = [Path(default_a).read_text(encoding="utf-8")]
                 category_a_names = [default_a]
+            if split_speech.value:
+                texts_list = list(category_a_texts)
+                names_list = list(category_a_names)
+                expanded_txt, expanded_names = [], []
+                for nm, raw in zip(names_list, texts_list):
+                    sp, ns = split_speech_text(raw)
+                    expanded_txt.extend([sp, ns])
+                    expanded_names.extend([f"{nm} (speech)", f"{nm} (non-speech)"])
+                category_a_texts, category_a_names = expanded_txt, expanded_names
             # Group B: either uploaded files or default
             if category_form.value["files_b"]:
                 category_b_texts = (
                 category_b_texts = [Path(default_b).read_text(encoding="utf-8")]
                 category_b_names = [default_b]
+            # same splitting for B‐side
+            if split_speech.value:
+                texts_list = list(category_b_texts)
+                names_list = list(category_b_names)
+                expanded_txt, expanded_names = [], []
+                for nm, raw in zip(names_list, texts_list):
+                    sp, ns = split_speech_text(raw)
+                    expanded_txt.extend([sp, ns])
+                    expanded_names.extend([f"{nm} (speech)", f"{nm} (non-speech)"])
+                category_b_texts, category_b_names = expanded_txt, expanded_names
             # infer categories: use UI labels when files uploaded,
             # otherwise derive from filename‐stem
             # (e.g. "e-r-eddison_..." -> "E R Eddison")
     {"\n".join(map(lambda x: f"- {x}", validation_messages))}
     解析済テキスト一覧:
+    {
+        mo.ui.table(
+            data, selection="multi", format_mapping={"text": lambda s: s[:20] + "..."}
+        )
+        if (data is not None and not data.empty)
+        else "No data"
+    }
     """)
     return data, data_form
 @app.cell
 def sampling_controls_setup():
     chunk_size = mo.ui.slider(