Spaces:

vincenthugging
/

MOSS-TTSD-Enhanced

Running

vincenthugging commited on Aug 8

Commit

2b574d8

1 Parent(s): d9e15de

✨ 添加高级参数设置和UI美化 - Apple简洁风格

🎛️ 高级参数功能:
1. **可折叠高级设置面板**
- 默认折叠状态，保持界面简洁
- 包含温度、top_k、top_p、重复惩罚等完整参数
- 实时参数调节，支持细粒度控制

2. **预设风格选择器**
- 轻松对话、新闻播报、娱乐节目、教育讲解
- 一键应用最佳参数组合
- 基于生成参数详解文档的推荐配置

3. **生成速度优化**
- 默认 max_new_tokens 从 2048 降至 1024
- 参数范围优化：512(快速) - 1024(平衡) - 2048(完整)
- GPU 持续时间保持 60 秒，提升响应速度

🎨 Apple 简洁设计:
1. **全新CSS样式系统**
- 采用 SF Pro Display 字体族
- 定义 CSS 变量：primary-color, surface-color 等
- Apple 风格的圆角、阴影和过渡效果

2. **UI组件优化**
- 卡片组件hover效果和微妙动画
- 统一的间距和字重设置
- 现代化的颜色系统和视觉层次

3. **交互体验提升**
- 预设风格变更时自动更新参数滑块
- 清晰的参数说明和使用提示
- 优化的按钮样式和状态反馈

🚀 技术实现:
- 参数传递：UI -> generate_dialogue_audio -> model.generation_config
- 动态配置：用户参数覆盖默认设置
- 兼容性：保持原有功能完整可用

现在用户可以通过简洁的Apple风格界面，精确控制语音生成效果！

Files changed (1) hide show

app.py +142 -16

app.py CHANGED Viewed

@@ -257,9 +257,9 @@ def initialize_model():
     # 设置稳定的生成参数，避免数值不稳定
     try:
-        # 减少最大生成长度，提升速度
         model.generation_config.max_new_tokens = min(
-            getattr(model.generation_config, "max_new_tokens", 2048), 2048
         )
         # 使用文档推荐的"轻松对话风格"参数组合，确保数值稳定
@@ -295,6 +295,12 @@ def generate_dialogue_audio(
     speaker2_audio: Optional[str],
     speaker2_text: str,
     use_normalize: bool,
 ) -> Tuple[Optional[str], str]:
     try:
         if not dialogue_text or not dialogue_text.strip():
@@ -306,6 +312,15 @@ def generate_dialogue_audio(
         # 初始化模型，显示进度
         tokenizer, model, spt, device = initialize_model()
         # 根据输入拼装 item（process_batch 兼容单/双说话者）
         item = {"text": dialogue_text}
@@ -387,30 +402,45 @@ def generate_dialogue_audio(
 # =========================
 def create_space_ui() -> gr.Blocks:
     custom_css = """
     .gradio-container {
         max-width: 1400px !important;
         margin: 0 auto !important;
-        font-family: 'Segoe UI', Tahoma, Geneva, Verdana, sans-serif;
     }
     .header {
         text-align: center;
         margin-bottom: 2rem;
-        background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);
-        padding: 2.5rem;
-        border-radius: 20px;
-        color: white;
-        box-shadow: 0 10px 30px rgba(0,0,0,0.2);
     }
     .header h1 {
-        font-size: 2.5rem;
-        margin-bottom: 0.5rem;
         font-weight: 700;
     }
     .header p {
-        font-size: 1.2rem;
-        opacity: 0.9;
         margin: 0;
     }
     .section {
         background: #f8fafc;
@@ -581,11 +611,78 @@ def create_space_ui() -> gr.Blocks:
                             )
                 with gr.Group():
-                    gr.Markdown("### ⚙️ 设置")
                     with gr.Row():
                         use_normalize = gr.Checkbox(label="✅ 文本标准化（推荐）", value=True)
                     btn_generate = gr.Button("🎬 开始合成", variant="primary", size="lg")
-                    gr.Markdown("🎉 **开箱即用**: 页面加载时已自动填充默认对话文本和参考音频，您可以直接点击开始合成体验！")
             # 右侧：输出与说明
             with gr.Column(scale=2):
@@ -692,7 +789,33 @@ def create_space_ui() -> gr.Blocks:
                 gr.Error(f"❌ 加载默认音频时出错: {str(e)}")
                 return gr.update(), gr.update(), gr.update(), gr.update(), gr.update()
-        # 组件已在初始化时设置默认值，无需额外的加载事件
         btn_load_scenario.click(
             fn=on_load_scenario,
@@ -707,7 +830,10 @@ def create_space_ui() -> gr.Blocks:
         btn_generate.click(
             fn=generate_dialogue_audio,
-            inputs=[dialogue_text, speaker1_audio, speaker1_text, speaker2_audio, speaker2_text, use_normalize],
             outputs=[output_audio, status_info],
             show_progress=True,
         )

     # 设置稳定的生成参数，避免数值不稳定
     try:
+        # 优化生成长度，平衡质量与速度
         model.generation_config.max_new_tokens = min(
+            getattr(model.generation_config, "max_new_tokens", 1024), 1024  # 减少默认长度，提升速度
         )
         # 使用文档推荐的"轻松对话风格"参数组合，确保数值稳定
     speaker2_audio: Optional[str],
     speaker2_text: str,
     use_normalize: bool,
+    temperature: float = 1.0,
+    top_k: int = 50,
+    top_p: float = 0.9,
+    repetition_penalty: float = 1.1,
+    max_new_tokens: int = 2048,
+    do_sample: bool = True,
 ) -> Tuple[Optional[str], str]:
     try:
         if not dialogue_text or not dialogue_text.strip():
         # 初始化模型，显示进度
         tokenizer, model, spt, device = initialize_model()
+        # 应用用户选择的生成参数，覆盖默认设置
+        print(f"🎛️ 应用用户参数: temp={temperature}, top_k={top_k}, top_p={top_p}, penalty={repetition_penalty}")
+        model.generation_config.temperature = temperature
+        model.generation_config.top_k = top_k
+        model.generation_config.top_p = top_p
+        model.generation_config.repetition_penalty = repetition_penalty
+        model.generation_config.max_new_tokens = min(max_new_tokens, 4096)  # 安全限制
+        model.generation_config.do_sample = do_sample
         # 根据输入拼装 item（process_batch 兼容单/双说话者）
         item = {"text": dialogue_text}
 # =========================
 def create_space_ui() -> gr.Blocks:
+    # Apple-inspired 简洁设计样式
     custom_css = """
+    /* 全局样式 - Apple风格 */
     .gradio-container {
         max-width: 1400px !important;
         margin: 0 auto !important;
+        font-family: -apple-system, BlinkMacSystemFont, 'SF Pro Display', system-ui, sans-serif !important;
+        background: #f5f5f7 !important;
+        --primary-color: #007AFF;
+        --surface-color: #ffffff;
+        --border-color: #d1d1d6;
+        --text-primary: #1d1d1f;
+        --text-secondary: #86868b;
+        --shadow: 0 4px 16px rgba(0,0,0,0.1);
+        --radius: 12px;
     }
+    /* 主标题区域 */
     .header {
         text-align: center;
         margin-bottom: 2rem;
+        background: var(--surface-color);
+        padding: 3rem 2rem;
+        border-radius: var(--radius);
+        color: var(--text-primary);
+        box-shadow: var(--shadow);
+        border: 1px solid var(--border-color);
     }
     .header h1 {
+        font-size: 2.75rem;
+        margin: 0 0 0.5rem 0;
         font-weight: 700;
+        letter-spacing: -0.02em;
+        color: var(--text-primary);
     }
     .header p {
+        font-size: 1.1rem;
         margin: 0;
+        color: var(--text-secondary);
+        font-weight: 400;
     }
     .section {
         background: #f8fafc;
                             )
                 with gr.Group():
+                    gr.Markdown("### ⚙️ 基础设置")
                     with gr.Row():
                         use_normalize = gr.Checkbox(label="✅ 文本标准化（推荐）", value=True)
+                    # 高级参数设置 - 可折叠
+                    with gr.Accordion("🎛️ 高级参数设置", open=False):
+                        gr.Markdown("**🎯 生成风格控制** - 根据需要调整参数以获得不同的语音风格")
+                        # 预设风格选择
+                        with gr.Row():
+                            style_preset = gr.Dropdown(
+                                label="🎨 预设风格",
+                                choices=["轻松对话", "新闻播报", "娱乐节目", "教育讲解", "自定义"],
+                                value="轻松对话",
+                                interactive=True
+                            )
+                        gr.Markdown("**⚙️ 自定义参数** - 微调生成效果")
+                        with gr.Row():
+                            with gr.Column():
+                                temperature = gr.Slider(
+                                    minimum=0.5,
+                                    maximum=1.5,
+                                    value=1.0,
+                                    step=0.1,
+                                    label="🌡️ 语气温度",
+                                    info="控制语气自然度 (0.5=稳定, 1.0=自然, 1.5=活泼)"
+                                )
+                                top_k = gr.Slider(
+                                    minimum=20,
+                                    maximum=100,
+                                    value=50,
+                                    step=10,
+                                    label="🔝 词汇多样性",
+                                    info="控制词汇选择范围"
+                                )
+                            with gr.Column():
+                                top_p = gr.Slider(
+                                    minimum=0.7,
+                                    maximum=1.0,
+                                    value=0.9,
+                                    step=0.05,
+                                    label="🎯 表达流畅度",
+                                    info="控制表达的连贯性"
+                                )
+                                repetition_penalty = gr.Slider(
+                                    minimum=1.0,
+                                    maximum=1.3,
+                                    value=1.1,
+                                    step=0.05,
+                                    label="🔄 重复避免",
+                                    info="避免重复表达的强度"
+                                )
+                        with gr.Row():
+                            max_new_tokens = gr.Slider(
+                                minimum=512,
+                                maximum=2048,
+                                value=1024,
+                                step=128,
+                                label="📏 最大生成长度",
+                                info="控制生成音频的长度 (512=快速, 1024=平衡, 2048=完整)"
+                            )
+                            do_sample = gr.Checkbox(
+                                label="🎲 启用采样",
+                                value=True,
+                                info="关闭后使用确定性生成，更稳定但缺乏变化"
+                            )
                     btn_generate = gr.Button("🎬 开始合成", variant="primary", size="lg")
+                    gr.Markdown("💡 **开箱即用**: 页面已预填充默认内容，可直接合成 | **生成优化**: 预计20-40秒完成")
             # 右侧：输出与说明
             with gr.Column(scale=2):
                 gr.Error(f"❌ 加载默认音频时出错: {str(e)}")
                 return gr.update(), gr.update(), gr.update(), gr.update(), gr.update()
+        # 预设风格参数映射
+        STYLE_PRESETS = {
+            "轻松对话": {"temperature": 1.0, "top_k": 50, "top_p": 0.9, "repetition_penalty": 1.1},
+            "新闻播报": {"temperature": 0.8, "top_k": 30, "top_p": 0.85, "repetition_penalty": 1.05},
+            "娱乐节目": {"temperature": 1.2, "top_k": 80, "top_p": 0.95, "repetition_penalty": 1.15},
+            "教育讲解": {"temperature": 0.9, "top_k": 40, "top_p": 0.88, "repetition_penalty": 1.08},
+            "自定义": {"temperature": 1.0, "top_k": 50, "top_p": 0.9, "repetition_penalty": 1.1}
+        }
+        def on_style_preset_change(preset_name):
+            """当预设风格改变时，自动更新参数滑块"""
+            if preset_name in STYLE_PRESETS:
+                params = STYLE_PRESETS[preset_name]
+                return (
+                    gr.update(value=params["temperature"]),
+                    gr.update(value=params["top_k"]),
+                    gr.update(value=params["top_p"]),
+                    gr.update(value=params["repetition_penalty"])
+                )
+            return gr.update(), gr.update(), gr.update(), gr.update()
+        # 绑定预设风格变更事件
+        style_preset.change(
+            fn=on_style_preset_change,
+            inputs=[style_preset],
+            outputs=[temperature, top_k, top_p, repetition_penalty]
+        )
         btn_load_scenario.click(
             fn=on_load_scenario,
         btn_generate.click(
             fn=generate_dialogue_audio,
+            inputs=[
+                dialogue_text, speaker1_audio, speaker1_text, speaker2_audio, speaker2_text,
+                use_normalize, temperature, top_k, top_p, repetition_penalty, max_new_tokens, do_sample
+            ],
             outputs=[output_audio, status_info],
             show_progress=True,
         )