Spaces:

DroolingPanda
/

dia-tts-server

Running

dia-tts-server / server.py

Michael Hu

initial check in of the dia tts server

ac5de5b about 1 month ago

44.3 kB

	# server.py
	# Main FastAPI server for Dia TTS

	import sys
	import logging
	import time
	import os
	import io
	import uuid
	import sys
	import shutil # For file copying
	import yaml # For loading presets
	from datetime import datetime
	from contextlib import asynccontextmanager
	from typing import Optional, Literal, List, Dict, Any
	import webbrowser
	import threading
	import time

	from fastapi import (
	FastAPI,
	HTTPException,
	Request,
	Response,
	Form,
	UploadFile,
	File,
	BackgroundTasks,
	)
	from fastapi.responses import (
	StreamingResponse,
	JSONResponse,
	HTMLResponse,
	RedirectResponse,
	)
	from fastapi.staticfiles import StaticFiles
	from fastapi.templating import Jinja2Templates
	import uvicorn
	import numpy as np

	# Internal imports
	from config import (
	config_manager,
	get_host,
	get_port,
	get_output_path,
	get_reference_audio_path,
	# register_config_routes is now defined locally
	get_model_cache_path,
	get_model_repo_id,
	get_model_config_filename,
	get_model_weights_filename,
	# Generation default getters
	get_gen_default_speed_factor,
	get_gen_default_cfg_scale,
	get_gen_default_temperature,
	get_gen_default_top_p,
	get_gen_default_cfg_filter_top_k,
	DEFAULT_CONFIG,
	)
	from models import OpenAITTSRequest, CustomTTSRequest, ErrorResponse
	import engine
	from engine import (
	load_model as load_dia_model,
	generate_speech,
	EXPECTED_SAMPLE_RATE,
	)
	from utils import encode_audio, save_audio_to_file, PerformanceMonitor

	# Configure logging (Basic setup, can be enhanced)
	logging.basicConfig(
	level=logging.INFO, format="%(asctime)s [%(levelname)s] %(name)s: %(message)s"
	)
	# Reduce verbosity of noisy libraries if needed
	# logging.getLogger("uvicorn.access").setLevel(logging.WARNING)
	# logging.getLogger("watchfiles").setLevel(logging.WARNING)
	logger = logging.getLogger(__name__) # Logger for this module

	# --- Global Variables & Constants ---
	PRESETS_FILE = "ui/presets.yaml"
	loaded_presets: List[Dict[str, Any]] = [] # Cache presets in memory
	startup_complete_event = threading.Event()

	# --- Helper Functions ---


	def load_presets():
	"""Loads presets from the YAML file."""
	global loaded_presets
	try:
	if os.path.exists(PRESETS_FILE):
	with open(PRESETS_FILE, "r", encoding="utf-8") as f:
	loaded_presets = yaml.safe_load(f)
	if not isinstance(loaded_presets, list):
	logger.error(
	f"Presets file '{PRESETS_FILE}' should contain a list, but found {type(loaded_presets)}. No presets loaded."
	)
	loaded_presets = []
	else:
	logger.info(
	f"Successfully loaded {len(loaded_presets)} presets from {PRESETS_FILE}."
	)
	else:
	logger.warning(
	f"Presets file not found at '{PRESETS_FILE}'. No presets will be available."
	)
	loaded_presets = []
	except yaml.YAMLError as e:
	logger.error(
	f"Error parsing presets YAML file '{PRESETS_FILE}': {e}", exc_info=True
	)
	loaded_presets = []
	except Exception as e:
	logger.error(f"Error loading presets file '{PRESETS_FILE}': {e}", exc_info=True)
	loaded_presets = []


	def get_valid_reference_files() -> list[str]:
	"""Gets a list of valid audio files (.wav, .mp3) from the reference directory."""
	ref_path = get_reference_audio_path()
	valid_files = []
	allowed_extensions = (".wav", ".mp3")
	try:
	if os.path.isdir(ref_path):
	for filename in os.listdir(ref_path):
	if filename.lower().endswith(allowed_extensions):
	# Optional: Add check for file size or basic validity if needed
	valid_files.append(filename)
	else:
	logger.warning(f"Reference audio directory not found: {ref_path}")
	except Exception as e:
	logger.error(
	f"Error reading reference audio directory '{ref_path}': {e}", exc_info=True
	)
	return sorted(valid_files)


	def sanitize_filename(filename: str) -> str:
	"""Removes potentially unsafe characters and path components from a filename."""
	# Remove directory separators
	filename = os.path.basename(filename)
	# Keep only alphanumeric, underscore, hyphen, dot. Replace others with underscore.
	safe_chars = set(
	"abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789._-"
	)
	sanitized = "".join(c if c in safe_chars else "_" for c in filename)
	# Prevent names starting with dot or consisting only of dots/spaces
	if not sanitized or sanitized.lstrip("._ ") == "":
	return f"uploaded_file_{uuid.uuid4().hex[:8]}" # Generate a safe fallback name
	# Limit length
	max_len = 100
	if len(sanitized) > max_len:
	name, ext = os.path.splitext(sanitized)
	sanitized = name[: max_len - len(ext)] + ext
	return sanitized


	# --- Application Lifespan (Startup/Shutdown) ---
	@asynccontextmanager
	async def lifespan(app: FastAPI):
	"""Application lifespan manager for startup/shutdown."""
	model_loaded_successfully = False # Flag to track success
	try:
	logger.info("Starting Dia TTS server initialization...")
	# Ensure base directories exist
	os.makedirs(get_output_path(), exist_ok=True)
	os.makedirs(get_reference_audio_path(), exist_ok=True)
	os.makedirs(get_model_cache_path(), exist_ok=True)
	os.makedirs("ui", exist_ok=True)
	os.makedirs("static", exist_ok=True)

	# Load presets from YAML file
	load_presets()

	# Load the main TTS model during startup
	if not load_dia_model():
	# Model loading failed
	error_msg = (
	"CRITICAL: Failed to load Dia model on startup. Server cannot start."
	)
	logger.critical(error_msg)
	# Option 1: Raise an exception to stop Uvicorn startup cleanly
	raise RuntimeError(error_msg)
	# Option 2: Force exit (less clean, might bypass some Uvicorn shutdown)
	# sys.exit(1)
	else:
	logger.info("Dia model loaded successfully.")
	model_loaded_successfully = True

	# Create and start a delayed browser opening thread
	# IMPORTANT: Create this thread AFTER model loading completes
	host = get_host()
	port = get_port()
	browser_thread = threading.Thread(
	target=lambda: _delayed_browser_open(host, port), daemon=True
	)
	browser_thread.start()

	# --- Signal completion AFTER potentially long operations ---
	logger.info("Application startup sequence finished. Signaling readiness.")
	startup_complete_event.set()

	yield # Application runs here

	except Exception as e:
	# Catch the RuntimeError we raised or any other startup error
	logger.error(f"Fatal error during application startup: {e}", exc_info=True)
	# Do NOT set the event here if startup failed
	# Re-raise the exception or exit to ensure the server stops
	raise e # Re-raising ensures Uvicorn knows startup failed
	# Alternatively: sys.exit(1)
	finally:
	# Cleanup on shutdown
	logger.info("Application shutdown initiated...")
	# Add any specific cleanup needed
	logger.info("Application shutdown complete.")


	def _delayed_browser_open(host, port):
	"""Opens browser after a short delay to ensure server is ready"""
	try:
	# Small delay to ensure Uvicorn is fully ready
	time.sleep(2)

	display_host = "localhost" if host == "0.0.0.0" else host
	browser_url = f"http://{display_host}:{port}/"

	# Log to file for debugging
	with open("browser_thread_debug.log", "a") as f:
	f.write(f"[{time.time()}] Opening browser at {browser_url}\n")

	# Try to use logger as well (might work at this point)
	try:
	logger.info(f"Opening browser at {browser_url}")
	except:
	pass

	# Open browser directly without health checks
	webbrowser.open(browser_url)

	except Exception as e:
	with open("browser_thread_debug.log", "a") as f:
	f.write(f"[{time.time()}] Browser open error: {str(e)}\n")


	# --- FastAPI App Initialization ---
	app = FastAPI(
	title="Dia TTS Server",
	description="Text-to-Speech server using the Dia model, providing API and Web UI.",
	version="1.1.0", # Incremented version
	lifespan=lifespan,
	)

	# List of folders to check/create
	folders = ["reference_audio", "model_cache", "outputs"]

	# Check each folder and create if it doesn't exist
	for folder in folders:
	if not os.path.exists(folder):
	os.makedirs(folder)
	print(f"Created directory: {folder}")

	# --- Static Files and Templates ---
	# Serve generated audio files from the configured output path
	app.mount("/outputs", StaticFiles(directory=get_output_path()), name="outputs")
	# Serve UI files (CSS, JS) from the 'ui' directory
	app.mount("/ui", StaticFiles(directory="ui"), name="ui_static")
	# Initialize Jinja2 templates to look in the 'ui' directory
	templates = Jinja2Templates(directory="ui")


	# --- Configuration Routes Definition ---
	# Defined locally now instead of importing from config.py
	def register_config_routes(app: FastAPI):
	"""Adds configuration management endpoints to the FastAPI app."""
	logger.info(
	"Registering configuration routes (/get_config, /save_config, /restart_server, /save_generation_defaults)."
	)

	@app.get(
	"/get_config",
	tags=["Configuration"],
	summary="Get current server configuration",
	)
	async def get_current_config():
	"""Returns the current server configuration values (from .env or defaults)."""
	logger.info("Request received for /get_config")
	return JSONResponse(content=config_manager.get_all())

	@app.post(
	"/save_config", tags=["Configuration"], summary="Save server configuration"
	)
	async def save_new_config(request: Request):
	"""
	Saves updated server configuration values (Host, Port, Model paths, etc.)
	to the .env file. Requires server restart to apply most changes.
	"""
	logger.info("Request received for /save_config")
	try:
	new_config_data = await request.json()
	if not isinstance(new_config_data, dict):
	raise ValueError("Request body must be a JSON object.")
	logger.debug(f"Received server config data to save: {new_config_data}")

	# Filter data to only include keys present in DEFAULT_CONFIG
	filtered_data = {
	k: v for k, v in new_config_data.items() if k in DEFAULT_CONFIG
	}
	unknown_keys = set(new_config_data.keys()) - set(filtered_data.keys())
	if unknown_keys:
	logger.warning(
	f"Ignoring unknown keys in save_config request: {unknown_keys}"
	)

	config_manager.update(filtered_data) # Update in memory first
	if config_manager.save(): # Attempt to save to .env
	logger.info("Server configuration saved successfully to .env.")
	return JSONResponse(
	content={
	"message": "Server configuration saved. Restart server to apply changes."
	}
	)
	else:
	logger.error("Failed to save server configuration to .env file.")
	raise HTTPException(
	status_code=500, detail="Failed to save configuration file."
	)
	except ValueError as ve:
	logger.error(f"Invalid data format for /save_config: {ve}")
	raise HTTPException(
	status_code=400, detail=f"Invalid request data: {str(ve)}"
	)
	except Exception as e:
	logger.error(f"Error processing /save_config request: {e}", exc_info=True)
	raise HTTPException(
	status_code=500, detail=f"Internal server error during save: {str(e)}"
	)

	@app.post(
	"/save_generation_defaults",
	tags=["Configuration"],
	summary="Save default generation parameters",
	)
	async def save_generation_defaults(request: Request):
	"""
	Saves the provided generation parameters (speed, cfg, temp, etc.)
	as the new defaults in the .env file. These are loaded by the UI on startup.
	"""
	logger.info("Request received for /save_generation_defaults")
	try:
	gen_params = await request.json()
	if not isinstance(gen_params, dict):
	raise ValueError("Request body must be a JSON object.")
	logger.debug(f"Received generation defaults to save: {gen_params}")

	# Map received keys (e.g., 'speed_factor') to .env keys (e.g., 'GEN_DEFAULT_SPEED_FACTOR')
	defaults_to_save = {}
	key_map = {
	"speed_factor": "GEN_DEFAULT_SPEED_FACTOR",
	"cfg_scale": "GEN_DEFAULT_CFG_SCALE",
	"temperature": "GEN_DEFAULT_TEMPERATURE",
	"top_p": "GEN_DEFAULT_TOP_P",
	"cfg_filter_top_k": "GEN_DEFAULT_CFG_FILTER_TOP_K",
	}
	valid_keys_found = False
	for ui_key, env_key in key_map.items():
	if ui_key in gen_params:
	# Basic validation could be added here (e.g., check if float/int)
	defaults_to_save[env_key] = str(
	gen_params[ui_key]
	) # Ensure saving as string
	valid_keys_found = True
	else:
	logger.warning(
	f"Missing expected key '{ui_key}' in save_generation_defaults request."
	)

	if not valid_keys_found:
	raise ValueError("No valid generation parameters found in the request.")

	config_manager.update(defaults_to_save) # Update in memory
	if (
	config_manager.save()
	): # Save all current config (including these) to .env
	logger.info("Generation defaults saved successfully to .env.")
	return JSONResponse(content={"message": "Generation defaults saved."})
	else:
	logger.error("Failed to save generation defaults to .env file.")
	raise HTTPException(
	status_code=500, detail="Failed to save configuration file."
	)
	except ValueError as ve:
	logger.error(f"Invalid data format for /save_generation_defaults: {ve}")
	raise HTTPException(
	status_code=400, detail=f"Invalid request data: {str(ve)}"
	)
	except Exception as e:
	logger.error(
	f"Error processing /save_generation_defaults request: {e}",
	exc_info=True,
	)
	raise HTTPException(
	status_code=500, detail=f"Internal server error during save: {str(e)}"
	)

	@app.post(
	"/restart_server",
	tags=["Configuration"],
	summary="Attempt to restart the server",
	)
	async def trigger_server_restart(background_tasks: BackgroundTasks):
	"""
	Attempts to restart the server process.
	NOTE: This is highly dependent on how the server is run (e.g., with uvicorn --reload,
	or managed by systemd/supervisor). A simple exit might just stop the process.
	This implementation attempts a clean exit, relying on the runner to restart it.
	"""
	logger.warning("Received request to restart server via API.")

	def _do_restart():
	time.sleep(1) # Short delay to allow response to be sent
	logger.warning("Attempting clean exit for restart...")
	# Option 1: Clean exit (relies on Uvicorn reload or process manager)
	sys.exit(0)
	# Option 2: Forceful re-execution (use with caution, might not work as expected)
	# try:
	# logger.warning("Attempting os.execv for restart...")
	# os.execv(sys.executable, ['python'] + sys.argv)
	# except Exception as exec_e:
	# logger.error(f"os.execv failed: {exec_e}. Server may not restart automatically.")
	# # Fallback to sys.exit if execv fails
	# sys.exit(1)

	background_tasks.add_task(_do_restart)
	return JSONResponse(
	content={
	"message": "Restart signal sent. Server should restart shortly if run with auto-reload."
	}
	)


	# --- Register Configuration Routes ---
	register_config_routes(app)


	# --- API Endpoints ---


	@app.post(
	"/v1/audio/speech",
	response_class=StreamingResponse,
	tags=["TTS Generation"],
	summary="Generate speech (OpenAI compatible)",
	)
	async def openai_tts_endpoint(request: OpenAITTSRequest):
	"""
	Generates speech audio from text, compatible with the OpenAI TTS API structure.
	Maps the 'voice' parameter to Dia's voice modes ('S1', 'S2', 'dialogue', or filename for clone).
	"""
	monitor = PerformanceMonitor()
	monitor.record("Request received")
	logger.info(
	f"Received OpenAI request: voice='{request.voice}', speed={request.speed}, format='{request.response_format}'"
	)
	logger.debug(f"Input text (start): '{request.input[:100]}...'")

	voice_mode = "single_s1" # Default if mapping fails
	clone_ref_file = None
	ref_path = get_reference_audio_path()

	# --- Map OpenAI 'voice' parameter to Dia's modes ---
	voice_param = request.voice.strip()
	if voice_param.lower() == "dialogue":
	voice_mode = "dialogue"
	elif voice_param.lower() == "s1":
	voice_mode = "single_s1"
	elif voice_param.lower() == "s2":
	voice_mode = "single_s2"
	# Check if it looks like a filename for cloning (allow .wav or .mp3)
	elif voice_param.lower().endswith((".wav", ".mp3")):
	potential_path = os.path.join(ref_path, voice_param)
	# Check if the file actually exists in the reference directory
	if os.path.isfile(potential_path):
	voice_mode = "clone"
	clone_ref_file = voice_param # Use the provided filename
	logger.info(
	f"OpenAI request mapped to clone mode with file: {clone_ref_file}"
	)
	else:
	logger.warning(
	f"Reference file '{voice_param}' specified in OpenAI request not found in '{ref_path}'. Defaulting voice mode."
	)
	# Fallback to default 'single_s1' if file not found
	else:
	logger.warning(
	f"Unrecognized OpenAI voice parameter '{voice_param}'. Defaulting voice mode to 'single_s1'."
	)
	# Fallback for any other value

	monitor.record("Parameters processed")

	try:
	# Call the core engine function using mapped parameters
	result = generate_speech(
	text=request.input,
	voice_mode=voice_mode,
	clone_reference_filename=clone_ref_file,
	speed_factor=request.speed, # Pass speed factor for post-processing
	# Use Dia's configured defaults for other generation params unless mapped
	max_tokens=None, # Let Dia use its default unless specified otherwise
	cfg_scale=get_gen_default_cfg_scale(), # Use saved defaults
	temperature=get_gen_default_temperature(),
	top_p=get_gen_default_top_p(),
	cfg_filter_top_k=get_gen_default_cfg_filter_top_k(),
	)
	monitor.record("Generation complete")

	if result is None:
	logger.error("Speech generation failed (engine returned None).")
	raise HTTPException(status_code=500, detail="Speech generation failed.")

	audio_array, sample_rate = result

	if sample_rate != EXPECTED_SAMPLE_RATE:
	logger.warning(
	f"Engine returned sample rate {sample_rate}, but expected {EXPECTED_SAMPLE_RATE}. Encoding might assume {EXPECTED_SAMPLE_RATE}."
	)
	# Use EXPECTED_SAMPLE_RATE for encoding as it's what the model is trained for
	sample_rate = EXPECTED_SAMPLE_RATE

	# Encode the audio in memory to the requested format
	encoded_audio = encode_audio(audio_array, sample_rate, request.response_format)
	monitor.record("Audio encoding complete")

	if encoded_audio is None:
	logger.error(f"Failed to encode audio to format: {request.response_format}")
	raise HTTPException(
	status_code=500,
	detail=f"Failed to encode audio to {request.response_format}",
	)

	# Determine the correct media type for the response header
	media_type = "audio/opus" if request.response_format == "opus" else "audio/wav"
	# Note: OpenAI uses audio/opus, not audio/ogg;codecs=opus. Let's match OpenAI.

	logger.info(
	f"Successfully generated {len(encoded_audio)} bytes in format {request.response_format}"
	)
	logger.debug(monitor.report())

	# Stream the encoded audio back to the client
	return StreamingResponse(io.BytesIO(encoded_audio), media_type=media_type)

	except HTTPException as http_exc:
	# Re-raise HTTPExceptions directly (e.g., from parameter validation)
	logger.error(f"HTTP exception during OpenAI request: {http_exc.detail}")
	raise http_exc
	except Exception as e:
	logger.error(f"Error processing OpenAI TTS request: {e}", exc_info=True)
	logger.debug(monitor.report())
	# Return generic server error for unexpected issues
	raise HTTPException(status_code=500, detail=f"Internal server error: {str(e)}")


	@app.post(
	"/tts",
	response_class=StreamingResponse,
	tags=["TTS Generation"],
	summary="Generate speech (Custom parameters)",
	)
	async def custom_tts_endpoint(request: CustomTTSRequest):
	"""
	Generates speech audio from text using explicit Dia parameters.
	"""
	monitor = PerformanceMonitor()
	monitor.record("Request received")
	logger.info(
	f"Received custom TTS request: mode='{request.voice_mode}', format='{request.output_format}'"
	)
	logger.debug(f"Input text (start): '{request.text[:100]}...'")
	logger.debug(
	f"Params: max_tokens={request.max_tokens}, cfg={request.cfg_scale}, temp={request.temperature}, top_p={request.top_p}, speed={request.speed_factor}, top_k={request.cfg_filter_top_k}"
	)

	clone_ref_file = None
	if request.voice_mode == "clone":
	if not request.clone_reference_filename:
	raise HTTPException(
	status_code=400, # Bad request
	detail="Missing 'clone_reference_filename' which is required for clone mode.",
	)
	ref_path = get_reference_audio_path()
	potential_path = os.path.join(ref_path, request.clone_reference_filename)
	if not os.path.isfile(potential_path):
	logger.error(
	f"Reference audio file not found for clone mode: {potential_path}"
	)
	raise HTTPException(
	status_code=404, # Not found
	detail=f"Reference audio file not found: {request.clone_reference_filename}",
	)
	clone_ref_file = request.clone_reference_filename
	logger.info(f"Custom request using clone mode with file: {clone_ref_file}")

	monitor.record("Parameters processed")

	try:
	# Call the core engine function with parameters from the request
	result = generate_speech(
	text=request.text,
	voice_mode=request.voice_mode,
	clone_reference_filename=clone_ref_file,
	max_tokens=request.max_tokens, # Pass user value or None
	cfg_scale=request.cfg_scale,
	temperature=request.temperature,
	top_p=request.top_p,
	speed_factor=request.speed_factor, # For post-processing
	cfg_filter_top_k=request.cfg_filter_top_k,
	)
	monitor.record("Generation complete")

	if result is None:
	logger.error("Speech generation failed (engine returned None).")
	raise HTTPException(status_code=500, detail="Speech generation failed.")

	audio_array, sample_rate = result

	if sample_rate != EXPECTED_SAMPLE_RATE:
	logger.warning(
	f"Engine returned sample rate {sample_rate}, expected {EXPECTED_SAMPLE_RATE}. Encoding will use {EXPECTED_SAMPLE_RATE}."
	)
	sample_rate = EXPECTED_SAMPLE_RATE

	# Encode the audio in memory
	encoded_audio = encode_audio(audio_array, sample_rate, request.output_format)
	monitor.record("Audio encoding complete")

	if encoded_audio is None:
	logger.error(f"Failed to encode audio to format: {request.output_format}")
	raise HTTPException(
	status_code=500,
	detail=f"Failed to encode audio to {request.output_format}",
	)

	# Determine media type
	media_type = "audio/opus" if request.output_format == "opus" else "audio/wav"

	logger.info(
	f"Successfully generated {len(encoded_audio)} bytes in format {request.output_format}"
	)
	logger.debug(monitor.report())

	# Stream the response
	return StreamingResponse(io.BytesIO(encoded_audio), media_type=media_type)

	except HTTPException as http_exc:
	logger.error(f"HTTP exception during custom TTS request: {http_exc.detail}")
	raise http_exc
	except Exception as e:
	logger.error(f"Error processing custom TTS request: {e}", exc_info=True)
	logger.debug(monitor.report())
	raise HTTPException(status_code=500, detail=f"Internal server error: {str(e)}")


	# --- Web UI Endpoints ---


	@app.get("/", response_class=HTMLResponse, include_in_schema=False)
	async def get_web_ui(request: Request):
	"""Serves the main TTS web interface."""
	logger.info("Serving TTS Web UI (index.html)")
	# Get current list of reference files for the clone dropdown
	reference_files = get_valid_reference_files()
	# Get current server config and default generation params
	current_config = config_manager.get_all()
	default_gen_params = {
	"speed_factor": get_gen_default_speed_factor(),
	"cfg_scale": get_gen_default_cfg_scale(),
	"temperature": get_gen_default_temperature(),
	"top_p": get_gen_default_top_p(),
	"cfg_filter_top_k": get_gen_default_cfg_filter_top_k(),
	}

	return templates.TemplateResponse(
	"index.html", # Use the renamed file
	{
	"request": request,
	"reference_files": reference_files,
	"config": current_config, # Pass current server config
	"presets": loaded_presets, # Pass loaded presets
	"default_gen_params": default_gen_params, # Pass default gen params
	# Add other variables needed by the template for initial state
	"error": None,
	"success": None,
	"output_file_url": None,
	"generation_time": None,
	"submitted_text": "",
	"submitted_voice_mode": "dialogue", # Default to combined mode
	"submitted_clone_file": None,
	# Initial generation params will be set by default_gen_params
	},
	)


	@app.post("/web/generate", response_class=HTMLResponse, include_in_schema=False)
	async def handle_web_ui_generate(
	request: Request,
	text: str = Form(...),
	voice_mode: Literal["dialogue", "clone"] = Form(...), # Updated modes
	clone_reference_select: Optional[str] = Form(None),
	# Generation parameters from form
	speed_factor: float = Form(...), # Make required or use Depends with default
	cfg_scale: float = Form(...),
	temperature: float = Form(...),
	top_p: float = Form(...),
	cfg_filter_top_k: int = Form(...),
	):
	"""Handles the generation request from the web UI form."""
	logger.info(f"Web UI generation request: mode='{voice_mode}'")
	monitor = PerformanceMonitor()
	monitor.record("Web request received")

	output_file_url = None
	generation_time = None
	error_message = None
	success_message = None
	output_filename_base = "dia_output" # Default base name

	# --- Pre-generation Validation ---
	if not text.strip():
	error_message = "Please enter some text to synthesize."

	clone_ref_file = None
	if voice_mode == "clone":
	if not clone_reference_select or clone_reference_select == "none":
	error_message = "Please select a reference audio file for clone mode."
	else:
	# Verify selected file still exists (important if files can be deleted)
	ref_path = get_reference_audio_path()
	potential_path = os.path.join(ref_path, clone_reference_select)
	if not os.path.isfile(potential_path):
	error_message = f"Selected reference file '{clone_reference_select}' no longer exists. Please refresh or upload."
	# Invalidate selection
	clone_ref_file = None
	clone_reference_select = None # Clear submitted value for re-rendering
	else:
	clone_ref_file = clone_reference_select
	logger.info(f"Using selected reference file: {clone_ref_file}")

	# If validation failed, re-render the page with error and submitted values
	if error_message:
	logger.warning(f"Web UI validation error: {error_message}")
	reference_files = get_valid_reference_files()
	current_config = config_manager.get_all()
	default_gen_params = { # Pass defaults again for consistency
	"speed_factor": get_gen_default_speed_factor(),
	"cfg_scale": get_gen_default_cfg_scale(),
	"temperature": get_gen_default_temperature(),
	"top_p": get_gen_default_top_p(),
	"cfg_filter_top_k": get_gen_default_cfg_filter_top_k(),
	}
	# Pass back the values the user submitted
	submitted_gen_params = {
	"speed_factor": speed_factor,
	"cfg_scale": cfg_scale,
	"temperature": temperature,
	"top_p": top_p,
	"cfg_filter_top_k": cfg_filter_top_k,
	}

	return templates.TemplateResponse(
	"index.html",
	{
	"request": request,
	"error": error_message,
	"reference_files": reference_files,
	"config": current_config,
	"presets": loaded_presets,
	"default_gen_params": default_gen_params, # Base defaults
	# Submitted values to repopulate form
	"submitted_text": text,
	"submitted_voice_mode": voice_mode,
	"submitted_clone_file": clone_reference_select, # Use potentially invalidated value
	"submitted_gen_params": submitted_gen_params, # Pass submitted params back
	# Ensure other necessary template variables are passed
	"success": None,
	"output_file_url": None,
	"generation_time": None,
	},
	)

	# --- Generation ---
	try:
	monitor.record("Parameters processed")
	# Call the core engine function
	result = generate_speech(
	text=text,
	voice_mode=voice_mode,
	clone_reference_filename=clone_ref_file,
	speed_factor=speed_factor,
	cfg_scale=cfg_scale,
	temperature=temperature,
	top_p=top_p,
	cfg_filter_top_k=cfg_filter_top_k,
	max_tokens=None, # Use model default for UI simplicity
	)
	monitor.record("Generation complete")

	if result:
	audio_array, sample_rate = result
	output_path_base = get_output_path()
	timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
	# Create a more descriptive filename
	mode_tag = voice_mode
	if voice_mode == "clone" and clone_ref_file:
	safe_ref_name = sanitize_filename(os.path.splitext(clone_ref_file)[0])
	mode_tag = f"clone_{safe_ref_name[:20]}" # Limit length
	output_filename = (
	f"{mode_tag}_{timestamp}.wav" # Always save as WAV for simplicity
	)
	output_filepath = os.path.join(output_path_base, output_filename)

	# Save the audio to a WAV file
	saved = save_audio_to_file(audio_array, sample_rate, output_filepath)
	monitor.record("Audio saved")

	if saved:
	output_file_url = (
	f"/outputs/{output_filename}" # URL path for browser access
	)
	generation_time = (
	monitor.events[-1][1] - monitor.start_time
	) # Time until save complete
	success_message = f"Audio generated successfully!"
	logger.info(f"Web UI generated audio saved to: {output_filepath}")
	else:
	error_message = "Failed to save generated audio file."
	logger.error("Failed to save audio file from web UI request.")
	else:
	error_message = "Speech generation failed (engine returned None)."
	logger.error("Speech generation failed for web UI request.")

	except Exception as e:
	logger.error(f"Error processing web UI TTS request: {e}", exc_info=True)
	error_message = f"An unexpected error occurred: {str(e)}"

	logger.debug(monitor.report())

	# --- Re-render Template with Results ---
	reference_files = get_valid_reference_files()
	current_config = config_manager.get_all()
	default_gen_params = {
	"speed_factor": get_gen_default_speed_factor(),
	"cfg_scale": get_gen_default_cfg_scale(),
	"temperature": get_gen_default_temperature(),
	"top_p": get_gen_default_top_p(),
	"cfg_filter_top_k": get_gen_default_cfg_filter_top_k(),
	}
	# Pass back submitted values to repopulate form correctly
	submitted_gen_params = {
	"speed_factor": speed_factor,
	"cfg_scale": cfg_scale,
	"temperature": temperature,
	"top_p": top_p,
	"cfg_filter_top_k": cfg_filter_top_k,
	}

	return templates.TemplateResponse(
	"index.html",
	{
	"request": request,
	"error": error_message,
	"success": success_message,
	"output_file_url": output_file_url,
	"generation_time": f"{generation_time:.2f}" if generation_time else None,
	"reference_files": reference_files,
	"config": current_config,
	"presets": loaded_presets,
	"default_gen_params": default_gen_params, # Base defaults
	# Pass back submitted values
	"submitted_text": text,
	"submitted_voice_mode": voice_mode,
	"submitted_clone_file": clone_ref_file, # Pass the validated filename back
	"submitted_gen_params": submitted_gen_params, # Pass submitted params back
	},
	)


	# --- Reference Audio Upload Endpoint ---
	@app.post(
	"/upload_reference", tags=["Web UI Helpers"], summary="Upload reference audio files"
	)
	async def upload_reference_audio(files: List[UploadFile] = File(...)):
	"""Handles uploading of reference audio files (.wav, .mp3) for voice cloning."""
	logger.info(f"Received request to upload {len(files)} reference audio file(s).")
	ref_path = get_reference_audio_path()
	uploaded_filenames = []
	errors = []
	allowed_mime_types = [
	"audio/wav",
	"audio/mpeg",
	"audio/x-wav",
	] # Common WAV/MP3 types
	allowed_extensions = [".wav", ".mp3"]

	for file in files:
	try:
	# Basic validation
	if not file.filename:
	errors.append("Received file with no filename.")
	continue

	# Sanitize filename
	safe_filename = sanitize_filename(file.filename)
	_, ext = os.path.splitext(safe_filename)
	if ext.lower() not in allowed_extensions:
	errors.append(
	f"File '{file.filename}' has unsupported extension '{ext}'. Allowed: {allowed_extensions}"
	)
	continue

	# Check MIME type (more reliable than extension)
	if file.content_type not in allowed_mime_types:
	errors.append(
	f"File '{file.filename}' has unsupported content type '{file.content_type}'. Allowed: {allowed_mime_types}"
	)
	continue

	# Construct full save path
	destination_path = os.path.join(ref_path, safe_filename)

	# Prevent overwriting existing files (optional, could add counter)
	if os.path.exists(destination_path):
	# Simple approach: skip if exists
	logger.warning(
	f"Reference file '{safe_filename}' already exists. Skipping upload."
	)
	# Add to list so UI knows it's available, even if not newly uploaded this time
	if safe_filename not in uploaded_filenames:
	uploaded_filenames.append(safe_filename)
	continue
	# Alternative: add counter like file_1.wav, file_2.wav

	# Save the file using shutil.copyfileobj for efficiency with large files
	try:
	with open(destination_path, "wb") as buffer:
	shutil.copyfileobj(file.file, buffer)
	logger.info(f"Successfully saved reference file: {destination_path}")
	uploaded_filenames.append(safe_filename)
	except Exception as save_exc:
	errors.append(f"Failed to save file '{safe_filename}': {save_exc}")
	logger.error(
	f"Failed to save uploaded file '{safe_filename}' to '{destination_path}': {save_exc}",
	exc_info=True,
	)
	finally:
	# Ensure the UploadFile resource is closed
	await file.close()

	except Exception as e:
	errors.append(
	f"Error processing file '{getattr(file, 'filename', 'unknown')}': {e}"
	)
	logger.error(
	f"Unexpected error processing uploaded file: {e}", exc_info=True
	)
	# Ensure file is closed even if other errors occur
	if file:
	await file.close()

	# Get the updated list of all valid files in the directory
	updated_file_list = get_valid_reference_files()

	response_data = {
	"message": f"Processed {len(files)} file(s).",
	"uploaded_files": uploaded_filenames, # List of successfully saved new files this request
	"all_reference_files": updated_file_list, # Complete current list
	"errors": errors,
	}

	status_code = (
	200 if not errors or len(errors) < len(files) else 400
	) # OK if at least one succeeded, else Bad Request
	if errors:
	logger.warning(f"Upload completed with errors: {errors}")

	return JSONResponse(content=response_data, status_code=status_code)


	# --- Health Check Endpoint ---
	@app.get("/health", tags=["Server Status"], summary="Check server health")
	async def health_check():
	"""Basic health check, indicates if the server is running and if the model is loaded."""
	# Access the MODEL_LOADED variable directly from the engine module
	# each time the endpoint is called to get the current status.
	current_model_status = getattr(engine, "MODEL_LOADED", False) # Safely get status
	logger.debug(
	f"Health check returning model_loaded status: {current_model_status}"
	) # Add debug log
	return {"status": "healthy", "model_loaded": current_model_status}


	# --- Main Execution ---
	if __name__ == "__main__":
	host = get_host()
	port = get_port()
	logger.info(f"Starting Dia TTS server on {host}:{port}")
	logger.info(f"Model Repository: {get_model_repo_id()}")
	logger.info(f"Model Config File: {get_model_config_filename()}")
	logger.info(f"Model Weights File: {get_model_weights_filename()}")
	logger.info(f"Model Cache Path: {get_model_cache_path()}")
	logger.info(f"Reference Audio Path: {get_reference_audio_path()}")
	logger.info(f"Output Path: {get_output_path()}")
	# Determine the host to display in logs and use for browser opening
	display_host = "localhost" if host == "0.0.0.0" else host
	logger.info(f"Web UI will be available at http://{display_host}:{port}/")
	logger.info(f"API Docs available at http://{display_host}:{port}/docs")

	# Ensure UI directory and index.html exist for UI
	ui_dir = "ui"
	index_file = os.path.join(ui_dir, "index.html")
	if not os.path.isdir(ui_dir) or not os.path.isfile(index_file):
	logger.warning(
	f"'{ui_dir}' directory or '{index_file}' not found. Web UI may not work."
	)
	# Optionally create dummy files/dirs if needed for startup
	os.makedirs(ui_dir, exist_ok=True)
	if not os.path.isfile(index_file):
	try:
	with open(index_file, "w") as f:
	f.write(
	"<html><body>Web UI template missing. See project source for index.html.</body></html>"
	)
	logger.info(f"Created dummy {index_file}.")
	except Exception as e:
	logger.error(f"Failed to create dummy {index_file}: {e}")

	# --- Create synchronization event ---
	# This event will be set by the lifespan manager once startup (incl. model loading) is complete.
	startup_complete_event = threading.Event()

	# Run Uvicorn server
	# The lifespan context manager ('lifespan="on"') will run during startup.
	# The 'lifespan' function is responsible for loading models and setting the 'startup_complete_event'.
	uvicorn.run(
	"server:app", # Use the format 'module:app_instance'
	host=host,
	port=port,
	reload=False, # Set reload as needed for development/production
	# reload_dirs=[".", "ui"], # Only use reload=True with reload_dirs/includes for development
	# reload_includes=[
	# "*.py",
	# "*.html",
	# "*.css",
	# "*.js",
	# ".env",
	# "*.yaml",
	# ],
	lifespan="on", # Use the lifespan context manager defined in this file
	# workers=1 # Keep workers=1 when using reload=True or complex global state/models
	)