parakeet-tdt-0.6b-v2

Running on Zero

App Files Files Community

sungo-ganpare commited on May 18

Commit

b0b7186

1 Parent(s): d206e43

デモの説明文を更新し、長時間音声対応の最適化を強調。日本語に翻訳し、主な特長を明確化。

Browse files

Files changed (2) hide show

app.py +3 -2
app_wsl.py +14 -13

app.py CHANGED Viewed

@@ -528,7 +528,8 @@ def write_lrc(segments, path):
 article = (
     "<p style='font-size: 1.1em;'>"
-    "This demo showcases <code><a href='https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2'>parakeet-tdt-0.6b-v2</a></code>, a 600-million-parameter model designed for high-quality English speech recognition."
     "</p>"
     "<p><strong style='color: red; font-size: 1.2em;'>Key Features:</strong></p>"
     "<ul style='font-size: 1.1em;'>"
@@ -565,7 +566,7 @@ nvidia_theme = gr_themes.Default(
 with gr.Blocks(theme=nvidia_theme) as demo:
     model_display_name = MODEL_NAME.split('/')[-1] if '/' in MODEL_NAME else MODEL_NAME
-    gr.Markdown(f"<h1 style='text-align: center; margin: 0 auto;'>Speech Transcription with {model_display_name}</h1>")
     gr.HTML(article)
     current_audio_path_state = gr.State(None)

 article = (
     "<p style='font-size: 1.1em;'>"
+    "This demo showcases <code><a href='https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2'>parakeet-tdt-0.6b-v2</a></code>, a 600M-parameter model for high-quality English ASR.<br>"
+    "<em>Now optimised for long recordings (hours) with automatic chunking & memory control.</em>"
     "</p>"
     "<p><strong style='color: red; font-size: 1.2em;'>Key Features:</strong></p>"
     "<ul style='font-size: 1.1em;'>"
 with gr.Blocks(theme=nvidia_theme) as demo:
     model_display_name = MODEL_NAME.split('/')[-1] if '/' in MODEL_NAME else MODEL_NAME
+    gr.Markdown(f"<h1 style='text-align: center; margin: 0 auto;'>Speech Transcription&nbsp;with&nbsp;{model_display_name} <span style='font-size:0.6em;'>(Long-audio&nbsp;ready)</span></h1>")
     gr.HTML(article)
     current_audio_path_state = gr.State(None)

app_wsl.py CHANGED Viewed

@@ -554,24 +554,25 @@ def write_lrc(segments, path):
 article = (
     "<p style='font-size: 1.1em;'>"
-    "This demo showcases <code><a href='https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2'>parakeet-tdt-0.6b-v2</a></code>, a 600-million-parameter model designed for high-quality English speech recognition."
     "</p>"
-    "<p><strong style='color: red; font-size: 1.2em;'>Key Features:</strong></p>"
     "<ul style='font-size: 1.1em;'>"
-    "    <li>Automatic punctuation and capitalization</li>"
-    "    <li>Accurate word-level timestamps (click on a segment in the table below to play it!)</li>"
-    "    <li>Character-level timestamps now available in the 'Character View' tab.</li>"
-    "    <li>Efficiently transcribes long audio segments (<strong>updated to support upto 3 hours</strong>) <small>(For even longer audios, see <a href='https://github.com/NVIDIA/NeMo/blob/main/examples/asr/asr_chunked_inference/rnnt/speech_to_text_buffered_infer_rnnt.py' target='_blank'>this script</a>)</small></li>"
-    "    <li>Robust performance on spoken numbers, and song lyrics transcription </li>"
     "</ul>"
     "<p style='font-size: 1.1em;'>"
-    "This model is <strong>available for commercial and non-commercial use</strong>."
     "</p>"
     "<p style='text-align: center;'>"
-    "<a href='https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2' target='_blank'>🎙️ Learn more about the Model</a> | "
-    "<a href='https://arxiv.org/abs/2305.05084' target='_blank'>📄 Fast Conformer paper</a> | "
-    "<a href='https://arxiv.org/abs/2304.06795' target='_blank'>📚 TDT paper</a> | "
-    "<a href='https://github.com/NVIDIA/NeMo' target='_blank'>🧑‍💻 NeMo Repository</a>"
     "</p>"
 )
@@ -591,7 +592,7 @@ nvidia_theme = gr_themes.Default(
 with gr.Blocks(theme=nvidia_theme) as demo:
     model_display_name = MODEL_NAME.split('/')[-1] if '/' in MODEL_NAME else MODEL_NAME
-    gr.Markdown(f"<h1 style='text-align: center; margin: 0 auto;'>Speech Transcription with {model_display_name}</h1>")
     gr.HTML(article)
     current_audio_path_state = gr.State(None)

 article = (
     "<p style='font-size: 1.1em;'>"
+    "このデモは <code><a href='https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2' target='_blank'>parakeet-tdt-0.6b-v2</a></code> "
+    "（約6億パラメータ）を用いた高精度な英語音声文字起こしを実演します。"
     "</p>"
+    "<p><strong style='color: red; font-size: 1.2em;'>主な特長:</strong></p>"
     "<ul style='font-size: 1.1em;'>"
+    "    <li>自動句読点・大文字化</li>"
+    "    <li>単語レベルのタイムスタンプ（下表クリックで該当区間を再生）</li>"
+    "    <li>文字レベルのタイムスタンプ表示にも対応</li>"
+    "    <li><strong>最長3時間</strong> の長時間音声を自動チャンク処理で効率的に文字起こし</li>"
+    "    <li>数字や歌詞など発話の多様なケースに高いロバスト性</li>"
     "</ul>"
     "<p style='font-size: 1.1em;'>"
+    "商用・非商用ともに <strong>ライセンス制限なく利用可能</strong> です。"
     "</p>"
     "<p style='text-align: center;'>"
+    "<a href='https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2' target='_blank'>🎙️ モデル詳細</a> | "
+    "<a href='https://arxiv.org/abs/2305.05084' target='_blank'>📄 Fast&nbsp;Conformer 論文</a> | "
+    "<a href='https://arxiv.org/abs/2304.06795' target='_blank'>📚 TDT 論文</a> | "
+    "<a href='https://github.com/NVIDIA/NeMo' target='_blank'>🧑‍💻 NeMo リポジトリ</a>"
     "</p>"
 )
 with gr.Blocks(theme=nvidia_theme) as demo:
     model_display_name = MODEL_NAME.split('/')[-1] if '/' in MODEL_NAME else MODEL_NAME
+    gr.Markdown(f"<h1 style='text-align: center; margin: 0 auto;'>長時間対応 音声文字起こし ({model_display_name})</h1>")
     gr.HTML(article)
     current_audio_path_state = gr.State(None)