Piper Plus Base Model (Japanese)
日本語TTS用の事前学習済みベースモデルです。このモデルは単一話者のファインチューニング用に最適化されています。
Model Details
| 項目 | 値 |
|---|---|
| アーキテクチャ | VITS |
| 言語 | 日本語 (ja) |
| サンプルレート | 22050 Hz |
| 品質 | medium |
| 音素タイプ | OpenJTalk |
| 話者数 | 0 (単一話者用) |
使用方法
ファインチューニング
このベースモデルを使用して、新しい話者の音声でファインチューニングできます。
1. データセットの前処理
uv run python -m piper_train.preprocess \
--input-dir /path/to/your-ljspeech-data \
--output-dir /path/to/dataset \
--language ja \
--dataset-format ljspeech \
--sample-rate 22050 \
--single-speaker \
--phoneme-type openjtalk
2. ファインチューニングの実行
uv run python -m piper_train \
--dataset-dir /path/to/dataset \
--accelerator gpu \
--devices 1 \
--precision 16-mixed \
--max_epochs 50 \
--batch-size 32 \
--checkpoint-epochs 1 \
--base_lr 1e-4 \
--disable_auto_lr_scaling \
--resume_from_checkpoint /path/to/model.ckpt \
--default_root_dir /path/to/output
推奨パラメータ
| パラメータ | 値 | 説明 |
|---|---|---|
--base_lr |
1e-4 | 事前学習より低い学習率(過学習防止) |
--disable_auto_lr_scaling |
- | 学習率の自動スケーリングを無効化 |
--max_epochs |
50-100 | 少量データの場合は短め |
--batch-size |
32 | GPUメモリに応じて調整 |
Citation
@software{piper_plus,
title = {Piper Plus: Japanese TTS with VITS},
author = {ayousanz},
year = {2024},
url = {https://github.com/ayousanz/piper}
}
- Downloads last month
- 8
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support