bert_vits2

Running

App Files Files Community

Akito-UzukiP commited on Oct 13, 2023

Commit

77d2471

1 Parent(s): 9429d2d

add models

Browse files

Files changed (9) hide show

.gitignore +0 -1
logs/umamusume/DUR_138000.pth +3 -0
logs/umamusume/D_138000.pth +3 -0
logs/umamusume/G_138000.pth +3 -0
logs/umamusume/config.json +197 -0
logs/umamusume/githash +1 -0
text/chinese_bert.py +2 -2
text/japanese.py +2 -2
text/japanese_bert.py +2 -2

.gitignore CHANGED Viewed

@@ -161,7 +161,6 @@ cython_debug/
 .DS_Store
 /models
-/logs
 filelists/*
 !/filelists/esd.list

 .DS_Store
 /models
 filelists/*
 !/filelists/esd.list

logs/umamusume/DUR_138000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:895126bae99723209956cfd0cae65c33899e6a3f61f93ce3346818876f1dbe69
+size 6885803

logs/umamusume/D_138000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:468ec1276c5524d9ea67149eb7c3867212d01976a56373a03668c97b8f6fab67
+size 561070759

logs/umamusume/G_138000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93a7f35fa578f375c48cc5a72166c9a54cb972b69778c35cb601c814990394b3
+size 857607936

logs/umamusume/config.json ADDED Viewed

	@@ -0,0 +1,197 @@

+{
+  "train": {
+    "log_interval": 20,
+    "eval_interval": 500,
+    "seed": 52,
+    "epochs": 10000,
+    "learning_rate": 1e-04,
+    "betas": [
+      0.8,
+      0.99
+    ],
+    "eps": 1e-09,
+    "batch_size": 4,
+    "fp16_run": false,
+    "lr_decay": 0.999875,
+    "segment_size": 16384,
+    "init_lr_ratio": 1,
+    "warmup_epochs": 0,
+    "c_mel": 45,
+    "c_kl": 1.0,
+    "skip_optimizer": true
+  },
+  "data": {
+    "training_files": "filelists/train.list",
+    "validation_files": "filelists/val.list",
+    "max_wav_value": 32768.0,
+    "sampling_rate": 44100,
+    "filter_length": 2048,
+    "hop_length": 512,
+    "win_length": 2048,
+    "n_mel_channels": 128,
+    "mel_fmin": 0.0,
+    "mel_fmax": null,
+    "add_blank": true,
+    "n_speakers": 256,
+    "cleaned_text": true,
+    "spk2id": {
+      "特别周": 0,
+      "无声铃鹿": 1,
+      "丸善斯基": 2,
+      "富士奇迹": 3,
+      "东海帝皇": 4,
+      "小栗帽": 5,
+      "黄金船": 6,
+      "伏特加": 7,
+      "大和赤骥": 8,
+      "菱亚马逊": 9,
+      "草上飞": 10,
+      "大树快车": 11,
+      "目白麦昆": 12,
+      "神鹰": 13,
+      "鲁道夫象征": 14,
+      "好歌剧": 15,
+      "成田白仁": 16,
+      "爱丽数码": 17,
+      "美妙姿势": 18,
+      "摩耶重炮": 19,
+      "玉藻十字": 20,
+      "琵琶晨光": 21,
+      "目白赖恩": 22,
+      "美浦波旁": 23,
+      "雪中美人": 24,
+      "米浴": 25,
+      "爱丽速子": 26,
+      "爱慕织姬": 27,
+      "曼城茶座": 28,
+      "气槽": 29,
+      "星云天空": 30,
+      "菱曙": 31,
+      "艾尼斯风神": 32,
+      "稻荷一": 33,
+      "空中神宫": 34,
+      "川上公主": 35,
+      "黄金城": 36,
+      "真机伶": 37,
+      "荣进闪耀": 38,
+      "采珠": 39,
+      "新光风": 40,
+      "超级小海湾": 41,
+      "荒漠英雄": 42,
+      "东瀛佐敦": 43,
+      "中山庆典": 44,
+      "成田大进": 45,
+      "西野花": 46,
+      "醒目飞鹰": 47,
+      "春乌拉拉": 48,
+      "青竹回忆": 49,
+      "待兼福来": 50,
+      "Mr CB": 51,
+      "美丽周日": 52,
+      "名将怒涛": 53,
+      "帝王光辉": 54,
+      "待兼诗歌剧": 55,
+      "生野狄杜斯": 56,
+      "优秀素质": 57,
+      "双涡轮": 58,
+      "目白多伯": 59,
+      "目白善信": 60,
+      "大拓太阳神": 61,
+      "北部玄驹": 62,
+      "目白阿尔丹": 63,
+      "八重无敌": 64,
+      "里见光钻": 65,
+      "天狼星象征": 66,
+      "樱花桂冠": 67,
+      "成田路": 68,
+      "也文摄辉": 69,
+      "吉兆": 70,
+      "鹤丸刚志": 71,
+      "谷野美酒": 72,
+      "第一红宝石": 73,
+      "目白高峰": 74,
+      "真弓快车": 75,
+      "里见皇冠": 76,
+      "高尚骏逸": 77,
+      "凯斯奇迹": 78,
+      "森林宝穴": 79,
+      "小林力奇": 80,
+      "奇瑞骏": 81,
+      "葛城王牌": 82,
+      "新宇宙": 83,
+      "菱钻奇宝": 84,
+      "望族": 85,
+      "骏川手纲": 86,
+      "秋川弥生": 87,
+      "乙名史悦子": 88,
+      "桐生院葵": 89,
+      "安心泽刺刺美": 90,
+      "达利阿拉伯": 91,
+      "高多芬柏布": 92,
+      "佐岳五月": 93,
+      "胜利奖券": 94,
+      "樱花进王": 95,
+      "东商变革": 96,
+      "微光飞驹": 97,
+      "樱花千代王": 98,
+      "跳舞城": 99,
+      "樫本理子": 100,
+      "明亮圣辉": 101,
+      "拜耶土耳其": 102
+    }
+  },
+  "model": {
+    "use_spk_conditioned_encoder": true,
+    "use_noise_scaled_mas": true,
+    "use_mel_posterior_encoder": false,
+    "use_duration_discriminator": true,
+    "inter_channels": 192,
+    "hidden_channels": 192,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [
+      3,
+      7,
+      11
+    ],
+    "resblock_dilation_sizes": [
+      [
+        1,
+        3,
+        5
+      ],
+      [
+        1,
+        3,
+        5
+      ],
+      [
+        1,
+        3,
+        5
+      ]
+    ],
+    "upsample_rates": [
+      8,
+      8,
+      2,
+      2,
+      2
+    ],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [
+      16,
+      16,
+      8,
+      2,
+      2
+    ],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 256
+  }
+}

logs/umamusume/githash ADDED Viewed

	@@ -0,0 +1 @@


1	+ f046571ad63592c0b424e40a429e34182ca41357

text/chinese_bert.py CHANGED Viewed

@@ -2,7 +2,7 @@ import torch
 import sys
 from transformers import AutoTokenizer, AutoModelForMaskedLM
-tokenizer = AutoTokenizer.from_pretrained("./bert/chinese-roberta-wwm-ext-large")
 models = dict()
@@ -18,7 +18,7 @@ def get_bert_feature(text, word2ph, device=None):
         device = "cuda"
     if device not in models.keys():
         models[device] = AutoModelForMaskedLM.from_pretrained(
-            "./bert/chinese-roberta-wwm-ext-large"
         ).to(device)
     with torch.no_grad():
         inputs = tokenizer(text, return_tensors="pt")

 import sys
 from transformers import AutoTokenizer, AutoModelForMaskedLM
+tokenizer = AutoTokenizer.from_pretrained("hfl/chinese-roberta-wwm-ext-large")
 models = dict()
         device = "cuda"
     if device not in models.keys():
         models[device] = AutoModelForMaskedLM.from_pretrained(
+            "hfl/chinese-roberta-wwm-ext-large"
         ).to(device)
     with torch.no_grad():
         inputs = tokenizer(text, return_tensors="pt")

text/japanese.py CHANGED Viewed

@@ -569,7 +569,7 @@ def distribute_phone(n_phone, n_word):
     return phones_per_word
 import os
-tokenizer = AutoTokenizer.from_pretrained("./bert/bert-base-japanese-v3")
 def g2p(norm_text):
     sep_text, sep_kata = text2sep_kata(norm_text)
@@ -656,7 +656,7 @@ def g2p_nobert(norm_text):
 import os
 if __name__ == "__main__":
-    tokenizer = AutoTokenizer.from_pretrained("./bert/bert-base-japanese-v3")
     #tokenizer =  AutoTokenizer.from_pretrained("bert/bert-base-japanese-v3")
     text = "これが先頭の景色……観覧車みたいです。童、小童！"
     from text.japanese_bert import get_bert_feature

     return phones_per_word
 import os
+tokenizer = AutoTokenizer.from_pretrained("cl-tohoku/bert-base-japanese-v3")
 def g2p(norm_text):
     sep_text, sep_kata = text2sep_kata(norm_text)
 import os
 if __name__ == "__main__":
+    tokenizer = AutoTokenizer.from_pretrained("cl-tohoku/bert-base-japanese-v3")
     #tokenizer =  AutoTokenizer.from_pretrained("bert/bert-base-japanese-v3")
     text = "これが先頭の景色……観覧車みたいです。童、小童！"
     from text.japanese_bert import get_bert_feature

text/japanese_bert.py CHANGED Viewed

@@ -3,7 +3,7 @@ from transformers import AutoTokenizer, AutoModelForMaskedLM
 import sys
 import os
 from text.japanese import text2sep_kata
-tokenizer = AutoTokenizer.from_pretrained("./bert/bert-base-japanese-v3")
 models = dict()
@@ -57,7 +57,7 @@ def get_bert_feature_with_token(tokens, word2ph, device=None):
         device = "cuda"
     if device not in models.keys():
         models[device] = AutoModelForMaskedLM.from_pretrained(
-            "./bert/bert-base-japanese-v3"
         ).to(device)
     with torch.no_grad():
         inputs = torch.tensor(tokens).to(device).unsqueeze(0)

 import sys
 import os
 from text.japanese import text2sep_kata
+tokenizer = AutoTokenizer.from_pretrained("cl-tohoku/bert-base-japanese-v3")
 models = dict()
         device = "cuda"
     if device not in models.keys():
         models[device] = AutoModelForMaskedLM.from_pretrained(
+            "cl-tohoku/bert-base-japanese-v3"
         ).to(device)
     with torch.no_grad():
         inputs = torch.tensor(tokens).to(device).unsqueeze(0)