mispeech
/

dasheng-base

Audio Classification

feature-extraction

Model card Files Files and versions

jimbozhang commited on Jun 11

Commit

e845783

·

verified ·

1 Parent(s): dbe0e17

Update README.md

Files changed (1) hide show

README.md +1 -7

README.md CHANGED Viewed

@@ -32,13 +32,7 @@ pip install git+https://github.com/jimbozhang/hf_transformers_custom_model_dashe
 >>> feature_extractor = DashengFeatureExtractor.from_pretrained(model_name)
 >>> model = DashengModel.from_pretrained(model_name, outputdim=None)  # no linear output layer if `outputdim` is `None`
->>> import torchaudio
->>> audio, sampling_rate = torchaudio.load("resources/JeD5V5aaaoI_931_932.wav")
->>> assert sampling_rate == 16000
->>> audio.shape
-torch.Size([1, 16000])   # mono audio of 1 second
->>> inputs = feature_extractor(audio, sampling_rate=sampling_rate, return_tensors="pt")
 >>> inputs.input_values.shape
 torch.Size([1, 64, 101])   # 64 mel-filterbanks, 101 frames

 >>> feature_extractor = DashengFeatureExtractor.from_pretrained(model_name)
 >>> model = DashengModel.from_pretrained(model_name, outputdim=None)  # no linear output layer if `outputdim` is `None`
+>>> inputs = feature_extractor(torch.randn(1, 16000), sampling_rate=sampling_rate, return_tensors="pt")
 >>> inputs.input_values.shape
 torch.Size([1, 64, 101])   # 64 mel-filterbanks, 101 frames