用BELLE-2/Belle-whisper-large-v2-zh识别中文音频，效果还不如Systran/faster-whisper-large-v2？ #574

drilistbox · 2024-02-02T05:36:43Z

作者您好，我用BELLE-2/Belle-whisper-large-v2-zh跑实验效果还不如Systran/faster-whisper-large-v2

按道理在中文数据上finetune的模型性能应该比fasterwhisiper的好才对

我用的测试音频文件在这里 https://drive.google.com/file/d/1UTGOlnc3c_5FDHv_hH3IyNgNjxHNKQkD/view?usp=sharing

我是这么用的

怎么才能弄出好的效果么

houmochenliu · 2024-02-02T05:53:27Z

+1

shuaijiang · 2024-02-21T02:08:50Z

根据上面结果，大概原因可能是使用belle-whisper没有做vad切分，所以都是按照最长30秒做的识别，这样有一定的影响。
建议把belle-whisper转为fasterwhisper模型格式，基于faster-whisper框架去做推理，faster-whisper内置了vad 模块。速度和效果都有一定保证。

chenquan · 2024-03-05T02:21:10Z

根据上面结果，大概原因可能是使用belle-whisper没有做vad切分，所以都是按照最长30秒做的识别，这样有一定的影响。建议把belle-whisper转为fasterwhisper模型格式，基于faster-whisper框架去做推理，faster-whisper内置了vad 模块。速度和效果都有一定保证。

belle-whisper转为fasterwhisper模型格式，请问这个怎么处理呢？有相关的技术资料吗？

chenquan · 2024-03-05T02:54:46Z

根据上面结果，大概原因可能是使用belle-whisper没有做vad切分，所以都是按照最长30秒做的识别，这样有一定的影响。建议把belle-whisper转为fasterwhisper模型格式，基于faster-whisper框架去做推理，faster-whisper内置了vad 模块。速度和效果都有一定保证。

belle-whisper转为fasterwhisper模型格式，请问这个怎么处理呢？有相关的技术资料吗？

ct2-transformers-converter --model BELLE-2/Belle-whisper-large-v2-zh --output_dir Belle-whisper-large-v2-ct2 --copy_files  preprocessor_config.json --quantization int8_float32

https://opennmt.net/CTranslate2/quantization.html#quantize-on-model-conversion

drilistbox · 2024-03-05T04:37:44Z

但是whisper里默认是有vad的呀，你是指belle-whisper里把vad去掉了？

shuaijiang · 2024-03-05T10:20:41Z

你说的应该是 timestamps， belle-whisper 微调时没有进一步优化timestamp。如果需要timestamps需要在推理时主动打开。faster-whisper框架有vad，切分效果更好一些。所以建议用faster-whisper框架调用belle-whisper

drilistbox · 2024-03-05T10:54:15Z

多谢大佬我试试

dogvane · 2024-03-15T09:33:50Z

我这边，使用 v2,v3转到 faster-whisper 的模型，好像也没有 vad 成功。

Name: whisperx
Version: 3.1.2

Name: faster-whisper
Version: 1.0.1

测试用视频：https://www.youtube.com/watch?v=we8vNy6DYMI

v2 偶尔还会出现乱码
v3 的话，就算设置了 vad 也一样是30s 一个切片片段。

model = WhisperModel(model_size, device="cuda", compute_type="float16")
model.feature_extractor.mel_filters = model.feature_extractor.get_mel_filters(model.feature_extractor.sampling_rate, model.feature_extractor.n_fft, n_mels=128)
segments, info = model.transcribe(file, vad_filter=True, vad_parameters=dict(min_silence_duration_ms=500), language=language)

bigcash · 2024-03-28T03:54:18Z

我这边，使用 v2,v3转到 faster-whisper 的模型，好像也没有 vad 成功。

Name: whisperx Version: 3.1.2

Name: faster-whisper Version: 1.0.1

测试用视频：https://www.youtube.com/watch?v=we8vNy6DYMI

v2 偶尔还会出现乱码 v3 的话，就算设置了 vad 也一样是30s 一个切片片段。

model = WhisperModel(model_size, device="cuda", compute_type="float16") model.feature_extractor.mel_filters = model.feature_extractor.get_mel_filters(model.feature_extractor.sampling_rate, model.feature_extractor.n_fft, n_mels=128) segments, info = model.transcribe(file, vad_filter=True, vad_parameters=dict(min_silence_duration_ms=500), language=language)

您好，我使用ct2-transformers-converter --model BELLE-2--Belle-whisper-large-v3-zh --output_dir BELLE-2--Belle-whisper-large-v3-zh-ct2 --copy_files preprocessor_config.json --quantization float16 这个命令将模型转换为faster-whisper格式，在加载模型时model = WhisperModel(model_size, device="cuda", compute_type="float16")提示错误：Max retries exceeded with url: /openai/whisper-tiny/resolve/main/tokenizer.json，请问为什么还要去huggingface.co下载这个tokenizer.json呀，正确的做法该怎么做呢，谢谢拉

Xuyaoyan · 2024-04-27T09:53:42Z

e: whispe

请问你是怎么转的，我自己用命令行转没成功

Xuyaoyan · 2024-05-05T09:14:23Z

我这边，使用 v2,v3转到 faster-whisper 的模型，好像也没有 vad 成功。

Name: whisperx Version: 3.1.2

Name: faster-whisper Version: 1.0.1

测试用视频：https://www.youtube.com/watch?v=we8vNy6DYMI

v2 偶尔还会出现乱码 v3 的话，就算设置了 vad 也一样是30s 一个切片片段。

model = WhisperModel(model_size, device="cuda", compute_type="float16") model.feature_extractor.mel_filters = model.feature_extractor.get_mel_filters(model.feature_extractor.sampling_rate, model.feature_extractor.n_fft, n_mels=128) segments, info = model.transcribe(file, vad_filter=True, vad_parameters=dict(min_silence_duration_ms=500), language=language)

你好，我现在也遇到了这个问题，转成fasterwhisper之后，设置vad无效，还是30s，请问你有解决这个问题吗

wwfcnu · 2024-05-15T02:40:56Z

我这边，使用 v2,v3转到 faster-whisper 的模型，好像也没有 vad 成功。
Name: whisperx Version: 3.1.2
Name: faster-whisper Version: 1.0.1
测试用视频：https://www.youtube.com/watch?v=we8vNy6DYMI
v2 偶尔还会出现乱码 v3 的话，就算设置了 vad 也一样是30s 一个切片片段。
model = WhisperModel(model_size, device="cuda", compute_type="float16") model.feature_extractor.mel_filters = model.feature_extractor.get_mel_filters(model.feature_extractor.sampling_rate, model.feature_extractor.n_fft, n_mels=128) segments, info = model.transcribe(file, vad_filter=True, vad_parameters=dict(min_silence_duration_ms=500), language=language)

你好，我现在也遇到了这个问题，转成fasterwhisper之后，设置vad无效，还是30s，请问你有解决这个问题吗

用whisperx，设置chunk_size可以指定vad的最大切分时长

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

用BELLE-2/Belle-whisper-large-v2-zh识别中文音频，效果还不如Systran/faster-whisper-large-v2？ #574

用BELLE-2/Belle-whisper-large-v2-zh识别中文音频，效果还不如Systran/faster-whisper-large-v2？ #574

drilistbox commented Feb 2, 2024 •

edited

Loading

houmochenliu commented Feb 2, 2024

shuaijiang commented Feb 21, 2024

chenquan commented Mar 5, 2024

chenquan commented Mar 5, 2024

drilistbox commented Mar 5, 2024

shuaijiang commented Mar 5, 2024

drilistbox commented Mar 5, 2024

dogvane commented Mar 15, 2024

bigcash commented Mar 28, 2024

Xuyaoyan commented Apr 27, 2024

Xuyaoyan commented May 5, 2024

wwfcnu commented May 15, 2024

用BELLE-2/Belle-whisper-large-v2-zh识别中文音频，效果还不如Systran/faster-whisper-large-v2？ #574

用BELLE-2/Belle-whisper-large-v2-zh识别中文音频，效果还不如Systran/faster-whisper-large-v2？ #574

Comments

drilistbox commented Feb 2, 2024 • edited Loading

houmochenliu commented Feb 2, 2024

shuaijiang commented Feb 21, 2024

chenquan commented Mar 5, 2024

chenquan commented Mar 5, 2024

drilistbox commented Mar 5, 2024

shuaijiang commented Mar 5, 2024

drilistbox commented Mar 5, 2024

dogvane commented Mar 15, 2024

bigcash commented Mar 28, 2024

Xuyaoyan commented Apr 27, 2024

Xuyaoyan commented May 5, 2024

wwfcnu commented May 15, 2024

drilistbox commented Feb 2, 2024 •

edited

Loading