这个程序的特点是可以按照单词对齐时间戳,所以基本上生成的字幕都是完整的句子。
生成结果除了srt还有json文件,里面有每一行里面单词的时间戳,可以根据需要二次整理字幕。
另外它还能识别发言人,准确率还可以。
貌似不支持Mac,而且需要NVIDIA的显卡,好在Google Colab可以运行(需要启用GPU)。
- 使用 whisper large-v2 进行 70 倍实时转录的批量推理
- faster-whisper 后端,对于 beam_size=5 的 large-v2 需要 <8GB gpu 内存
- 使用wav2vec2对齐的准确词级时间戳
- 使用来自 pyannote-audio 的说话人二值化的多说话人 ASR(说话人 ID 标签)
- VAD 预处理,在不降低 WER 的情况下减少幻觉和批处理
有开发者写了一个可以根据YouTube Url识别YouTube字幕的Jupyter Notebook,仅供参考:
github.com/JimLiu/whisper-subtitles/blob/main/whisperx_youtube_subtitle.ipynb
项目链接
https://github.com/m-bain/whisperX
© 版权声明
文章版权归作者所有,未经允许请勿转载。