Insanely Fast Whisper:98秒的时间内转录5小时

工具软件1年前 (2023)发布 gpts
98 0

基于Whisper-large-v3语音模型的快速转录,使用Transformers、Optimum 和 flash-attn 引擎,能在不到98秒的时间内转录5小时的音频,在Google Colab T4 GPU上进行的基准测试显示,使用不同优化方式可以显著减少音频转录时间。提供了命令行界面(CLI),可通过pipx安装,支持快速转录和不同模型的选择

测试基准

Optimisation type Time to Transcribe (150 mins of Audio)
Transformers (fp32) ~31 (31 min 1 sec)
Transformers (fp16 + batching [24] + bettertransformer) ~5 (5 min 2 sec)
Transformers (fp16 + batching [24] + Flash Attention 2) ~2 (1 min 38 sec)
distil-whisper (fp16 + batching [24] + bettertransformer) ~3 (3 min 16 sec)
distil-whisper (fp16 + batching [24] + Flash Attention 2) ~1 (1 min 18 sec)
Faster Whisper (fp16 + beam_size [1]) ~9.23 (9 min 23 sec)
Faster Whisper (8-bit + beam_size [1]) ~8 (8 min 15 sec)

通过您的终端进行极快的转录!

我们添加了 CLI 来实现快速转录。使用方法如下:

使用 pipx 安装 insanely-fast-whisper :

pipx install insanely-fast-whisper

从计算机上的任何路径运行推理:

insanely-fast-whisper --file-name <filename or URL>

您也可以从此 CLI 运行 Whisper-large-v3 w/ Flash Attention 2:

insanely-fast-whisper --file-name <filename or URL> --flash True 

 您也可以直接从此 CLI 运行 distil-whisper:

insanely-fast-whisper --model-name distil-whisper/large-v2 --file-name <filename or URL>

不想安装 insanely-fast-whisper ?只需使用 pipx run

pipx run insanely-fast-whisper --file-name <filename or URL>

注意:CLI 是固定的,目前仅适用于 Nvidia GPU。请务必检查默认设置和可以使用的选项列表,以最大限度地提高转录吞吐量。运行 insanely-fast-whisper --help 或 pipx run insanely-fast-whisper --help 以获取所有 CLI 参数和默认值。

项目链接

https://github.com/chenxwh/insanely-fast-whisper

© 版权声明

相关文章