Insanely Fast Whisper：98秒的时间内转录5小时

工具软件3年前 (2023)发布 gpts

322 0 0

基于Whisper-large-v3语音模型的快速转录，使用Transformers、Optimum 和 flash-attn 引擎，能在不到98秒的时间内转录5小时的音频，在Google Colab T4 GPU上进行的基准测试显示，使用不同优化方式可以显著减少音频转录时间。提供了命令行界面(CLI)，可通过pipx安装，支持快速转录和不同模型的选择

测试基准

Optimisation type	Time to Transcribe (150 mins of Audio)
Transformers (`fp32`)	~31 (31 min 1 sec)
Transformers (`fp16` + `batching [24]` + `bettertransformer`)	~5 (5 min 2 sec)
Transformers (`fp16` + `batching [24]` + `Flash Attention 2`)	~2 (1 min 38 sec)
distil-whisper (`fp16` + `batching [24]` + `bettertransformer`)	~3 (3 min 16 sec)
distil-whisper (`fp16` + `batching [24]` + `Flash Attention 2`)	~1 (1 min 18 sec)
Faster Whisper (`fp16` + `beam_size [1]`)	~9.23 (9 min 23 sec)
Faster Whisper (`8-bit` + `beam_size [1]`)	~8 (8 min 15 sec)

通过您的终端进行极快的转录！

我们添加了 CLI 来实现快速转录。使用方法如下：

使用 pipx 安装 insanely-fast-whisper ：

pipx install insanely-fast-whisper

从计算机上的任何路径运行推理：

insanely-fast-whisper --file-name <filename or URL>

您也可以从此 CLI 运行 Whisper-large-v3 w/ Flash Attention 2：

insanely-fast-whisper --file-name <filename or URL> --flash True

您也可以直接从此 CLI 运行 distil-whisper：

insanely-fast-whisper --model-name distil-whisper/large-v2 --file-name <filename or URL>

不想安装 insanely-fast-whisper ？只需使用 pipx run ：

pipx run insanely-fast-whisper --file-name <filename or URL>

注意：CLI 是固定的，目前仅适用于 Nvidia GPU。请务必检查默认设置和可以使用的选项列表，以最大限度地提高转录吞吐量。运行 insanely-fast-whisper --help 或 pipx run insanely-fast-whisper --help 以获取所有 CLI 参数和默认值。