OpenAI Whisper模型现已在Microsoft的Azure OpenAI服务和Azure AI Speech服务中可用

工具软件3年前 (2023)发布 gpts

292 0 0

Microsoft就宣布OpenAI Whisper模型将很快出现在Azure OpenAI服务中。上周五，Microsoft宣布OpenAI Whisper模型现在可供使用Azure OpenAI服务和Azure AI Speech服务的客户使用。

OpenAI 耳语模型是一个神经网络，可以用 57 种语言执行语音识别和翻译任务。它是在从网络收集的大量多样化的音频和文本数据集上进行训练的。它使用基于变压器编码器-解码器架构的简单端到端方法，并且可以生成具有增强可读性和短语级时间戳的成绩单。

企业现在可以使用以下两种方式构建基于 OpenAI Whisper 模型的应用程序：

Azure OpenAI 服务中的 OpenAI 耳语模型：

OpenAI已经自己提供了Whisper API。使用这个新的Azure OpenAI服务，开发人员可以在特性和功能（包括转录和翻译功能）中使用相同的OpenAI Whisper API。可以在 Azure OpenAI 服务门户中找到 Whisper 模型的用于听录和转换的 REST API。

Azure AI 语音中的 OpenAI 耳语模型：

Azure AI 语音的用户现在可以将新的 OpenAI 的耳语模型与现有的 Azure AI 语音批量听录 API 结合使用。Azure AI 语音中的 Whisper 用户受益于现有功能，包括异步处理、说话人分割、自定义和更大的文件大小。在下面找到详细信息。

大文件大小：Azure AI 语音通过启用最大 1GB 的文件来增强耳语听录，并通过允许在单个请求中批处理多达 1000 个文件来处理大量文件的能力。
时间戳： 使用 Azure AI 语音，识别结果包括字级时间戳，从而能够识别音频中每个字词的发音位置。
扬声器分割：这是 Azure AI 语音的另一个有益功能，可识别音频文件中的各个说话人并标记其语音段。此功能允许客户区分说话者，准确转录他们的话，并创建更有条理和结构化的音频文件转录。
自定义/微调（即将推出）：Azure 语音中的自定义语音功能允许客户对自己的数据微调 Whisper，以提高识别准确性和一致性。