AudioCraft是什么?如何安装使用

工具软件1年前 (2023)发布 gpts
71 0

AudioCraft是一个PyTorch库,用于音频生成的深度学习研究。AudioCraft 包含推理和训练代码 用于两个最先进的 AI 生成模型,产生高质量的音频:AudioGen 和 MusicGen。

Audiocraft 是一个用于通过深度学习进行音频处理和生成的库。它具有最先进的 EnCodec 音频压缩器/分词器,以及 MusicGen,这是一种简单且可控的音乐生成 LM,具有文本和旋律调节功能。

安装

AudioCraft 需要 Python 3.9、PyTorch 2.0.0。要安装 AudioCraft,您可以运行以下命令:

# Best to make sure you have torch installed first, in particular before installing xformers.
# Don't run this if you already have PyTorch installed.
pip install 'torch>=2.0'
# Then proceed to one of the following
pip install -U audiocraft  # stable release
pip install -U git+https://git@github.com/facebookresearch/audiocraft#egg=audiocraft  # bleeding edge
pip install -e .  # or if you cloned the repo locally (mandatory if you want to train).

我们还建议您通过您的系统或 Anaconda 进行安装:ffmpeg

sudo apt-get install ffmpeg
# Or if you are using Anaconda or Miniconda
conda install 'ffmpeg<5' -c  conda-forge

模型

目前,AudioCraft 包含以下训练代码和推理代码:

  • MusicGen:最先进的可控文本到音乐模型。
  • AudioGen:最先进的文本到声音模型。
  • Encodec:最先进的高保真神经音频编解码器。
  • 多频段扩散:使用扩散的EnCodec兼容解码器。

训练代码

AudioCraft 包含 PyTorch 组件,用于音频中的深度学习研究以及开发模型的训练管道。 有关 AudioCraft 设计原则和说明的一般介绍,以开发您自己的培训管道,请参阅 音频工艺培训文档

有关重现现有工作和使用开发的训练管道的信息,请参阅每个特定模型的说明 提供指向配置、示例网格和特定于模型/任务的信息以及常见问题解答的指针。

接口文档

我们为 AudioCraft 提供了一些 API 文档

常见问题

训练代码是否可用?

是的!我们提供EncodecMusicGenMulti Band Diffusion的训练代码。

模型存储在哪里?

拥抱面孔将模型存储在特定位置,可以通过设置环境变量来覆盖该位置。AUDIOCRAFT_CACHE_DIR

许可证

  • 此存储库中的代码在 MIT 许可证下发布,如 LICENSE 文件中所述。
  • 此存储库中的模型权重在 CC-BY-NC 4.0 许可证下发布,如 LICENSE_weights 文件所示。

引文

有关AudioCraft的一般框架,请引用以下内容。

@article{copet2023simple,
    title={Simple and Controllable Music Generation},
    author={Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez},
    year={2023},
    journal={arXiv preprint arXiv:2306.05284},
}

当提到特定模型时,请引用特定模型自述文件中提到的内容,例如 ./docs/MUSICGEN.md、./docs/AUDIOGEN.md 等。

© 版权声明

相关文章