如何为单个GPU微调Llama 2 7B

工具软件3年前 (2023)发布 gpts

274 0 0

Meta 宣布推出其 Llama 2 预训练模型，该模型在 2 万亿个代币上进行训练，上下文长度是 Llama 1 的两倍。其微调模型已经过超过1万个人工注释的训练。如果您有兴趣学习如何微调 Meta 的 Llama 2 开源大型语言模型以在单个 GPU 上运行。你会很高兴地知道，深度学习AI YouTube频道创建了一个60分钟的教程，提供了如何实现这一目标的更多见解，并由Piero Molino和Travis Addair介绍。

微调像 Meta 的 Llama 2 这样的大型语言模型（LLM）以在单个 GPU 上运行可能是一项艰巨的任务。然而，由Piero Molino和Travis Addair提供的深度学习AI YouTube频道最近的教程为这一过程提供了宝贵的见解。这个 60 分钟的教程对于希望利用 LLM 的强大功能进行项目的机器学习工程师来说是一个信息宝库。

如何微调Llama 2

工程师在微调LLM时经常面临的第一个障碍是“主机内存不足”错误。在处理需要更高内存容量的 7B 参数 Llama-2 模型时，这个问题变得更具挑战性。然而，来自开源路德维希项目的Molino和Addair为这个问题提供了实用的解决方案。

在上面的视频中，演示者解释说，优化的LLM培训框架（例如 Ludwig.ai）可以显着降低主机内存开销。即使在多个 GPU 上训练时，也可以实现这种减少，从而使该过程更加高效和易于管理。

深入研究微调LLM的独特挑战。它演示了如何使用开源工具应对这些挑战。研讨会涵盖的主题包括：

在单个GPU上微调LLM，如Llama-2-7b
使用参数高效调优和量化等技术
在单个 T7 GPU （QLoRA）上训练 4b 参数模型
将经过调整的模型（如 Llama-2）部署到生产环境中
在RLHF继续培训
使用RAG与训练有素的LLM进行问答

教程的演示者Piero Molino和Travis Addair带来了丰富的经验。Predibase的联合创始人兼首席执行官莫利诺是Uber AI Labs的创始成员。他曾参与多个已部署的 ML 系统，包括用于客户支持的 NLP 模型和 Uber Eats 优食推荐系统。后来，他在斯坦福大学担任研究科学家，专注于机器学习系统。Molino还是 Ludwig.ai 的作者，这是一个开源的声明式深度学习框架，在GitHub上有8900颗星。

Predibase的联合创始人兼首席技术官Travis Addair在AI领域做出了重大贡献。他是Linux基金会内Horovod分布式深度学习框架的首席维护者，也是Ludwig声明式深度学习框架的共同维护者。此前，他领导Uber的深度学习培训团队，作为米开朗基罗机器学习平台的一部分。