新的大型语言模型训练方法：在LLM中利用合成数据

LLM现代语言模型（LLMs）近几个月来在人工智能（AI）社区中变得极为流行。这些模型在文本摘要、问答、代码补全、内容生成等方面显示出巨大潜力。

训练LLMs的主要挑战包括与计算成本和预训练所需时间有关的限制，以及在互联网上获取高质量数据的可用性。然而，来自苹果和卡内基梅隆大学的研究团队引入了一种创新方法来解决这些问题。

这种方法被称为网络重述增强预训练（WRAP），它利用现有的LLM模型以各种风格改写网页，例如模仿维基百科的语调或将文本转换成问答格式。WRAP的目标是通过添加原始和人工改写的数据来改进LLM的预训练过程。

WRAP的关键特点包括：

1. 高效预训练：将WRAP方法与嘈杂的C4数据集结合使用，可以显著加快预训练过程，速度最高可提高三倍。这有效地降低了LLM训练的成本和时间。

2. 模型性能增强：WRAP方法通过使用用于LLM训练和评估的大规模数据集Pile的不同子集，提高了模型的性能，同时保持相同的计算预算。它通过超过10%减少模棱两可的问题，使得零-shot准确度在问答应用中提高了2%以上。

3. 网页文档改写：WRAP利用中型LLM模型以各种风格改写来自网页的文档。它与生成新数据不同，它改善现有内容的同时保持其质量和多样性。

通过WRAP生成的合成数据的好处包括多样的风格，反映了应用中使用的多种语言的差异。这意味着LLMs对各种现实情况更有准备。此外，合成数据的质量比原始互联网数据更高。改进的质量源于更有组织和连贯的语言，从而促进了更有效的模型学习。

因此，WRAP代表着LLM预训练中的一项重大进展。通过利用具有不同风格的合成数据，这种方法不仅加快了训练过程，还提高了LLMs的整体性能。考虑到低质量互联网数据的丰富和传统LLM训练方法的高成本，WRAP方法为此领域的进一步发展开辟了可能性。

常见问题解答（FAQ）：

Q：WRAP方法如何加快LLM的预训练过程？
A：WRAP方法与C4数据集结合使用，可以将预训练过程加速至多达三倍。

Q：WRAP方法如何提高LLM的模型性能？
A：WRAP方法通过使用不同子集的Pile数据集，减少了问题的模棱两可性，提高了零-shot准确度。

Q：WRAP方法如何生成合成数据？
A：WRAP利用中型LLM模型以各种风格改写网页文档，提供了多样化的合成数据。

来源：机器助手生成

The source of the article is from the blog guambia.com.uy