We use cookies to improve your experience with our site.

大语言模型数据集综述:从自回归模型到对话机器人

A Survey of LLM Datasets: From Autoregressive Model to AI Chatbot

  • 摘要:
    研究背景与目的 这项研究的重点是解码器架构的预训练大语言模型与向对话方向优化的微调大语言模型中的数据集构建方法与来源。今年来业内大语言模型许多训练细节仍然不清晰,因此这项研究旨在通过提供有关训练数据的一些见解和建议以及指出当前语料中存在的问题帮助相关研究人员(特别是业外学者)复现研究大语言模型。据我们所知,本文是第一篇总结自回归模型与微调对话模型的综述。全面的总结分析与文中第四节的具体案例可以为学者提供具体的复现模型的参考。此外,综述也指出了当前大语言模型研究中存在的趋势和问题,为相关带来新的视角。
    方法 对于预训练数据,文章将语料库分为五类—网络文本、书籍、学术资料、对话和代码。对于每一类语料,本文选取了在最新进的模型中使用过的数据集进行分析。对于微调数据集,论文将数据集分为了三类—对比数据、指令微调数据和对话数据。并侧重微调对话模型重复了之前的过程。此项研究分析了数据使用的方法和数据集的功能与注意事项,并从中指出大语言模型研究中从数据角度分析的问题和趋势。
    结果 该研究最终对16个预训练数据集和16个微调数据集进行了详细分析。除此之外还简单介绍了其他一些对训练特定方面有所帮助的数据集。综述重点介绍了公开数据集,以便读者训练自己的语言模型。
    结论 本文通过对数据集进行总结分析以及提供具体模型训练安利提供了复刻大语言模型以及进行其他相关大语言模型研究的指导和参考。同时也通过总结分析指出了当前研究的问题和趋势,例如语料中的语言单一性与指令自动化技术的普及。文章的局限性在于只从数据角度进行了讨论而没有进行具体的模型性能实验。相关的可以在未来进行的研究包括通过评估模型性能追踪预训练数据集中不同数据集的具体影响,以及微调过程中不同数据集构建方法如何影响模型的聊天功能。

     

    Abstract: Since OpenAI opened access to ChatGPT, large language models (LLMs) become an increasingly popular topic attracting researchers’ attention from abundant domains. However, public researchers meet some problems when developing LLMs given that most of the LLMs are produced by industries and the training details are typically unrevealed. Since datasets are an important setup of LLMs, this paper does a holistic survey on the training datasets used in both the pre-train and fine-tune processes. The paper first summarizes 16 pre-train datasets and 16 fine-tune datasets used in the state-of-the-art LLMs. Secondly, based on the properties of the pre-train and fine-tune processes, it comments on pre-train datasets from quality, quantity, and relation with models, and comments on fine-tune datasets from quality, quantity, and concerns. This study then critically figures out the problems and research trends that exist in current LLM datasets. The study helps public researchers train and investigate LLMs by visual cases and provides useful comments to the research community regarding data development. To the best of our knowledge, this paper is the first to summarize and discuss datasets used in both autoregressive and chat LLMs. The survey offers insights and suggestions to researchers and LLM developers as they build their models, and contributes to the LLM study by pointing out the existing problems of LLM studies from the perspective of data.

     

/

返回文章
返回