人工智能大模型技术发展历程，技术风险与挑战-报告智库

人工智能大模型技术发展历程主要有四个阶段：1、统计语言模型；2、神经语言模型；3、预训练语言模型；4、语言大模型（探索阶段）；

人工智能大模型技术发展历程

2022 年由 OpenAI 发布的语言大模型 ChatGPT 引发了社会的广泛关注。在“大模型+大数据+大算力”的加持下，ChatGPT 能够通过自然语言交互完成多种任务，具备了多场景、多用途、跨学科的任务处理能力。

以 ChatGPT 为代表的大模型技术可以在经济、法律、社会等众多领域发挥重要作用。大模型被认为很可能像 PC 时代的操作系统一样，成为未来人工智能领域的关键基础设施，引发了大模型的发展热潮。

本次大模型热潮主要由语言大模型（亦称为大语言模型）引领。语言大模型通过在海量无标注数据上进行大规模预训练，能够学习到大量的语言知识与世界知识，并且通过指令微调、人类对齐等关键技术拥有面向多任务的通用求解能力。

在原理上，语言大模型旨在构建面向文本序列的概率生成模型，其发展过程主要经历了四个主要阶段：

1、统计语言模型：

统计语言模型主要基于马尔可夫假设建模文本序列的生成概率。特别地，N-gram 语言模型[6]认为下一个词汇的生成概率只依赖于前面出现的 N 个词汇（即 N 阶马尔可夫假设）。

此类语言模型的问题在于容易受到数据稀疏问题的影响，需要使用平滑策略改进概率分布的估计，对于文本序列的建模能力较弱。

2、神经语言模型：

针对统计语言模型存在的问题，神经语言模型主要通过神经网络（MLP[7]、RNN[8]）建模目标词汇与上下文词汇的语义共现关系，能够有效捕获复杂的语义依赖关系，更为精准建模词汇的生成概率。

进一步，word2vec[4]简化了神经语言模型的网络架构，可以从无监督语料中学习可迁移的词表示（又称为词向量或词嵌入），为后续预训练语言模型的研究奠定了基础。

3、预训练语言模型：

预训练语言模型主要是基于“预训练+微调”的学习范式构建，首先通过自监督学习任务从无标注文本中学习可迁移的模型参数，进而通过有监督微调适配下游任务。早期的代表性预训练语言模型包括 ELMo[9]、GPT-1[10]和 BERT[11]等。

其中，ELMo模型基于传统的循环神经网络（LSTM）[12]构建，存在长距离序列建模能力弱的问题；

随着 Transformer[13]的提出，神经网络序列建模能力得到了显著的提升，GPT-1 和 BERT 都是基于 Transformer 架构构建的，可通过微调学习解决大部分的自然语言处理任务。

4、语言大模型（探索阶段）：

在预训练语言模型的研发过程中，一个重要的经验性法则是扩展定律（Scaling Law）[14]：随着模型参数规模和预训练数据规模的不断增加，模型能力与任务效果将会随之改善。

OpenAI 在研发 GPT 系列模型过程中，主要探索了 GPT-1[10]（1.1 亿参数）、GPT-2（15 亿参数）[15]、以及 GPT-3（1750 亿参数）三个不同参数规模的模型，谷歌也推出了参数规模高达 5400 亿参数的 PaLM 模型。

当模型参数规模达到千亿量级，语言大模型能够展现出多方面的能力跃升[18]。例如，GPT-3 在没有微调的情况下，可以仅通过提示词或少数样例（In-context learning，上下文学习完成多种任务，甚至在某些任务上超过当时最好的专用模型。

学术界引入了“语言大模型”（Large language models）来特指这种超大规模的预训练语言模型，以突出与早期预训练语言模型的不同。

PS：完整报告已上传『报告智库』知识星球，本社群每年更新优质报告30000+，精选近2年各行业策划方案；每月6 -20份行业内幕资讯； 点击这里 即可加入！