技术迭代一: 多模态大模型DALL·E 3带来产业冲击;技术迭代二:长文本技术增强产品用户体验;技术迭代三:Llama2掀起大模型市场新格局

acg行业发展趋势是什么?acg行业发展趋势分析报告

acg行业发展趋势是什么?acg行业发展趋势分析报告

技术迭代一: 多模态大模型DALL·E 3带来产业冲击

多模态大模型(MLLM)是将文本、图像、音频和视频等多模信息结合起来训练的模型。相比LLM(大语言模型),MLLM更符合人类感知世界的方式。多模态输入的支持,使用户可以用更灵活的方式与智能助手进行交互,继而利用强大的大模型作为大脑来执行多模态任务。

9月21日,OpenAI宣布生成式AI艺术平台DALL-E的第三个版本——DALL·E 3已经进入研究预览阶段,并将于10月初面向ChatGPT Plus和企业用户上线。另外ChatGPT-4V的推出为其增加了视觉智能,使其不再局限于文字处理,还能识别、理解、分析和预测图片信息。

影响:DALL·E 3的出现不仅再次冲击艺术界的绘画产业,也同时给电商、设计等行业产生了实质性的影响。但同时,安全和版权保护等社会问题也尤为值得关注。对标产品:昆仑万维天工大模型Skywork-MM、MiniMax多模态大模型矩阵等。

在LLM中,“上下文长度”是指大语言模型在生成预测时考虑的输入文本的长度。对大模型而言,具备更长文本的建模能力意味着模型可以观察到更长的上下文,可以避免因观察窗口限制导致重要信息的丢失。

大模型应用效果通常取决于两个核心指标,一是模型参数量,决定了大模型的“计算”能力;二是上下文长度,决定了大模型的“内存”能力,即长文本可以通过提供更多上下文和细节信息,来辅助模型判断语义,进一步减少歧义,并且基于所提供事实基础上的归纳、推理也更加准确。

技术迭代二:长文本技术增强产品用户体验

背景:在LLM中,“上下文长度”是指大语言模型在生成预测时考虑的输入文本的长度。对大模型而言,具备更长文本的建模能力意味着模型可以观察到更长的上下文,可以避免因观察窗口限制导致重要信息的丢失。

大模型应用效果通常取决于两个核心指标,一是模型参数量,决定了大模型的“计算”能力;二是上下文长度,决定了大模型的“内存”能力,即长文本可以通过提供更多上下文和细节信息,来辅助模型判断语义,进一步减少歧义,并且基于所提供事实基础上的归纳、推理也更加准确。

7月18号,斯坦福大学发布了新型注意力算法FlashAttention-2 ,更好的并行化和工作分区,比标准Attention提速5-9倍,极大加速了现有模型的训练和推理。

9月21号,香港中文大学联合MIT推出微调方法LongLoRA。两项研究成果能在资源受限的情况下,极大扩展大模型的上下文。

影响:在诸如金融、法律和科研等特定行业或场景,需要对长篇幅文档进行分析、归纳抽取、多文档信息对比以及关键信息总结。因此,长文本建模能力是大模型目前行业应用能顺利落地的前提条件。

对标产品:月之暗面Kimi Chat等。

技术展望:国内外对于文本长度的探索还远没有达到“临界点”,在通往未来Agent和AI原生应用的道路上,长文本依然扮演着重要的角色。

Agent任务运行需要依靠历史信息进行新的规划和决策,AI原生应用需要依靠上下文本来保持连贯、个性化的用户体验,这也是月之暗面、OpenAI等一众大模型公司在当下聚焦长文本技术的原因所在。

技术迭代三:Llama2掀起大模型市场新格局

背景:LLaMA(LargeLanguage Model MetaAl) 是Meta发布的一款开源大型语言模型。该模型仅使用公开数据集进行训练,确保了其与开源协议的兼容性和可复现性,LLaMA已成为AI社区中最受欢迎的开源模型之一。

然而,由于其开源协议的限制,LLaMA仅限于学术研究使用,不能进行免费的商业用途。

影响:对上游,Meta与微软云服务Azure合作,向全球开发者首发基于Llama 2模型的云服务,与高通合作,打破市场上英伟达、AMD处理器对AI产业的垄断。

对下游,通过“模型基座+迁移学习+微调”的垂类AI模型开发范式,使得更多的企业和个人开发者可以快速加入到AIGC热潮中,也极大地加速了行业AI应用开发效率,弱化和颠覆OpenAI等公司在新兴的生成式人工智能软件市场中建立的早期主导地位。Llama2推动了国内大模型的开源进程和商业化变革。

对标产品:百川智能部分模型、智谱AI GLM-130B开源双语预训练语言模型等。

技术迭代四:AI Agent深入挖掘大模型潜力

Agent(智能体)指在一定的环境中体现出自治性、反应性、社会性、预动性、思辨性(慎思性)、认知性等一种或多种智能特征的软件或硬件实体。Agent = 大模型+记忆+主动规划+工具使用。

AI Agent能够理解、规划、执行、自我调整,解决更复杂的问题。相比LLM,AI Agent能独立思考、调用工具去逐步完成给定目标的能力;和RPA的区别在于能够处理未知环境信息。

7月26日,亚马逊推出Amazon Bedrock Agents,可以自动分解企业AI应用开发任务;8月初,AI独角兽Inflection在开发私人AI助理等(另,10月底GPT-4重磅更新,推出了整合了画图、插件、代码等所有工具的All Tools功能。)

影响:研发侧,由于AI Agent需要主动感知感知环境信息,多模态大模型成为新的行业热点之一,同时Agent能自主调用工具,其改变了以往的软件研发方式和生态应用方式;应用侧,为企业和个人提供更加个性化、可定制的AI伙伴。

对标产品:联汇科技OmBot欧姆智能体、实在智能TARS-RPA-Agent等。

报告完整版 已分享到『报告智库』知识星球,本社群每年更新优质报告30000+,营销方案每周更新,内幕资讯及各行业精品资料下载,👉 点击这里 即可加入!