opebet英超

当前位置:首页  〉 opebet英超学术  〉 业界声音

陟爽 鹿艺 冯璟艳:专利分析视角下的ChatGPT创新路径及对中国大模型技术发展的启示

发布时间:2023-05-04 发布来源:opebet英超


摘要

Open AI公司推出的ChatGPT以最快速度(5天)突破百万用户,并不断更新迭代,2023年3月推出最新版本Chat GPT4.0,产生现象级效应。本文基于专利视角分析ChatGPT相关技术创新路径,阐述主要技术创新点,详细分析国、内外主要申请人的专利布局情况,探讨专利分析角度下的GPT技术局限性,从而期望对国内大模型技术发展有所启示。

01

Open AI与ChatGPT


OpenAI成立于2015年,是由美国著名创业孵化器Y Combinator的总裁Sam Altman和特斯拉的CEO马斯克(Elon Musk)发起的让全人类受益的非盈利组织。OpenAI承诺开源所有技术,鼓励研究人员公开发表工作成果,将专利(如果有的话)与全世界共享[1],避免使用:θ死嗷蚬燃腥Φ腁I或AGI(通用人工智能)[2]。2018年,因公司经营理念问题,马斯克与OpenAI分道扬镳。在研发AI模型的过程中,OpenAI面临越来越大的经济压力,最后不得不在2019年转变为盈利性公司,之后获得了微软10亿美元的投资。2022年1月,路透社援引的Semafor报告称,微软正考虑投资100亿美金给OpenAI(总估值290亿美金)[3]。


ChatGPT是OpenAI于2022年11月推出的人工智能聊天机器人程序,该程序是在GPT-3.5(一种自然语言预训练大模型)基础内核上使用监督学习和强化学习进行训练所得到的模型。在监督学习过程中,ChatGPT收集了全新的人类对话语料,并将其与GPT-3.5的监督学习语料合并。在强化学习过程中,ChatGPT首先训练了一个得分模型来对模型输出进行排序,然后用该得分模型来对生成模型输出进行反。⒂呕蒙赡P。最终由强化学习得到的模型即为ChatGPT。ChatGPT以文字方式互动,可以实现与人类对话交互,还可以实现文本生成、自动问答、自动摘要等在内的多种任务。


ChatGPT的成功来源于更早期发布的GPT-3模型以及对RLHF的优化。GPT是Generative Pre-trained Transformer(生成型预训练变换模型)的缩写。它是基于Transformer架构(2017年由谷歌提出),GPT的主要优势在于它可以通过预训练大量语料数据来获得对语言任务的预测能力,而不需要大量的人工标注数据。它具有良好的语言生成能力,可以生成文本、回答问题、对话等多项语言任务。RLHF(Reinforcement Learning from Human Feedback人类反馈强化学习)[4][5]是一项涉及多个模型和不同训练阶段的复杂概念,包括以下三个步骤:预训练一个语言模型(LM);聚合问答数据并训练一个奖励模型(Reward Model,RM);用强化学习(RL)方式微调LM。


2023年3月15日,多模态预训练大模型GPT-4[6]正式发布,能够处理文本、图像两种模态以及25000个单词的超长文本输入,并通过文本输出。GPT-4能够很好的支持图像输入,能够理解图片中的幽默之处,并且具备理解长上下文的能力,在各种专业和学术基准测试上表现出人类水平,包括通过模拟律师考试,分数约为全体考生的前10%。相对于以前的GPT-3.5模型,GPT-4明显减少了“幻觉”,在团队内部对抗性设计的事实性评估中,GPT-4的得分比GPT-3.5高19个百分点。但是,考虑到GPT-4这样的大模型的竞争格局和安全影响,OpenAI并未公开有关架构(包括模型大。、硬件、训练计算、数据集构建、训练方法或类似内容的更多详细信息。目前,ChatGPTPlus版本已经使用GPT-4模型。


智谱AI团队研究发布的《ChatGPT团队背景研究报告》[7]称,2023年2月,ChatGPT团队规模不足百人(共87人)。分析发现,其显著特征是“年纪很轻”、“背景豪华”、“聚焦技术”、“积累深厚”、“崇尚创业”和“华人抢眼”。该团队平均年龄为32岁,“90后”是主力军。他们引领的这一波大型语言模型技术风潮,充分说明了那些经常被认为研发经验不足的年轻人,完全有可能在前沿科技领域取得重大突破。团队成员绝大多数拥有名校学历,且具有全球知名企业工作经历。华人学者欧阳龙参与了与ChatGPT相关的7大技术项目中的4大项目的研发,他是InstructGPT论文的第一作者,是RLHF论文的第二作者,可见他是这两个关键技术项目的核心人员。


02

专利视角下的ChatGPT相关技术创新路径



1)OpenAI专利分析


在世界著名的DWPI摘要数据库中,以申请人(OpenAI)、发明人(InstructGPT、GPT-3等技术对应论文作者)、结合“NLP”、“语言”、“训练”等关键词进行检索,发现OpenAI公司作为权利人的专利数量为零,同时采用多种商业数据库进行搜寻,均未发现OpenAI名下任何专利。


分析其原因,OpenAI在成立之初作为非盈利组织,期望开源所有技术,专利制度作为公开换保护的一种方式,申请专利对于非盈利组织不是必须的,而OpenAI转变为盈利性公司后,考虑到ChatGPT、GPT-3、GPT-4属于黑盒模型,且模型的训练花费庞大,开发和部署都很复杂,对于其他公司或opebet英超院所而言很难复现,不通过专利也能实现技术保护,通过商用API(Application Programming Interface,应用程序编程接口)等方式即可获利,另一方面,对于训练语料获取、模型算法而言,可能会涉及专利不授权客体问题,不能进行专利保护,而即使不涉及客体问题的,由于训练等步骤的不可见性,在专利授权后也很难进行维权,因此OpenAI公司有可能通过商业秘密进行技术保护。


根据OpenAI官网公开的ChatGPT技术原理图分析得知,ChatGPT的训练过程分为以下三个阶段[8]:


1

图1 ChatGPT技术原理图

第一阶段:训练监督策略模型。首先会在数据集中随机抽取问题,由标注人员给出高质量答案,然后用人工标注好的数据来微调GPT-3.5模型,获得SFT(Supervised Fine-Tuning)模型。


第二阶段:训练奖励模型(Reward Model,RM)。在数据集中随机抽取问题,使用第一阶段生成的模型生成多个不同的回答。标注人员对输出进行打分排序,使用排序结果数据来训练奖励模型。


第三阶段:采用强化学习中的PPO(Proximal Policy Optimization,近端策略优化)[9]来优化策略。首先使用第一阶段中的初始权重构造一个初始的PPO模型。针对在数据集中采样的新的问题,使用PPO模型生成回答,并用第二阶段训练好的RM模型给出回报分数。PPO策略可以会通过回报分数计算出策略梯度,并更新PPO模型参数。


2)国外主要申请人专利分析


随着2017年谷歌Transformer模型的提出,预训练语言模型开始显著发展,因此本文关于预训练语言模型技术的检索主要针对2017年之后申请的专利。在DWPI摘要数据库中,针对关键词“language model”、“train”、“fine-tune”进行简单检索,共有2600多篇专利文献。检索结果仅针对专利摘要进行检索,且为专利同族合并后的结果。


2


图2 预训练语言模型技术申请人来源国家

在预训练语言模型领域,中国企业发展迅速。百度、阿里、腾讯、华为都是主要申请人,且均在海外展开布局,国外申请人主要集中在微软、谷歌和三星。但是还应注意到,国外一些公司针对神经网络、编解码器结构改进的专利技术方案,在摘要中并没有提到语言模型,但是神经网络等是可以应用到语言模型中的,因此实际上关于预训练语言模型技术的申请量会更多。

为了更全面地了解国外申请人在中国的布局情况,针对全文数据再次检索,并统计合并同族的结果。

3


图3 国外申请人在中国的申请量

谷歌多年来陆续提出Transformer、BERT、T5等模型,目前针对Transformer申请相关美国专利(US2018341860A1,专利名“基于注意的序列转换神经网络”),并在中美欧日韩等多个国家布局。BERT、T5虽未申请专利,但是我们经检索发现,其专利布局涵盖了基于上述模型衍生的下游任务,在多语言翻译、文本语音转换、完型填空、稀疏表示、情感分类等领域有所技术改进。2021年,谷歌提出了SwitchTransformer[10]模型,采用了稀疏激活技术,拥有1.6万亿参数,相同资源情况下,训练速度比由谷歌开发的最大语言模型T5-XXL快了4倍,谷歌就该模型申请相关PCT国际专利申请WO2022150649A1(NEURALNETWORKSWITHSWITCHLAYERS),目前并未进入任何国家阶段。谷歌也在模型训练、微调等方面开展专利布局。


4


图4 谷歌部分专利


基于BERT模型,微软于2020年提出了DeBerta模型,并提交申请相关美国专利“具有解开注意力和多步解码的高效变压器语言模型”(US2021334475A1),利用多步解码来更好地重建掩蔽标记并改善预训练收敛来促进预训练的自然语言模型的自训练。2021年提出的LORA模型主要涉及神经网络模型的低秩自适应,冻结了预训练的模型权重(相关美国专利US2022383126A1)。此外,微软也在下游任务进行专利布局,例如其申请的PCT国际专利申请WO2022221045A1涉及多任务模型,包括例如共享编码器、多个任务特定编码器和用于多个任务的多个任务特定线性层等。


在Patentics的英文全文库中以“DeepMind”(DeepMind为Google旗下前沿人工智能企业)作为申请人,language model作为关键词进行检索,检索结果为27篇。DeepMind侧重于对神经网络的改进。中国专利“针对使用对抗训练的表示学习的推理的大规模生成神经网络模型”(CN113795851A),训练可以是基于损失函数,该损失函数包括基于由鉴别器神经网络处理的输入对的样本部分和潜在部分的联合鉴别器损失项和仅仅基于输入对的样本部分或潜在部分中的一个部分的至少一个单一鉴别器损失项,该专利在中美等国均有布局,根据英文库中检索得到的专利查找其中文同族,可以确定DeepMind在中国申请使用渊慧科技有限公司名称。


5


图5 DeepMind部分专利布局情况


由图5可以看出,DeepMind在多模态方面也有所布局,涉及冻结语言模型的多模态少样本学习以及使用多模态输入选择操作。多模态的语言模型是一种能够同时处理不同类型的数据,如文本、图像、音频和视频的人工智能技术。多模态语言模型的目标是实现跨模态的理解、生成和交互,从而提高人机对话和信息检索的效果。谷歌近期申请了基于UI的多模态模型,例如美国专利US2023031702A1通用用户界面转换器(VUT),处理三种类型的数据:图像、结构(视图层次)和语言,并且执行多个不同的任务,诸如UI对象检测、自然语言处理、屏幕摘要、UI可敲击性预测。微软的PCT国际专利申请WO2022187063A1则公开了一种视觉与语言的跨模态加工方法,基于视觉语义特征集和文本特征集来训练目标模型,以确定输入文本和输入图像之间的关联信息。


03

国内相关技术发展情况


在Patentics的中文数据库中,以“预训练”、“大规模”、“语言模型”、“微调”、“零/少样本”、“知识图谱”等作为关键词进行简单检索,共检索出12292篇专利,我们可以看出国内预训练大模型技术自2018年后开始迅速发展,鉴于目前21年、22年申请的专利未全部公开,实际上该领域的专利申请数量可能更多。


6

图6 语言大模型技术中国专利申请量趋势

7

图7 人工智能大模型技术中国专利主要申请人[11]

8

图8 语言大模型技术中国申请人在美国的申请量


1)国内语言模型相关专利