哈喽大家好我是站长,美区火箭apple ID 土耳其apple ID 其他apple ID 账号资源,可加微信: 咨询 公众号:Ai
由硅谷创业公司OpenAI推出的ChatGPT自美国时间12月2日上线以来,用户量已超过百万,引发热议。它能完成包括编写代码、修复bug(代码修正)、翻译文学、撰写小说、撰写商业文案、创建菜谱、做作业、评测作业等一系列常见的文本输出任务,并且在与用户对话时,能记住对话上下文,并做出非常逼真的回应。
尽管业内人士认为ChatGPT还存在数据训练集不够新、不够全等问题,但人类打造的人工智能的终点又将在哪里?人类与会思考的机器之间的关系又将如何发展?这些都是我们无法停止思考的问题。
撰稿人:孙瑞辰
评论 | 张政
编辑:陈晓雪
电影《沙丘》宣传海报(图片来源:IMBD.com)
去年年底上映的电影《沙丘》是一部以公元10191年(8169年前)为背景的科幻故事。在观影过程中,我心中一直萦绕着一个疑问:这个故事中人们的生活似乎比现在更加原始,故事中也没有太多人工智能(AI)的痕迹。后来我读了《沙丘》的原著,才知道这是作者刻意为之的设定:在公元10191年前的某个时间点,曾经发生过一场战争。在这场战争中,人类的对手是人类自己制造出来的具有思考能力的机器人,故事中称之为思考机器。在残酷的战争末期,人类拼尽全力才打败了这些具有思考能力的机器人。之后,人类决定永远禁止这些机器人的存在。于是,公元10191年的原始沙丘世界诞生了。
上周五,硅谷创业公司 OpenAI 推出了一款全新的人工智能对话模型 ChatGPT。包括我在内的许多人在过去一周内体验了这款全新的对话机器人。在体验了这款对话机器人之后——你们可能已经猜到了——《沙丘》的世界出现在了我的脑海中。
过去的十年仿佛是人工智能技术领域的“寒武纪大爆发”,大量新术语产生并在短时间内迅速流行起来。这些新术语及其缩写很多都没有统一的中文翻译,业内人士一般直接使用英文缩写进行交流,这给想要全面了解这些技术的外行人造成了认知障碍。
要想理解对话机器人ChatGPT,需要回过头去了解此前的InstructGPT、GPT-3、GPT-2、GPT、Transformer,以及自然语言处理领域常用的RNN模型。
1. ChatGPT 的过去
2017 年,谷歌大脑团队在机器学习和人工智能领域的顶级学术会议神经信息处理系统会议(NeurIPS)上发表了题为《Attention is all you need》的论文 [1]。论文中作者首次提出了一种基于自注意力机制的 Transformer 模型,并首次将其用于理解人类语言,即自然语言处理。
在本文发表之前,自然语言处理领域的主流模型是循环神经网络(RNN)。循环神经网络模型的优点是能够更好地处理具有一定顺序的数据,比如语言,但也正因为如此,这种模型在处理较长的序列,比如长篇文章、书籍时,存在模型不稳定或过早停止有效训练的问题(这是由于模型训练过程中的梯度消失或梯度爆炸现象造成的,这里不再详述),模型训练时间过长(因为数据必须按顺序处理,无法同时并行训练)。
原始 Transformer 模型的架构(来源:参考文献 [1])
2017年提出的Transformer模型,可以并行进行数据计算和模型训练,训练时间更短,训练出来的模型可以用语法来解释,也就是模型是可解释的。
这个初始的 Transformer 模型总共有 6500 万个可调参数。Google Brain 团队使用了多种公开的语言数据集来训练这个初始的 Transformer 模型。这些数据集包括 2014 年英德机器翻译研讨会 (WMT) 数据集(有 450 万个英德对应句组)、2014 年英法机器翻译研讨会数据集(3600 万个英法对应句组),以及宾夕法尼亚大学 Treebank 语言数据集中的一些句组(来自华尔街日报的 4 万句和来自库中的另外 1700 万句)。此外,Google Brain 团队在文章中提供了模型架构,任何人都可以使用它来构建具有类似架构的模型,并用自己的数据进行训练。
这个初始的Transformer模型经过训练后,在翻译准确率、英文成分句法分析等各项评分中均位居业界第一,成为当时最先进的大型语言模型(LLM)。
大型语言模型(LLM)重大事件
Transformer 模型自诞生以来,就深刻影响了随后几年人工智能领域的发展轨迹。短短几年间,这一模型的影响力已蔓延至人工智能的各个领域 —— 从各类自然语言模型到预测蛋白质结构的 AlphaFold2 模型,无不使用它。
2. 持续迭代:寻找语言模型的极限
在众多跟踪和研究Transformer模型的团队中,OpenAI是少数一直专注于寻找其极限的团队之一。
2015年12月,OpenAI在美国旧金山成立,特斯拉创始人马斯克也是公司创始人之一,并在公司成立初期提供资金支持(他后来退出了公司,但保留了财务地位,没有撤资)。OpenAI早期是一个非盈利组织,使命是开发对人类社会有益、友好的人工智能技术。2019年,OpenAI改变性质,宣布将成为盈利组织。这一转变与Transformer模型不无关系。
2018 年,在 Transformer 模型诞生不到一年的时间里,OpenAI 发表了题为《通过生成式预训练提升语言理解》(Generative 一般译为“生成性的”,但我觉得译为“创造性的”)[2] 的论文,并推出了拥有 1.17 亿个参数的 GPT-1(Generative Pre-training Transformers)模型。这是一个用大量数据训练出来的基于 Transformer 的模型。他们利用经典的大规模图书文本数据集(BookCorpus)进行模型预训练,该数据集收录了 7000 多本未出版的图书,涵盖了冒险、奇幻、言情等类别。在预训练之后,作者们又利用不同的特定数据集针对四种不同的语言场景对模型进行进一步的训练(也称微调)。最终训练出来的模型在问答、文本相似度评估、语义蕴涵判断、文本分类四种语言场景下都取得了比基础 Transformer 模型更出色的效果,成为新的行业领袖。
2019 年,该公司公布了一个拥有 15 亿个参数的模型:GPT-2。模型架构与 GPT-1 相同,主要区别在于 GPT-2 规模大了 10 倍。同时,他们发表了一篇介绍这一模型的论文《语言模型是无监督的多任务学习者》[3]。在这项工作中,他们使用了自己收集的一个主要由网页文本信息组成的新数据集。不出所料,GPT-2 模型创下了大型语言模型在多语言场景中的得分新纪录。在论文中,他们提供了 GPT-2 模型回答新问题(模型训练数据中未出现的问题及其答案)的结果。
GPT-2 模型回答新问题的结果(图片来源 [3])
2020 年,这家初创团队再次战胜了自己,发表了论文《语言模型是少样本学习者》[4],并推出了最新的 GPT-3 模型,该模型拥有 1750 亿个参数。GPT-3 模型架构与 GPT-2 基本相同,只是规模大了两个数量级。GPT-3 的训练集也比之前两个 GPT 模型大得多:一个带有基本过滤功能的完整网络爬虫数据集(4290 亿个 token)、维基百科文章(30 亿个 token)和两个不同的书籍数据集(总共 670 亿个 token)。
由于参数数量巨大、训练所需数据集规模庞大,保守估计训练一个 GPT-3 模型的成本在 500 万到 2000 万美元之间。训练所用的 GPU 越多,成本越高,时间越短;反之亦然。可以说,这种量级的大型语言模型,已经不是一般学者和个人可以承受的研究项目。面对如此庞大的 GPT-3 模型,用户只需提供小样本提示,或者不提供任何提示直接提问,就能得到符合要求的高质量答案。小样本提示是指用户在提问时,先给模型提供几个例子,然后再提出自己的语言任务(翻译、文本创作、回答问题等)。
GPT-3 可以根据用户给出的提示更好地回答问题(类似于示例)(图片来源:[4])
GPT-3模型发布时,并未提供丰富的用户交互接口,且需要用户在申请获批后才提交申请并注册,因此直接体验过GPT-3模型的人并不多。从体验过的人在网上分享的体验来看,GPT-3可以根据简单的提示自动生成完整、连贯的长篇文章,让人几乎无法相信这是机器的作品。GPT-3还能编写程序代码、制作菜谱等几乎所有的文本创作任务。在前期测试之后,OpenAI将GPT-3模型商业化:付费用户可以通过应用程序编程接口(API)连接到GPT-3,并使用该模型完成所需的语言任务。2020年9月,微软获得了GPT-3模型的独家授权,这意味着微软对GPT-3的源代码拥有独家访问权。该独家授权并不影响付费用户通过API继续使用GPT-3模型。
2022年3月,OpenAI又发表了一篇论文《训练语言模型在人类反馈下遵循指令》,并推出了他们的InstructGPT模型,该模型在GPT-3模型的基础上进行了进一步微调。InstructGPT的模型训练融入了人类的评估和反馈数据,而不仅仅是预先准备好的数据集。
GPT-3 公测期间,用户提供了大量对话和提示数据,OpenAI 内部的数据标注团队也生成了一批人工标注的数据集。这些标注数据可以帮助模型在直接从数据中学习的同时,学习到人类在这些数据上的标签(比如有些句子和短语很糟糕,应该尽量少用)。
OpenAI 首先利用这些数据通过监督学习对 GPT-3 进行微调。
第二步,他们收集了微调后的模型生成的答案样本。一般来说,对于每一个提示,模型可以给出无数个答案,但用户一般只想看到一个答案(这也符合人的沟通习惯)。模型需要对这些答案进行排序,选出最优的那个。因此,数据标注团队在这一步对所有可能的答案进行人工评分和排序,选出最符合人的思维和沟通习惯的答案。这些人工评分的结果可以进一步建立奖励模型——奖励模型可以自动将奖励反馈给语言模型,从而激励语言模型给出好的答案、抑制不好的答案,帮助模型自动找到最佳答案。
第三步,团队利用奖励模型和更多标记数据继续优化微调后的语言模型并进行迭代,最终的模型被称为InstructGPT。
3. ChatGPT 的诞生
我们今天的主角是ChatGPT和它的前身,因此不能避免以OpenAI为主线讲述这个故事。从GPT-1到InstructGPT,如果只关注OpenAI,难免会忽略同期其他人工智能公司和团队其实也在做与OpenAI相同的尝试。在GPT-3推出后的两年间,涌现出不少类似的大规模语言模型,但不得不说,最著名的模型还是GPT-3。
GPT-3 的一些竞争对手(图片来源:gpt3demo.com)
时间线回到今天,在今年的神经信息处理系统大会上,OpenAI 在社交网络上向全世界公布了他们最新的大规模语言预训练模型:ChatGPT。
与 InstructGPT 模型类似,ChatGPT 是 OpenAI 在 GPT-3 模型(又称 GPT-3.5)上进行微调后开发的对话机器人。根据 OpenAI 官网介绍,ChatGPT 模型与 InstructGPT 模型是姊妹模型。由于最大的 InstructGPT 模型的参数数量为 1750 亿(与 GPT-3 模型相同),因此有理由相信 ChatGPT 的参数数量也在这个数量级。不过根据文献,在对话任务中表现最好的 InstructGPT 模型的参数数量为 15 亿,因此 ChatGPT 的参数数量可能也相当 [5]。
ChatGPT 自美国时间 12 月 2 日上线以来,用户数量已超过百万。用户在社交媒体上发布的对话示例显示,ChatGPT 模型与 GPT-3 类似,可以完成包括编写代码、修复 Bug(代码修正)、翻译文学作品、撰写小说、撰写商业文案、创建食谱、做作业、评估作业等一系列常见的文本输出任务。ChatGPT 比 GPT-3 更胜一筹的一点是,前者回答时更像是在和你对话,而后者更擅长制作长篇文章,缺乏俚语表达。有人用 ChatGPT 与客服交谈,拿回了多付的钱(这或许意味着 ChatGPT 在某种意义上通过了图灵测试)。或许,ChatGPT 可以成为社交恐惧症患者的好伙伴。
4. 问题警告
OpenAI研发团队在推出ChatGPT时就警告用户该模型存在一些问题,经过全球网友的反复试验,大家也证实了这些问题的存在。
首先,ChatGPT 背后的大型语言模型的训练集基于 2021 年底的数据,因此无法对过去一年发生的任何事件给出准确答案。其次,当用户想要使用 ChatGPT 获取准确信息(例如编写代码或查找食谱)时,ChatGPT 答案的准确性不稳定,用户需要能够识别答案的质量和准确性。由于准确性问题,代码交换网站 StackOverflow 已禁止用户在其网站上引用 ChatGPT 生成的代码。
对此,亚马逊AWS上海人工智能研究院院长张峥评价称:ChatGPT模型的训练方法存在一个致命的问题,训练出来的模型在回答问题时,对各种可能答案的评分机制采用的是排名,也就是说第二步是粗略的评分,这就导致模型的随机错误会混杂其中(比如句子A(排名较高)比句子B(排名较低)好,并不代表句子A不会犯常识性或事实性错误)。问答不仅仅是因为场景开放,更重要的是每一步都可以灰度化或者合理化,需要细分。这个问题并不是无解,这里还有很多基础工作要做。
最后,提问者对问题的描述也会影响ChatGPT回答的准确性。这个问题可能会带来意想不到的效果。今年早些时候,OpenAI推出了其最新的AI绘画系统DALL·E 2(同期还有不少同类产品,比如Midjourney等)。用户只需要提供语言描述,DALL·E 2就能根据描述生成一幅画作。毫不夸张地说,这些画作的质量和风格堪比专业画家创作的画作。
DALL·E 2 生成的现代绘画(图片来源:openai.com)
于是,在艺术界为此震惊的同时,提示工程业务悄然兴起:好的提示可以引导AI模型生成符合要求、更加赏心悦目的作品;而糟糕的提示往往导致作品在学生练习的水平上不伦不类(甚至更差)。因此,如何编写出好的提示,并与AI模型进行高质量的对话,成为了新的创业热点。美国旧金山的初创公司PromptBase推出了一项收费为每条提示1.99美元的服务,主要针对DALL·E 2和GPT-3等内容创作模型。或许,他们很快会将ChatGPT加入到业务范围中。
根据前面提到的小样本学习和引入人工反馈的原理,我们已经知道,如果先给 ChatGPT 模型提供几个例子,再提出一个语言任务,或者通过不断给予反馈来引导 ChatGPT,ChatGPT 的答案会更符合我们的要求。所以写好提示可以让 ChatGPT 给你更多惊喜。
5、人工智能进化的终点在哪里?
从 2017 年的 Transformer 到如今的 ChatGPT,大型语言模型经历了这么多次迭代,每一代的表现都比上一代更好。未来,OpenAI 还将继续为我们带来 GPT-4、GPT-5,甚至 GPT-100。而我们与 ChatGPT 的那些热门、奇葩、脑洞大开的聊天记录,都将成为下一代模型的训练数据。
OpenAI 于 2016 年成立时,初衷就是开发造福人类的人工智能技术。六年来,没有任何迹象表明他们背叛了初衷——相反,ChatGPT 和其背后的大语言模型看上去就像是面向未来的先进生产力。我们有理由相信,大语言模型等人工智能技术能够帮助我们更好地完成学业和工作,过上更好的生活;我们也有理由相信,我们应该继续支持、发展和推动人工智能,让它造福大众。然而,我们再也不能忽视这样一个事实:人工智能技术的进化和迭代速度远远高于人类和生物的进化速度。
在意识到人工智能的巨大潜力时,OpenAI联合创始人马斯克曾谈到创办OpenAI的初衷:“我们能做些什么来确保人工智能带来的未来是友好的?在试图开发友好的人工智能技术的过程中,总会存在一个风险,那就是我们可能会创造出令我们担忧的东西。不过,最好的屏障或许是让更多的人尽可能多地接触和拥有人工智能技术。如果每个人都能使用人工智能技术,就不会出现因为少数人独自拥有过于强大的人工智能技术而导致危险后果的可能性。”
但马斯克没有谈及的是,即便每个人都有机会和能力使用人工智能技术,但如果人工智能技术本身发展到人类无法掌控的地步,我们又该如何建立自己的堡垒?又该如何避免《沙丘》故事中暗示的人类与思考机器的世界大战?ChatGPT的存在还远没有达到人们需要担心的地步,但人工智能进化的终点又将在哪里呢?
在创造人工智能的过程中,人类很难停止提出问题——快速发展的人工智能技术是否有一天会迫使我们选择一个如沙丘般原始的未来?
ChatGPT 也不知道。
参考:
1.
2.
3.
4.
5.
板块编辑器 | 小毛
哈喽大家好我是站长,美区火箭apple ID 土耳其apple ID 其他apple ID 账号资源,可加微信: 咨询 可扫码下方关注公众号获取账号教程资源