哈喽大家好我是站长,美区火箭apple ID 土耳其apple ID 其他apple ID 账号资源,可加微信: 咨询 公众号:Ai
【聚焦ChatGPT】复旦大学邱希鹏教授解剖ChatGPT《大型语言模型的能力分析与应用》报告
2023年2月17日,高瓴人工智能学院在高瓴大厦举办首场学术报告会,邀请复旦大学邱希鹏教授作《大型语言模型能力分析与应用》主题报告。高瓴人工智能学院执行院长温继荣出席并致辞,报告会由高瓴人工智能学院终身副教授宋瑞华主持。报告现场火爆空前,到会师生超过500人,线下报告厅座无虚席,线上会议室观众人数也早早达到上限。
报告中,邱希鹏教授详细介绍了以ChatGPT为核心的大规模语言模型的相关知识和未来发展方向。得益于邱希鹏教授的个人魅力和ChatGPT的受欢迎程度,现场师生发言热烈,积极交流互动,碰撞出不少思想火花。
0. 引言丨ChatGPT的前世今生
自 2022 年底推出以来,ChapGPT 就展示了其惊人的对话能力。短短两个月内,ChatGPT 的月活跃用户已达 1 亿,成为历史上增长最快的消费者应用。这对学术界、工业界或其他相关应用而言是一个巨大的机遇和挑战。
事实上,ChatGPT 的成功并非偶然,在当前版本发布之前,OpenAI 已在大规模语言模型训练方面耕耘多年,ChatGPT 的发展路径可概括如下:
继 2017 年 Transformer 框架提出之后,OpenAI 在第二年提出了基于 Transformer 架构的预训练语言模型 GPT,并开始探索(大规模)预训练语言模型的道路。2020 年提出的 GPT-3 是首个参数量达到千亿的模型,可以称得上是真正意义上的“大规模”语言模型(Large Language Model,LLM)。2021 年,OpenAI 提出的 CodeX 模型将代码数据引入 GPT-3 的训练数据中,使模型能够从代码数据中学习到严谨的逻辑结构和问题分解能力,并为 GPT 引入了 Chain of Thought(CoT)能力。同年,GPT 的另一个发展方向是与搜索引擎结合,诞生了具备搜索能力的 WebGPT,可以进一步提高基于搜索交互数据进行语言生成的可靠性和准确性。 2022年,OpenAI再次提出InstructGPT,使得GPT能够理解更符合人类自然语言的指令,并根据指令做出正确的文本生成。同年,ChatGPT诞生,其强大的对话能力和高质量的答案刷新了人们对AI的认识,被认为是人工智能的里程碑式应用。
总体来说,ChatGPT LLM的优势主要来自于以下几个关键点:
1. 模型结构。GPT 系列模型全部基于 Transformer 结构。Transformer 的高并行性使得它很容易扩展到大规模模型(数百、数千亿个参数),从而能够从更大规模的数据中学习到更多的知识,大大提升它的知识存储能力。
2.训练数据。由于代码是一种逻辑非常严谨的文本,而函数之间的调用关系本质上是将复杂的问题分解成多个小问题组合起来解决,因此引入代码数据来训练模型可以有效提高模型的思维链能力。
3.训练数据的形式。Instruct learning构建了更加符合自然语言的训练数据,在提升GPT语义建模能力的同时,也提升了模型在多种未知下游任务中的泛化能力。
此外,大规模语言模型库具有很强的可扩展性,能够方便地与外界对接(比如将WebGPT与搜索引擎结合),不断接收外界的知识更新,进而实现反复的自我迭代,因此大规模语言模型也被视为实现通用人工智能(AGI)的希望。
接下来邱希鹏先生从大规模预训练语言模型带来的改变、ChatGPT的关键技术、训练方法、能力分析及其局限性等角度对大规模语言模型的相关知识进行了深入的介绍。
1. 大型语言模型带来的变化
01
模型性能
随着算力的不断提升,语言模型从最初基于概率预测的模型演进到基于 Transformer 架构的预训练语言模型,并逐渐走向大模型时代。在模型规模较小的时候,模型的性能与参数大致符合尺度规律,即模型的性能提升与参数的增长基本呈线性关系。然而当 GPT-3/ChatGPT 等千亿级规模的大型模型被提出后,人们发现可以打破尺度规律,实现模型能力的质的飞跃,这些能力也被称为大模型的“涌现能力”(如理解人类的指令等)。
下图是随着模型规模的增加,多个NLP任务的性能变化曲线。可以看出,早期的性能和模型规模大致呈线性关系。当模型规模达到一定程度时,任务性能有明显的“飙升”。因此,目前的研究通常以百亿/千亿级参数作为LLM的分水岭。
02
模型使用方式的转变
对于“传统”的预训练语言模型,研究人员主要用它们在下游任务上微调模型参数,使预训练模型适应相应领域的任务。大规模语言模型参数大,微调难度大,而预训练模型已经具备了较强的基础能力。因此,提示学习是一种更好的方式,可以刺激大规模模型在各种不同的下游任务上的表现。基于提示进行学习的能力是LLM的新兴能力之一。
03
自然语言处理的范式转变
上述LLM模型使得生成范式,即(M)LM ((Masked) Language Model)逐渐取代分类范式成为主流。从下图可以看出,近年来(M)LM模型有逐渐统一语言模型范式的趋势。
注:这里的(M)LM主要是指以自回归的方式从给定前缀生成下一个单词的大规模模型,通常由解码器实现。之所以将MLM(Masked Language Model)纳入这个概念,是因为MLM本质上也是一个预测(生成)单词的模型,但它只包含一个编码器结构。
同时,如上文所述,NLP 的任务训练方式也在逐步改变,从通过预训练+微调来调整语言模型参数,到根据下游任务修改自身的描述(比如添加指令),使得任务本身更加接近自然语言的形式,从而激发预训练模型的丰富潜力。
2. ChatGPT的三大关键技术
01
情境学习
对于一些LLM没见过的新任务,我们只需要设计一些任务的语言描述,并给出几个任务示例作为模型的输入,就可以让模型从给定的场景中学习到新任务并给出满意的答案。这种训练方式可以有效提高模型的少样本学习能力。下图是场景学习的一个例子。
可以看出,LLM仅通过用自然语言描述情绪分类任务输入和输出的两个例子,就能判断新输入数据的情绪极性。
02
思想链(CoT)
对于一些逻辑复杂的问题,直接询问大型语言模型可能会得到不准确的答案。但是,如果你以提示的形式在输入中提供一个合乎逻辑的解决问题步骤的示例(即将一个复杂问题分解为多个子问题,然后从中提取答案),然后再提出问题,大型模型将能够给出正确的解决方案。
如图所示,直接让模型计算数学问题会产生错误的结果,而引入解决问题的过程可以激发模型的推理能力,从而得到正确的结果。
有时候我们甚至不需要举例子,只需在输入后面放上一句“我们来一步步思考”,模型的输出就是经过一步步“思考”之后每个子问题的结果。然后我们把输出放进输入中构建第二个输入数据,大模型就能进一步综合上一步的输出得到复杂问题的正确解决方案。(好神奇!)
目前研究发现,由于数据集中代码数据量巨大,且代码逻辑性较强,通过将题中的文本内容替换为编程语言,可以进一步提升模型的CoT(程序辅助推理)能力。
由于CoT技术可以激发大规模语言模型解决复杂问题的能力,因此也被认为是打破比例定律的关键。
03
自然教学学习
(从自然指令中学习)
这种训练方式在输入前增加了一条“指令”,可以用自然语言描述任务内容,让大模型根据输入输出该任务的预期答案。这种方法进一步将下游任务与自然语言形式对齐,可以显著提高模型对未知任务的泛化能力。
3. 模型训练方法
在训练方法上,ChatGPT 沿用了 InstructGPT 的训练方法,即从人类反馈中获取强化学习(RLHF)。唯一的不同在于,ChatGPT 将训练数据改为对话形式(由于 ChatGPT 没有公开的论文,此观点来自作者的博客,链接如下)。因此,我们在这里介绍一下 InstructGPT 如何使用 RLHF 来训练模型。由于文本生成的质量在很多情况下非常主观,取决于人类的偏好和价值观。因此,现有的文本生成评价指标很难衡量人们对文本生成质量的感知。RLHF 的目的是通过人类对生成文本(即人工标注的数据)的反馈来训练模型,使模型生成的文本更符合人类的期望。RLHF 的训练方法如下:
步骤 1:首先我们从包含真实人类意图的大量指令中采样指令作为输入数据,并聘请专职标注员对这些指令的输出进行标注。这部分是一个相对高质量的小数据集。数据收集完成后,我们使用 GPT-3.5 对数据集进行有监督的微调。
第二步:在上一步得到微调后的 GPT-3.5 之后,再次从指令集中采样指令作为输入数据,从 GPT-3.5 中得到多个不同的结果,并聘请专职标注员标注这些输出的顺序,比如输出 D > 输出 C > 输出 A > 输出 B。由于只需要标注模型不同输出的好坏,因此这部分标注的成本会低很多,因此数据规模也会更大。得到这些人工标注的输出序列之后,就可以训练一个评分(奖励)模型了。
第三步,在得到评分模型之后,从指令集中采样一些新的指令作为输入数据,并结合评分模型,使用PPO(一种强化学习算法)训练出最终的ChatGPT。
4. ChatGPT 的能力发展
目前LLM模式的能力主要可以从以下四个维度来衡量:
1. 了解已知内容:LLM 了解其所了解的内容。
2. 了解未知数:LLM 知道自己不知道什么。
3. 未知的已知数:LLM 不知道它知道什么。
4. 不知道未知数:LLM 不知道它不知道什么。
从上图中从GPT-3到ChatGPT的能力发展过程,我们可以看到ChatGPT通过更大规模的预训练获得了更多的知识,也就是Knows的范围被拓展了。实际上,模型在应用时并不能完全解锁所有的知识储备。正如我们在CoT章节介绍的那样,当我们直接给模型一个复杂的数学问题时,它无法给出正确的答案。但是,当我们在提示中添加“我们来一步一步思考”时,模型可以给出一个解决思路,并提取出正确的答案。在这种情况下,我们认为模型本身就潜在地包含这些知识,只是由于提示不足而没有解锁这部分能力,这部分能力被称为unknow knowns,即Knows包括know knowns和unknow knowns。而ChatGPT则通过强大的思维链能力,解锁了一部分Unknow Knows,进一步扩大了know knowns的比例。因此,邱希鹏教授在报告中也提到,解锁unknow knowns的关键就是CoT技术。 有研究发现,ChatGPT 的思维链能力可能在一定程度上来自于对代码数据的预训练(比如上文提到的 Program-aided Reasoning),但这部分研究还有待进一步发展。同时,借助指令学习和人工反馈,ChatGPT 可以让它回答更符合人类的预期,也就是增强 Know knowns/Unknowns 的能力。比如当人们问“2026 年世界杯冠军会是哪个国家”时,ChatGPT 会老老实实的回答自己没有预测能力,不会胡言乱语(会降低人们的好感度)。通过以上三部分的增强,最终 Unknown Unknowns 部分也变得比较少。
此外,ChatGPT 还关注伦理问题,其采用与解决 Know Unknowns 类似的方式,采用人工标注和反馈,并拒绝回答一些包含伦理问题的请求。
5. ChatGPT 功能分析
首先分析一下 ChatGPT 的 know knowns 能力。前期的工作主要关注模型的准确率,针对现有模型能力评估工作局限于模型准确率的问题,HELM (Holistic Evaluation of Language Models) 提出要从多个维度关注模型能力,包括准确率、鲁棒性、公平性、偏差性、效率等。
现有的LLM基准测试集存在一系列局限性,包括适用范围有限、缺乏通用性等,导致基准测试集的难度逐渐落后于模型的迭代。为了解决这一问题,邱老师团队提出使用高考题(GAOKAO-Bench)作为LLM的评估方式。高考题作为评估方式具有以下优势:1)挑战性强,灵活性强;2)简单直观;3)数量大,多领域,质量高;4)稳定,有相应的解释,便于测试人员分析。
邱老师团队在 GAOKAO-Bench 上对 ChatGPT 进行了测试,取得了相当惊艳的成绩。(测试发现,ChatGPT 在客观题上的表现相当于 500 分左右的高考考生,在政治、历史、地理等学科的主观题上的表现也不错。)
当然,ChatGPT在解决高考问题上还存在一些不足,比如对语音信息(听力题)和图片信息(图题)理解不足。后期研究人员可以考虑在ChatGPT的上游使用一些多模态模型,将语音信息和图片信息转化为ChatGPT可以理解的文本信息,增强这部分能力。
6. ChatGPT 的局限性
相比于 ChatGPT 本身的能力,它的局限性相对较少且容易解决。图灵奖得主、人工智能三巨头之一 Yann LeCun 认为 ChatGPT 存在以下不足:
1)目前的形式有限。目前的ChatGPT仅限于文本方向,但如前所述,可以在上游使用一些多模态模型来初步解决这个问题。
2)不易控制。有很多报告通过各种方法解锁了模型的伦理和一些已知的未知限制,但这部分可以通过更多的手动注释和对齐来解决。
3)推理能力非常有限,即推理能力较差。如前所述,通过思维链的方法可以在一定程度上增强模型的推理能力。
4)与现实世界底层现实脱节,即无法与现实世界联系。这也是ChatGPT目前最大的问题之一。作为LLM模型,它无法与外界实时交互,也无法使用计算器、数据库、搜索引擎等外部工具,导致其知识体系相对落后。不过OpenAI的另一条路径WebGPT在一定程度上实现了与外界的连接。
综上所述,如果我们将LLM本身作为一个智能实体,并能与外界互动,这些模型的能力将得到极大的提升。然而,我们必须始终确保这些AI模型是可信的:有帮助、无害、诚实。
邱老师的精彩讲座激发了现场观众的极大热情,师生们踊跃提问,限于篇幅,仅摘录两段问答对话如下。
问答
问:通过与 ChatGPT 等拥有大量世界知识的 LLM 进行交互,是否有可能窃取一些隐私?是否存在一些隐私问题以及如何解决这些问题?
A:隐私问题肯定存在。GPT 等语言模型从数据端和模型端都受到了限制。数据端的主要方法是要求标注者将一些隐私数据标记为不适合训练。模型端的主要方法是限制模型回答涉及隐私话题的问题(类似伦理方向的限制)。但这两种方法都不能完全解决问题,未来对隐私问题的研究也将是一个开放的问题。
Q:ChatGPT 在训练时使用了强化学习技术,是否可以参考从 AlphaGo 到 AlphaZero 的技术演进,从向人类学习到增强机器相互竞争的能力?比如让一个 ChatGPT 提出一个问题,另一个 ChatGPT 回答,如果 ChatGPT 按照这种方式训练,并且超越了人类的表现,我们该如何处理?
A:这个想法很好,原则上也是可行的。ChatGPT的出现,让我们对AI的发展有了更好、更新的思路,提供了更多的研究机会。至于第二个问题,我们在ChatGPT的能力局限中也提到,如果它的性能真的超越了人类,那么它的模型一定是可信的。
来源:中国人民大学高岭人工智能学院
哈喽大家好我是站长,美区火箭apple ID 土耳其apple ID 其他apple ID 账号资源,可加微信: 咨询 可扫码下方关注公众号获取账号教程资源