哈喽大家好我是站长,美区火箭apple ID 土耳其apple ID 其他apple ID 账号资源,可加微信: 咨询 公众号:Ai
这段时间,关于大型语言模型的消息频频被报道,不少人也逐渐了解甚至开始应用相关的AI软件。那么,你知道GPT模型的原理吗?大型模型和传统AI有什么区别?其应用又能体现在哪些方面?一起来看看笔者的分析解读吧。
“如何充分发挥ChatGPT的潜力成为不少企业关注的焦点。然而,这种变化对员工来说,未必是一件好事。IBM计划用AI取代7800个工作岗位,游戏公司利用MidJourney减少原画师数量……这样的新闻屡见不鲜。了解并运用这项新技术,对职场人士来说越来越重要。”
1.GPT模型原理
理解原理是有效应用的第一步,ChatGPT是一款基于GPT模型的AI聊天产品,以下简称GPT。
从技术上来说,GPT是一个基于Transformer架构的大型语言模型(LLM),GPT这个名字其实是“Generative Pre-trained Transformer”的缩写,中文意思为“生成式预训练变压器”。
1.大模型和传统AI有什么区别?
传统的人工智能模型是针对特定目标进行训练的,因此只能解决特定问题。例如,AlphaGO 非常擅长下棋。
自然语言处理(NLP)试图更进一步,解决更普遍的用户问题。它可以分为两个关键步骤:自然语言理解(NLU)和自然语言生成(NLG)。
以SIRI为代表的AI助手将NLU层统一起来,用模型理解用户需求,然后将需求分配给具体的AI模型进行处理,实现NLG并反馈给用户。但这种模式存在着显著的不足,正如微软官方图例所示,和传统AI一样,用户每遇到一个新场景,就需要训练相应的模型,成本高昂且开发速度慢,NLG层亟待改变。
大型语言模型(如GPT)则采用了完全不同的策略来统一NLG层,秉承“大国创造奇迹”的理念,将海量知识整合成统一的模型,而不是针对每个具体任务单独训练模型,大大提升了AI解决多类型问题的能力。
2.ChatGPT如何实现NLG?
AI本质上是一个逆概率问题,GPT的自然语言生成其实就是一个基于概率的“词链”游戏。我们可以把GPT模型简化成一个拥有数千亿个参数的“函数”。当用户输入“提示”时,模型会按照以下步骤进行:
将用户的“提示词”转化为token(准确的说是一个“符号”,大致是“词汇”,下同)+token的位置。将上述信息“向量化”,作为大模型“函数”的输入参数,大模型根据处理后的参数做概率猜测,预测最适合回复用户的词汇,并将回复词汇(token)加入到输入参数中,重复上述步骤,直到概率最高的词汇为[END],从而实现完整答案。
这种方法使得GPT模型能够根据用户提示生成连贯、合理的响应,从而实现自然语言处理任务。
3. 上下文理解关键技术
GPT 不仅能理解用户当前的问题,还能根据前面的文本理解问题的上下文。这得益于 Transformer 架构中的“自注意力机制”。该机制使 GPT 能够捕获长文本中的依赖关系。
通俗地说,GPT 在进行文本链判断时,不仅会根据用户刚刚输入的“提示”进行判断,还会将前几轮对话中的“提示”和“回复”作为输入参数。但这个距离长度是有限制的。在 GPT-3.5 中,距离上限为 4096 个词(token);在 GPT-4 中,这个距离被大大扩展至 32000 个 token。
4. 大型模型为何如此神奇?
前面我们介绍了GPT的原理,那么它是如何实现这种神奇效果的呢?主要分为三步:
自监督学习:利用海量文本进行自学习,GPT 具备预测上下文概率的基本能力。监督学习:人类的参与有助于 GPT 理解人类的偏好和预期答案,本质上是微调。强化学习:根据用户反馈,不断优化和提高答案质量。
其中,自监督学习最为关键。因为大模型的魅力就在于它的“大”——大在两个方面:
训练数据量大:指训练大型模型的数据规模。以 GPT-3 为例,其训练数据来源是网络上各种精选资料和经典书籍,规模达 45TB,相当于读了一亿本书。模型参数量大:参数是神经网络中的一个术语,用于捕捉数据中的模式和特征。通常,号称拥有数百亿、数千亿个参数的大型模型,指的就是其参数量。
追求模型参数量的庞大,就是为了利用其神奇的“涌现能力”,实现所谓的“量变引发质变”。
例如,如果需要一个大型模型根据表情符号猜出电影名称,例如《海底总动员》,可以看到当模型参数达到千亿级别时,匹配准确率大大提升。由此可见,模型参数数量的提升对于提升模型性能有着重要的意义。
处理其他类型的任务时也可以看到类似的效果:
实验表明,只有当模型参数达到数千亿级时,大模型的优势才能凸显出来。除了GPT之外的其他大模型也有类似的表现。
为什么?
主流观点认为,完成一个任务,其实需要很多个子步骤,当模型规模不足时,大型语言模型无法理解或执行所有步骤,导致最终结果不正确;当参数达到数千亿时,其解决问题的全链路能力已经足够,人们将最终结果的正确性作为判断标准,由此产生了“涌现”的观点。
在“涌现”问题上,人类与黑猩猩的类比很有意思。人类的大脑容量比黑猩猩大三倍,而这种差异使得人类能够进行更复杂的思考、交流和创造。两者在结构上并无明显差异,这不也是“涌现”吗?
GPT-3.5 是一个 1000 亿级的模型,拥有 1750 亿个参数。相比于 GPT-3,GPT-3.5 主要对模型参数进行了微调,使其在回答问题时更加符合人类的习惯。据悉,GPT-4 的模型参数数量甚至是 GPT-3.5 的 5 倍,这也解释了 GPT-4 为何如此聪明(体验过的人应该都懂)。以下是 GPT 模型的演进历史:
2. GPT 的局限性
综上所述,GPT模型具有明显的、开创性的优势。典型的优势包括:①强大的语言理解能力;②极其广泛的知识储备;③学习能力和推理能力等。这些能力让人们感觉到人工智能真的有“大脑”,想象着用GPT来解决所有问题。
然而,如果我们真的想深入应用这项技术,就必须了解它的局限性,以便在实际应用中充分利用它的优点,克服它的弱点。以下是主要的局限性:
1. 逻辑不透明
GPT模型的答案本质上是概率性的,传统软件开发中,界面的输入输出参数是固定的,但当给出输入参数(即提示词)时,GPT的响应具有一定的随机性。
当人们把ChatGPT作为聊天工具使用时,这种不精确性可以成为用户谈论的话题;当涉及到商业软件应用时,在设计时需要特别注意减少不确定性。在大多数产品场景中,用户非常重视确定性。
2. 短期记忆力差
得益于自注意力机制,ChatGPT 具备了进行多轮对话的能力,但其记忆长度相当有限,GPT-3.5 模型仅支持回溯 4096 个回复引用的 token。
更糟糕的是,这 4096 个 token 中还包含 ChatGPT 之前回复用户的部分!这让它有限的记忆更加尴尬,就像一条电子金鱼。好在 GPT-4 将 context token 的上限扩大到了 32000 个,一定程度上缓解了这个问题。
3. 资源消耗高
ChatGPT的智能需要大量的算力,而运行大规模高端显卡又需要大量的电力。五年之内,依托半导体工艺的进一步升级和大模型的广泛应用,算力和电力的边际成本将逐渐变成固定成本,从而解决这一问题。
4. 响应缓慢
由于模型规模庞大,GPT 在回复时无法做到即时响应。从用户实际体验来看,ChatGPT 是逐字逐句回复的。企业在设计相关产品时,需要特别注意应用场景:
需要避免在高并发场景下使用GPT,服务对接口的并发调用上限要求很低,产品设计上避免用户急于求成的应用场景,确保用户“等得起”。5.对行业理解浅薄
诚然,ChatGPT 拥有丰富的来自互联网和经典书籍的知识。但真正的企业级专业知识往往来自于对特定领域的深入研究和实践,而这些见解无法仅从互联网上的知识中获得。因此,如果让 GPT 充当企业顾问,它只能帮助梳理战略框架,而很难给企业提供富有洞察力的战略建议。
6. 价值观错位在自监督学习阶段,92% 的 GPT 训练数据都是英文,在监督学习阶段,教授道德价值观的工程师主要来自英语世界,在强化学习阶段,还可能受到恶意用户输入错误价值观的影响。
因此GPT的“精神内核”是以西方价值观为基础的,这可能导致生成的文本难以符合我国的文化背景和价值观。
3. GPT多层应用指南
在深刻理解了GPT模型的原理和局限性之后,我们终于可以看到如何使用这项技术了。我会从最直观到最复杂,分为五个层次,逐层进行介绍。
第一层级:聊天能力
在这种用法中,GPT的答案就是交付给客户端的,这是GPT模型最简单、最直观的用法。
1) Shell 聊天机器人
利用OpenAI官方接口开发的壳聊天机器人产品。这样的产品为什么存在大家都知道了。不然用户为什么不直接用ChatGPT呢?这样的产品很难成为现象级应用,竞争也非常激烈。因为比较灰色,内容没有过滤,网站被封后换域名的故事还会不断上演。
2)场景化问答
这个模型约束了GPT的回答场景,通过限定提示词、嵌入大量特定领域知识以及微调技术,使得GPT只能基于某一类身份回答特定类型的问题,而对于其他类型的问题,机器人会告知用户它不理解相关内容。
这种用法可以有效约束用户的输入,减少很多不必要的风险,但训练一个优秀的场景化机器人也需要付出很大的努力。典型的应用有智能客服、智能心理咨询、法律咨询等。微软新推出的Bing就是这类应用的杰出代表,其俏皮又霸气的回复风格深受网友喜爱。
第二层次:语言能力
在这个层面上,我们充分发挥 ChatGPT 的语言天赋,辅助各种基于文本的处理任务。从这个层面开始,我们需要使用 one-shot 或 few-shot(在提示词中给 ChatGPT 一个或多个示例)来提升 ChatGPT 的性能。与用户的交互不再局限于聊天窗口。提示词模板是事先预制好的,用户只能输入有限的信息,对应提示词的空槽。
带槽提示的预制模板基本应用流程如下:
1)文字处理
此类应用程序主要有三种用途:
① 文章细化
你可以输入一个文章段落,要求提取段落的中心思想,但由于token数量限制,很难概括整篇文章,也可以要求生成一个简短的标题、副标题等。在提示词中预留【案例】的槽位,让用户输入一些参考案例,GPT就能学习到相应的风格,进行针对性的输出。
② 润色/重写
它可以用于文章的初步润色,以消除拼写错误、错误的标点符号等。
重写可以改变文章的风格,比如改成小红书的风格。
③ 文章扩展
在提纲的基础上,分段展开文章。由于token限制,如果一次性要求过长,输出的扩展很难做到前后呼应。ChatGPT本身不会产生新的知识,文章扩展很难写出深刻的见解,只能生成草草了事的文章。通过给出关键词和案例,要求生成规律性的短文案,是应用其文章扩展能力的有效方式。
2)翻译
GPT 模型在训练过程中学习了大量语言,具备跨语言能力。无论你用什么语言和它交流,只要理解了意图,分析问题的能力不分语言。因此,翻译对于 GPT 来说很容易。当然,它仅限于基本的翻译。不要指望它能“忠实、流畅、优雅”地翻译。
3)情绪分析
GPT能够理解文字背后的用户情绪,例如在客服模块引入GPT能力,可以基于语音和文字快速判断用户的情绪状态,提前识别潜在客户投诉,并在情绪爆发前进行有效安抚。
第三层:文本能力
在这类应用中,GPT 的能力已经超越了语言,通过广泛的学习,它可以处理所有与文本相关的任务。它甚至具有真正的学习能力,使用少样本技术来解决训练数据中不存在的问题。这一层的应用非常广泛,将产生大量极具创造力的产品。我这里只举一些典型的例子。
1)编写代码
ChatGPT 可以编写 SQL、Python、Java 等代码,并帮助查找代码 Bug。与写文章的原因类似,它不能被要求写太长的代码。
2)写提示词
让 GPT 创建提示是一种与其他 AI 协作的简单方法。例如,让 GPT 编写 midjourney 的提示已成为一种非常主流的做法。
3)数据分析
ChatGPT既可以直接进行数据分析,也可以配合EXCEL进行数据分析,将数据分析操作的成本降到极低,大大提高了数据分析的效率。
第四级:推理能力
在前面几层,我们看到了GPT的推理能力。用GPT的推理能力取代人工点击操作流程,无论对B端还是C端,都会带来产品设计的颠覆性变化。个人认为短期内B端的机会大于C端。互联网经过20年的发展,C端用户的主要需求已经基本得到满足,颠覆C端用户的操作路径会带来很大的学习成本。B端有很大的发展空间,可以分为三个阶段:
1)自动化工作流程级联
利用ChatGPT理解人类意图的能力,结合langChain技术,我们可以在公司内部整合各种任务的提示词和网页链接,员工无需再去寻找各种链接,需要进行相关操作时,会自动跳转到对应页面进行下一步操作。以ChatGPT为智能枢纽,实现B端各项操作的有机融合。下图是设计思路的一个例子。
2)人工智能辅助决策
在第一阶段的基础上,将相应页面的部分功能与GPT联动,这样员工在进行操作时,部分功能可以由AI来实现,可以成倍的提高效率。Microsoft Copilot就是这类产品的代表,比如你可以在Excel中描述想要进行的数据分析,数据分析就会自动完成,而不需要再去寻找相关公式。
3)全自动AI工作流程
这一阶段还处于演示阶段,呈现的是未来的愿景。如前所述,GPT 很难解决特定领域的细节问题,除非针对某一场景进行大量的微调和隐私数据部署。AutoGPT 和 AgentGPT 都属于这一类。
五楼:国产大样板
AI技术是科学,不是神学,大模型的原理也不是秘密。美国能做到,我国也能、也必须做到。只要训练数据质量达标,模型参数就超过1000亿,具备推理能力,如果超过8000亿,就能和GPT-4一较高下。有了海量中文语料,加上中文微调,我国一定能有符合自身文化背景和价值观的大模型。
但前面的道路漫长而艰辛,困难重重,例如:极高的训练成本、训练数据质量要求高、模型优化复杂、马太效应明显等等。因此预计未来5年,中国最多会出现3家知名的大型模型服务商。
大模型是AI时代的基础设施,大部分企业选择直接应用,获取商业价值。在这样的背景下,愿意投入建设自有大模型的企业更显可贵。在这里,我代表我个人,向那些勇于投入建设自有大模型的国内企业致敬。
四、结论
总体来说,ChatGPT是一个跨时代的产品,GPT技术在不同层面的应用体现出了一些共同的机会,我总结了三种在未来会有很大价值的能力。
1. 问题分解技术
考虑到 GPT 的回答数量最多为 32000 个 token,如何将问题有效分解成子问题并交给 GPT 处理至关重要。未来的工作模式可能是将问题分解成子问题,然后组装子问题的解决方案。在具体实施过程中,还需要判断子问题的难度,有些问题可以用一些小模型来处理,这样可以有效控制应用成本。
2. 三种调优方法
与 GPT 交互的方式主要有三种,可以在多个层面、从低到高成本实现特定效果:
① 优化提示语
通过探索,我们找到最优的提示词模板,预留特定的槽位给用户输入。单单提示词优化就能实现非常多的功能,很多基于GPT的产品都是基于特定提示词进行包装的,好的提示词需要包含角色、背景、GPT需要完成的任务、输出标准等。根据业界研究,好的提示词可以将GPT3.5结果的可用性从30%提高到80%以上。提示词优化无疑是三种方法中最重要的。
② 嵌入
这是一种构建自己的知识库的方法,利用Embedding技术进行向量化,让GPT能够基于自己的数据进行问答。
③ 微调
通过输入大量的问题和答案,真正教会 GPT 如何回答某一类问题的成本比前两者要高,好处是将提示词的短期记忆转化为隐私模型的长期记忆,从而释放出有价值的 token 来完善提示词的其他细节。
以上三种方法并不冲突,在工程实践中常常互相配合,尤其是前两种方法。
3. 私人数据积累
私有数据集的价值得到了进一步提升,各个行业可以在此基础上重新包装GPT,解决特定领域的问题。建议使用微软Azure提供的GPT接口,用私有数据构建大型语言模型产品。因为微软的B端GPT服务是独立部署的,不会用私有数据进行大型模型训练,可以有效保护私有数据,毕竟一旦私有数据被公开,其价值就会大打折扣。
有了以上这些能力,大语言模型就可以充分释放生产力,解决依赖计算机的重复劳动。我总结了下一个时代(3年内)的商业运作模式:
企业会根据三大能力衍生出三类角色:
① 问题解决者
这类角色非常清楚大型语言模型的能力极限,能够有效地将一个业务问题分解成GPT能够处理的子问题,并能根据问题结果将子问题组装起来。
② 及时工程师
该类角色非常擅长与GPT沟通,能够根据不同的题型提供有效的提示词模板,大大提高GPT的输出质量。
③ 知识拥有者
这类角色拥有大量的行业know-how,并能将知识结构化,传递给GPT,对应现在的领域专家。
在该模型驱动下,GPT将成为企业提高效率、解决大量重复性工作的重要帮手,并提供有价值的参考,但人的主观能动性仍然起着决定性的作用。
5. 最后的想法
以 GPT-4 为代表的当前 AI 技术水平已经带来了惊人的效率提升,更何况它还在以极快的速度进化。从技术革命的历史来看,当一项大幅提升效率的新技术出现时,往往会先让 B 端受益,然后才慢慢开始在 C 端释放巨大的价值。这是由企业对效率的天然敏感性决定的,而改变 C 端用户的习惯需要大量的学习成本和场景挖掘,滞后效应强。下面举三个例子:
回顾第一次工业革命,蒸汽机的出现首先导致大量纺织工人失业,随后各种C端场景被发掘,推动社会生产力大幅提升。ChatGPT可以更快产出口水,但C端用户的阅读需求并没有增加,对于营销公司来说,效率提高了,需要的编辑更少了。MidJourney可以快速产出游戏贴图,但这并不能导致更多人爱玩游戏,因此需要的画师更少了。
信息化企业的效率革命即将到来,依赖计算机的重复性工作将会消失,因为大模型最擅长的是学习固定的套路。正如我在文章开头所说,像IBM裁员7800人这样的案例只会越来越频繁地发生。
AI时代真正到来了,每个岗位都需要思考、学习如何让AI成为工作伙伴。
校对:Zang1、Xiaoyu、GPT-4
哈喽大家好我是站长,美区火箭apple ID 土耳其apple ID 其他apple ID 账号资源,可加微信: 咨询 可扫码下方关注公众号获取账号教程资源