XuLaLa

哈喽大家好我是站长，美区火箭apple ID 土耳其apple ID 其他apple ID 账号资源，可加微信：咨询公众号：Ai

这段时间，关于大型语言模型的消息频频被报道，不少人也逐渐了解甚至开始应用相关的AI软件。那么，你知道GPT模型的原理吗？大型模型和传统AI有什么区别？其应用又能体现在哪些方面？一起来看看笔者的分析解读吧。

“如何充分发挥ChatGPT的潜力成为不少企业关注的焦点。然而，这种变化对员工来说，未必是一件好事。IBM计划用AI取代7800个工作岗位，游戏公司利用MidJourney减少原画师数量……这样的新闻屡见不鲜。了解并运用这项新技术，对职场人士来说越来越重要。”

1.GPT模型原理

理解原理是有效应用的第一步，ChatGPT是一款基于GPT模型的AI聊天产品，以下简称GPT。

从技术上来说，GPT是一个基于Transformer架构的大型语言模型（LLM），GPT这个名字其实是“Generative Pre-trained Transformer”的缩写，中文意思为“生成式预训练变压器”。

1.大模型和传统AI有什么区别？

传统的人工智能模型是针对特定目标进行训练的，因此只能解决特定问题。例如，AlphaGO 非常擅长下棋。

自然语言处理（NLP）试图更进一步，解决更普遍的用户问题。它可以分为两个关键步骤：自然语言理解（NLU）和自然语言生成（NLG）。

以SIRI为代表的AI助手将NLU层统一起来，用模型理解用户需求，然后将需求分配给具体的AI模型进行处理，实现NLG并反馈给用户。但这种模式存在着显著的不足，正如微软官方图例所示，和传统AI一样，用户每遇到一个新场景，就需要训练相应的模型，成本高昂且开发速度慢，NLG层亟待改变。

大型语言模型（如GPT）则采用了完全不同的策略来统一NLG层，秉承“大国创造奇迹”的理念，将海量知识整合成统一的模型，而不是针对每个具体任务单独训练模型，大大提升了AI解决多类型问题的能力。

2.ChatGPT如何实现NLG？

AI本质上是一个逆概率问题，GPT的自然语言生成其实就是一个基于概率的“词链”游戏。我们可以把GPT模型简化成一个拥有数千亿个参数的“函数”。当用户输入“提示”时，模型会按照以下步骤进行：

将用户的“提示词”转化为token（准确的说是一个“符号”，大致是“词汇”，下同）+token的位置。将上述信息“向量化”，作为大模型“函数”的输入参数，大模型根据处理后的参数做概率猜测，预测最适合回复用户的词汇，并将回复词汇（token）加入到输入参数中，重复上述步骤，直到概率最高的词汇为[END]，从而实现完整答案。

这种方法使得GPT模型能够根据用户提示生成连贯、合理的响应，从而实现自然语言处理任务。

3. 上下文理解关键技术

GPT 不仅能理解用户当前的问题，还能根据前面的文本理解问题的上下文。这得益于 Transformer 架构中的“自注意力机制”。该机制使 GPT 能够捕获长文本中的依赖关系。

通俗地说，GPT 在进行文本链判断时，不仅会根据用户刚刚输入的“提示”进行判断，还会将前几轮对话中的“提示”和“回复”作为输入参数。但这个距离长度是有限制的。在 GPT-3.5 中，距离上限为 4096 个词（token）；在 GPT-4 中，这个距离被大大扩展至 32000 个 token。

4. 大型模型为何如此神奇？

前面我们介绍了GPT的原理，那么它是如何实现这种神奇效果的呢？主要分为三步：

自监督学习：利用海量文本进行自学习，GPT 具备预测上下文概率的基本能力。监督学习：人类的参与有助于 GPT 理解人类的偏好和预期答案，本质上是微调。强化学习：根据用户反馈，不断优化和提高答案质量。

其中，自监督学习最为关键。因为大模型的魅力就在于它的“大”——大在两个方面：

训练数据量大：指训练大型模型的数据规模。以 GPT-3 为例，其训练数据来源是网络上各种精选资料和经典书籍，规模达 45TB，相当于读了一亿本书。模型参数量大：参数是神经网络中的一个术语，用于捕捉数据中的模式和特征。通常，号称拥有数百亿、数千亿个参数的大型模型，指的就是其参数量。

追求模型参数量的庞大，就是为了利用其神奇的“涌现能力”，实现所谓的“量变引发质变”。

例如，如果需要一个大型模型根据表情符号猜出电影名称，例如《海底总动员》，可以看到当模型参数达到千亿级别时，匹配准确率大大提升。由此可见，模型参数数量的提升对于提升模型性能有着重要的意义。

处理其他类型的任务时也可以看到类似的效果：

实验表明，只有当模型参数达到数千亿级时，大模型的优势才能凸显出来。除了GPT之外的其他大模型也有类似的表现。

为什么？

主流观点认为，完成一个任务，其实需要很多个子步骤，当模型规模不足时，大型语言模型无法理解或执行所有步骤，导致最终结果不正确；当参数达到数千亿时，其解决问题的全链路能力已经足够，人们将最终结果的正确性作为判断标准，由此产生了“涌现”的观点。

在“涌现”问题上，人类与黑猩猩的类比很有意思。人类的大脑容量比黑猩猩大三倍，而这种差异使得人类能够进行更复杂的思考、交流和创造。两者在结构上并无明显差异，这不也是“涌现”吗？

GPT-3.5 是一个 1000 亿级的模型，拥有 1750 亿个参数。相比于 GPT-3，GPT-3.5 主要对模型参数进行了微调，使其在回答问题时更加符合人类的习惯。据悉，GPT-4 的模型参数数量甚至是 GPT-3.5 的 5 倍，这也解释了 GPT-4 为何如此聪明（体验过的人应该都懂）。以下是 GPT 模型的演进历史：

2. GPT 的局限性

综上所述，GPT模型具有明显的、开创性的优势。典型的优势包括：①强大的语言理解能力；②极其广泛的知识储备；③学习能力和推理能力等。这些能力让人们感觉到人工智能真的有“大脑”，想象着用GPT来解决所有问题。

然而，如果我们真的想深入应用这项技术，就必须了解它的局限性，以便在实际应用中充分利用它的优点，克服它的弱点。以下是主要的局限性：

1. 逻辑不透明

GPT模型的答案本质上是概率性的，传统软件开发中，界面的输入输出参数是固定的，但当给出输入参数（即提示词）时，GPT的响应具有一定的随机性。

当人们把ChatGPT作为聊天工具使用时，这种不精确性可以成为用户谈论的话题；当涉及到商业软件应用时，在设计时需要特别注意减少不确定性。在大多数产品场景中，用户非常重视确定性。

2. 短期记忆力差

得益于自注意力机制，ChatGPT 具备了进行多轮对话的能力，但其记忆长度相当有限，GPT-3.5 模型仅支持回溯 4096 个回复引用的 token。

更糟糕的是，这 4096 个 token 中还包含 ChatGPT 之前回复用户的部分！这让它有限的记忆更加尴尬，就像一条电子金鱼。好在 GPT-4 将 context token 的上限扩大到了 32000 个，一定程度上缓解了这个问题。

3. 资源消耗高

ChatGPT的智能需要大量的算力，而运行大规模高端显卡又需要大量的电力。五年之内，依托半导体工艺的进一步升级和大模型的广泛应用，算力和电力的边际成本将逐渐变成固定成本，从而解决这一问题。

4. 响应缓慢

由于模型规模庞大，GPT 在回复时无法做到即时响应。从用户实际体验来看，ChatGPT 是逐字逐句回复的。企业在设计相关产品时，需要特别注意应用场景：

需要避免在高并发场景下使用GPT，服务对接口的并发调用上限要求很低，产品设计上避免用户急于求成的应用场景，确保用户“等得起”。5.对行业理解浅薄

诚然，ChatGPT 拥有丰富的来自互联网和经典书籍的知识。但真正的企业级专业知识往往来自于对特定领域的深入研究和实践，而这些见解无法仅从互联网上的知识中获得。因此，如果让 GPT 充当企业顾问，它只能帮助梳理战略框架，而很难给企业提供富有洞察力的战略建议。

6. 价值观错位在自监督学习阶段，92% 的 GPT 训练数据都是英文，在监督学习阶段，教授道德价值观的工程师主要来自英语世界，在强化学习阶段，还可能受到恶意用户输入错误价值观的影响。

因此GPT的“精神内核”是以西方价值观为基础的，这可能导致生成的文本难以符合我国的文化背景和价值观。

3. GPT多层应用指南

在深刻理解了GPT模型的原理和局限性之后，我们终于可以看到如何使用这项技术了。我会从最直观到最复杂，分为五个层次，逐层进行介绍。

第一层级：聊天能力

在这种用法中，GPT的答案就是交付给客户端的，这是GPT模型最简单、最直观的用法。

1） Shell 聊天机器人

利用OpenAI官方接口开发的壳聊天机器人产品。这样的产品为什么存在大家都知道了。不然用户为什么不直接用ChatGPT呢？这样的产品很难成为现象级应用，竞争也非常激烈。因为比较灰色，内容没有过滤，网站被封后换域名的故事还会不断上演。

2）场景化问答

这个模型约束了GPT的回答场景，通过限定提示词、嵌入大量特定领域知识以及微调技术，使得GPT只能基于某一类身份回答特定类型的问题，而对于其他类型的问题，机器人会告知用户它不理解相关内容。

这种用法可以有效约束用户的输入，减少很多不必要的风险，但训练一个优秀的场景化机器人也需要付出很大的努力。典型的应用有智能客服、智能心理咨询、法律咨询等。微软新推出的Bing就是这类应用的杰出代表，其俏皮又霸气的回复风格深受网友喜爱。

第二层次：语言能力

在这个层面上，我们充分发挥 ChatGPT 的语言天赋，辅助各种基于文本的处理任务。从这个层面开始，我们需要使用 one-shot 或 few-shot（在提示词中给 ChatGPT 一个或多个示例）来提升 ChatGPT 的性能。与用户的交互不再局限于聊天窗口。提示词模板是事先预制好的，用户只能输入有限的信息，对应提示词的空槽。

带槽提示的预制模板基本应用流程如下：

1）文字处理

此类应用程序主要有三种用途：

① 文章细化

你可以输入一个文章段落，要求提取段落的中心思想，但由于token数量限制，很难概括整篇文章，也可以要求生成一个简短的标题、副标题等。在提示词中预留【案例】的槽位，让用户输入一些参考案例，GPT就能学习到相应的风格，进行针对性的输出。

② 润色/重写

它可以用于文章的初步润色，以消除拼写错误、错误的标点符号等。

重写可以改变文章的风格，比如改成小红书的风格。

③ 文章扩展

在提纲的基础上，分段展开文章。由于token限制，如果一次性要求过长，输出的扩展很难做到前后呼应。ChatGPT本身不会产生新的知识，文章扩展很难写出深刻的见解，只能生成草草了事的文章。通过给出关键词和案例，要求生成规律性的短文案，是应用其文章扩展能力的有效方式。

2）翻译

GPT 模型在训练过程中学习了大量语言，具备跨语言能力。无论你用什么语言和它交流，只要理解了意图，分析问题的能力不分语言。因此，翻译对于 GPT 来说很容易。当然，它仅限于基本的翻译。不要指望它能“忠实、流畅、优雅”地翻译。

3）情绪分析

GPT能够理解文字背后的用户情绪，例如在客服模块引入GPT能力，可以基于语音和文字快速判断用户的情绪状态，提前识别潜在客户投诉，并在情绪爆发前进行有效安抚。

第三层：文本能力

在这类应用中，GPT 的能力已经超越了语言，通过广泛的学习，它可以处理所有与文本相关的任务。它甚至具有真正的学习能力，使用少样本技术来解决训练数据中不存在的问题。这一层的应用非常广泛，将产生大量极具创造力的产品。我这里只举一些典型的例子。

1）编写代码

ChatGPT 可以编写 SQL、Python、Java 等代码，并帮助查找代码 Bug。与写文章的原因类似，它不能被要求写太长的代码。

2）写提示词

让 GPT 创建提示是一种与其他 AI 协作的简单方法。例如，让 GPT 编写 midjourney 的提示已成为一种非常主流的做法。

3）数据分析

ChatGPT既可以直接进行数据分析，也可以配合EXCEL进行数据分析，将数据分析操作的成本降到极低，大大提高了数据分析的效率。

第四级：推理能力

在前面几层，我们看到了GPT的推理能力。用GPT的推理能力取代人工点击操作流程，无论对B端还是C端，都会带来产品设计的颠覆性变化。个人认为短期内B端的机会大于C端。互联网经过20年的发展，C端用户的主要需求已经基本得到满足，颠覆C端用户的操作路径会带来很大的学习成本。B端有很大的发展空间，可以分为三个阶段：

1）自动化工作流程级联

利用ChatGPT理解人类意图的能力，结合langChain技术，我们可以在公司内部整合各种任务的提示词和网页链接，员工无需再去寻找各种链接，需要进行相关操作时，会自动跳转到对应页面进行下一步操作。以ChatGPT为智能枢纽，实现B端各项操作的有机融合。下图是设计思路的一个例子。

2）人工智能辅助决策

在第一阶段的基础上，将相应页面的部分功能与GPT联动，这样员工在进行操作时，部分功能可以由AI来实现，可以成倍的提高效率。Microsoft Copilot就是这类产品的代表，比如你可以在Excel中描述想要进行的数据分析，数据分析就会自动完成，而不需要再去寻找相关公式。

3）全自动AI工作流程

这一阶段还处于演示阶段，呈现的是未来的愿景。如前所述，GPT 很难解决特定领域的细节问题，除非针对某一场景进行大量的微调和隐私数据部署。AutoGPT 和 AgentGPT 都属于这一类。

五楼：国产大样板

AI技术是科学，不是神学，大模型的原理也不是秘密。美国能做到，我国也能、也必须做到。只要训练数据质量达标，模型参数就超过1000亿，具备推理能力，如果超过8000亿，就能和GPT-4一较高下。有了海量中文语料，加上中文微调，我国一定能有符合自身文化背景和价值观的大模型。

但前面的道路漫长而艰辛，困难重重，例如：极高的训练成本、训练数据质量要求高、模型优化复杂、马太效应明显等等。因此预计未来5年，中国最多会出现3家知名的大型模型服务商。

大模型是AI时代的基础设施，大部分企业选择直接应用，获取商业价值。在这样的背景下，愿意投入建设自有大模型的企业更显可贵。在这里，我代表我个人，向那些勇于投入建设自有大模型的国内企业致敬。

四、结论

总体来说，ChatGPT是一个跨时代的产品，GPT技术在不同层面的应用体现出了一些共同的机会，我总结了三种在未来会有很大价值的能力。

1. 问题分解技术

考虑到 GPT 的回答数量最多为 32000 个 token，如何将问题有效分解成子问题并交给 GPT 处理至关重要。未来的工作模式可能是将问题分解成子问题，然后组装子问题的解决方案。在具体实施过程中，还需要判断子问题的难度，有些问题可以用一些小模型来处理，这样可以有效控制应用成本。

2. 三种调优方法

与 GPT 交互的方式主要有三种，可以在多个层面、从低到高成本实现特定效果：

① 优化提示语

通过探索，我们找到最优的提示词模板，预留特定的槽位给用户输入。单单提示词优化就能实现非常多的功能，很多基于GPT的产品都是基于特定提示词进行包装的，好的提示词需要包含角色、背景、GPT需要完成的任务、输出标准等。根据业界研究，好的提示词可以将GPT3.5结果的可用性从30%提高到80%以上。提示词优化无疑是三种方法中最重要的。

② 嵌入

这是一种构建自己的知识库的方法，利用Embedding技术进行向量化，让GPT能够基于自己的数据进行问答。

③ 微调

通过输入大量的问题和答案，真正教会 GPT 如何回答某一类问题的成本比前两者要高，好处是将提示词的短期记忆转化为隐私模型的长期记忆，从而释放出有价值的 token 来完善提示词的其他细节。

以上三种方法并不冲突，在工程实践中常常互相配合，尤其是前两种方法。

3. 私人数据积累

私有数据集的价值得到了进一步提升，各个行业可以在此基础上重新包装GPT，解决特定领域的问题。建议使用微软Azure提供的GPT接口，用私有数据构建大型语言模型产品。因为微软的B端GPT服务是独立部署的，不会用私有数据进行大型模型训练，可以有效保护私有数据，毕竟一旦私有数据被公开，其价值就会大打折扣。

有了以上这些能力，大语言模型就可以充分释放生产力，解决依赖计算机的重复劳动。我总结了下一个时代（3年内）的商业运作模式：

企业会根据三大能力衍生出三类角色：

① 问题解决者

这类角色非常清楚大型语言模型的能力极限，能够有效地将一个业务问题分解成GPT能够处理的子问题，并能根据问题结果将子问题组装起来。

② 及时工程师

该类角色非常擅长与GPT沟通，能够根据不同的题型提供有效的提示词模板，大大提高GPT的输出质量。

③ 知识拥有者

这类角色拥有大量的行业know-how，并能将知识结构化，传递给GPT，对应现在的领域专家。

在该模型驱动下，GPT将成为企业提高效率、解决大量重复性工作的重要帮手，并提供有价值的参考，但人的主观能动性仍然起着决定性的作用。

5. 最后的想法

以 GPT-4 为代表的当前 AI 技术水平已经带来了惊人的效率提升，更何况它还在以极快的速度进化。从技术革命的历史来看，当一项大幅提升效率的新技术出现时，往往会先让 B 端受益，然后才慢慢开始在 C 端释放巨大的价值。这是由企业对效率的天然敏感性决定的，而改变 C 端用户的习惯需要大量的学习成本和场景挖掘，滞后效应强。下面举三个例子：

回顾第一次工业革命，蒸汽机的出现首先导致大量纺织工人失业，随后各种C端场景被发掘，推动社会生产力大幅提升。ChatGPT可以更快产出口水，但C端用户的阅读需求并没有增加，对于营销公司来说，效率提高了，需要的编辑更少了。MidJourney可以快速产出游戏贴图，但这并不能导致更多人爱玩游戏，因此需要的画师更少了。

信息化企业的效率革命即将到来，依赖计算机的重复性工作将会消失，因为大模型最擅长的是学习固定的套路。正如我在文章开头所说，像IBM裁员7800人这样的案例只会越来越频繁地发生。

AI时代真正到来了，每个岗位都需要思考、学习如何让AI成为工作伙伴。

校对：Zang1、Xiaoyu、GPT-4

哈喽大家好我是站长，美区火箭apple ID 土耳其apple ID 其他apple ID 账号资源，可加微信：咨询可扫码下方关注公众号获取账号教程资源

XuLaLa.Tech

一键解锁ChatGPT原理及应用

机场优选

苹果 iOS 科学上网

热门好文