XuLaLa

哈喽大家好我是站长，美区火箭apple ID 土耳其apple ID 其他apple ID 账号资源，可加微信：咨询公众号：Ai

关键词：深度学习；高性能计算；数据分析；数据挖掘；LLM；PPO；NLP；ChatGPT；人工智能；高性能服务器；HPC；AIGC

随着人工智能、深度学习、高性能计算、数据分析、数据挖掘、LLM、PPO、NLP 等技术的快速发展，ChatGPT 也得到了快速发展。ChatGPT 是 OpenAI 开发的大型预训练语言模型，是 GPT-3 模型的变种，经过训练可以在对话中生成类似人类的文本响应。

ChatGPT 背后的算法基于 Transformer 架构，这是一种使用自注意力机制处理输入数据的深度神经网络。Transformer 架构广泛应用于自然语言处理任务，如语言翻译、文本摘要、问答等。ChatGPT 可用于创建可以与用户对话的聊天机器人。

1、ChatGPT是什么？它和以往的人工智能有何不同？

ChatGPT 是人工智能的一次革命性进步。众所周知，过去如果想找到一个问题的答案，可以手动在百度、谷歌等搜索页面上搜索各种答案。百度和谷歌只是通过爬虫技术寻找大量已知问题的相关答案。但 ChatGPT 不同，ChatGPT 可以智能回答几乎所有问题，并且保证原创性。答案与之前公布的任何已知答案完全不同！ChatGPT 甚至可以编程、画画、写诗、写文章！

目前，微软正在与ChatGPT开发商OpenAI洽谈100亿美元的投资，如果交易达成，OpenAI的估值将达到290亿美元。与此同时，微软正在将OpenAI的人工智能技术融入其办公软件Office中。

据悉，OpenAI与微软的合作由来已久，2019年微软向OpenAI投资10亿美元后，两家公司随后展开多年合作，OpenAI在微软的Azure云计算服务中开发人工智能超级计算技术。

2. ChatGPT 训练的整个过程

ChatGPT 作为智能对话系统，其效果极其惊艳。记得上一次 AI 技术引起如此轰动还是两年半前，当时人工智能正处于鼎盛时期；多模态领域以 DaLL E2 和 Stable Diffusion 为代表的 Diffusion Model，也就是最近很火的 AIGC 模型。

从整体技术路线上看，ChatGPT引入了“人工标注数据+强化学习”（RLHF，reinforcement learning from human feedback）的方式，不断对预训练的语言模型进行微调，主要目的是让LLM模型学会理解人类命令的含义（比如写一篇短文生成题、知识答题、头脑风暴题等不同类型的命令），让LLM学会针对给定的提示输入指令（用户的提问）判断什么样的答案是高质量的（信息丰富、内容丰富、对用户有帮助、无害、不含有歧视性信息等标准）。

在“人工标注数据+强化学习”的框架下，具体来说，ChatGPT的训练过程分为以下三个阶段：

1. 第一阶段

至于 GPT 3.5 本身，虽然功能强大，但很难理解不同类型的人类指令所蕴含的不同意图，也很难判断生成的内容是否是高质量的结果。为了让 GPT 3.5 初步理解指令所蕴含的意图，将随机选取一批测试用户提交的提示（即指令或问题），由专业注释人员针对指定提示给出高质量的答案。然后，再利用专业人员注释后的数据对 GPT 3.5 模型进行微调。通过这一过程，可以认为 GPT 3.5 初步具备了理解人类提示所蕴含意图，并基于这样的意图给出相对高质量答案的能力。

2. 第二阶段

在这个阶段，冷启动后的监督策略模型首先会针对每个提示生成 X 个结果，并根据结果的质量由高到低进行人工排序，以此作为训练数据，通过 pair-wise learning to rank 模式训练奖励模型。对于学习到的 RM 模型来说，输入和输出结果的质量分数越高，代表生成的答案质量越高。

3.第三阶段

此阶段无需人工标注数据，而是利用上一阶段学习到的RM模型，根据RM打分结果更新预训练模型的参数。具体来说，从用户提交的提示中随机抽取一批新命令（指不同于第一阶段和第二阶段的新提示，其实对于提升LLM模型理解指令的泛化能力非常重要和有帮助），通过冷启动模型初始化PPO模型的参数。然后针对随机抽取的提示，利用PPO模型生成答案，利用上一阶段训练好的RM模型给出答案质量评估的奖励分数。这个就是RM对整个答案（由单词序列组成）给出的总体奖励。有了单词序列的最终奖励，每个单词可以看作是一个时间步，按照顺序从后向前传递奖励，得到的策略梯度可以更新PPO模型参数。这是一个标准的强化学习过程，目的是训练LLM产生高奖励的答案，也就是产生符合RM标准的高质量答案。

如果我们不断重复第二阶段和第三阶段，很显然每次迭代都会让 LLM 模型变得越来越强大。因为在第二阶段，RM 模型的能力通过人工标注的数据得到增强，而在第三阶段，增强后的 RM 模型对新提示生成的答案进行更准确的评分，并使用强化学习来鼓励 LLM 模型学习新的高质量内容，这类似于使用伪标签来扩展高质量的训练数据，因此 LLM 模型得到了进一步的增强。显然，第二阶段和第三阶段是相辅相成的，这也是为什么不断迭代会有不断增强的效果。

尽管如此，我认为第三阶段使用强化学习策略并不一定是ChatGPT模型效果特别好的主要原因。假设第三阶段不使用强化学习，而是改用下面的方法：与第二阶段类似，对于一个新的提示，冷启动模型可以生成X个答案，分别由RM模型进行评分，我们选取评分最高的答案形成新的训练数据，进入fine-tune的LLM模型。假设换成这种模式，我相信效果可能比强化学习更好，虽然没有那么精致，但效果可能不会差很多。无论第三阶段采用哪种技术模式，本质上很有可能都利用了第二阶段学到的RM，起到了扩充LLM模型高质量训练数据的作用。

以上就是ChatGPT的训练过程，ChatGPT是改进后的instructGPT，改进主要是标注了数据采集方式上的一些差异，其他方面包括模型结构、训练流程等基本都遵循instructGPT。可以预见的是，这个Reinforcement Learning from Human Feedback技术会很快蔓延到其他的内容生成方向，比如一个大家容易想到的方向，比如《一种基于Reinforcement Learning from Human Feedback的机器翻译模型》等等。

但我个人认为，将这项技术用在 NLP 某个特定内容生成领域意义不大，因为 ChatGPT 本身就可以处理各种类型的任务，基本覆盖了 NLP 生成的很多子领域。所以对于某个 NLP 子领域来说，单独使用这项技术并没有太大的价值，因为它的可行性可以认为已经被 ChatGPT 验证过了。如果将这项技术应用到其他模式的生成上，比如图片、音频、视频等，或许是一个更值得探索的方向。或许我们很快就会看到类似《基于人类反馈强化学习的 XXX 扩散模型》的文章。

3.蓝海大脑高性能深度学习ChatGPT一体机

通过多年努力，蓝海大脑攻克了性能指标、外观结构设计、工业生产等关键技术难题，成功研发出蓝海大脑高性能深度学习ChatGPT一体机，支持快速图形处理、GPU智能计算，性价比高、外观精美，满足了人工智能企业对图形、视频等信息的强大计算处理技术的需求。

快速、高效、可靠、易管理的蓝海大脑液冷工作站拥有出色的静音性和完善的温控系统，满载下噪音控制在35分贝左右。搭配NVIDIA、Intel、AMD GPU显卡，可加速神经网络的训练和推理速度，更快打造精准的灯光渲染效果，提供高速视频和图像处理能力，加速AI，带来更流畅的交互体验。

突破传统风冷散热模式，采用风冷与液冷混合散热模式。服务器内主要热源CPU采用液冷冷板散热，其余热源仍采用风冷散热。这种混合散热方式可以大大提高服务器的散热效率，同时降低主要热源CPU散热的功耗，增强服务器的可靠性；支持VR、AI加速计算；深受广大深度学习ChatGPT领域工作者的喜爱。

1、主要技术指标

可靠性：平均故障间隔时间MTBF≥15000小时

工作温度：5～40℃

工作湿度：35%～80%

存储温度：-40～55℃

存储湿度：20%～90%

噪音：≤35dB

2. 产品特点

集中管理：支持多种异构硬件平台、操作系统和应用程序，提供单一系统映像，实现计算节点和图形工作站节点的集中管理和统一调度。

负载均衡：提供强大的负载均衡能力，保证计算服务器的任务尽可能均匀分布，避免机器忙闲不均。并根据服务器的负载指标（如CPU利用率、可用内存、IO等）采取保护措施

高效利用资源：避免计算任务之间发生冲突，导致任务失败或者计算时间延长。

优先级管理：确保在资源不足的情况下，紧急的项目或任务能够被优先处理，以便更快地启动，避免影响设计和工程的进度

3. 客户利益

实现统一的用户登录、认证、作业管理、数据管理，实现跨部门资源共享，最大化利用率

加速公司产品开发进度，大幅缩短开发周期，提高产品设计开发效率

提供统一平台，最大限度提高深度学习、虚拟图像、HPC等领域的快速响应和准确预测，带来更流畅的交互体验

提高客户满意度，提供图像、视频、声音等实时用户体验，加快搜索速度

降低总体拥有成本、简化工作流程、加速多种工作负载、提高生产力并促进企业创新

哈喽大家好我是站长，美区火箭apple ID 土耳其apple ID 其他apple ID 账号资源，可加微信：咨询可扫码下方关注公众号获取账号教程资源

XuLaLa.Tech

如何基于高性能服务器训练ChatGPT模型？

机场优选

苹果 iOS 科学上网

热门好文