XuLaLa.Tech

首页客户端下载Windows 使用V2Ray 教程SSR 教程Clash 教程

如何基于高性能服务器训练ChatGPT模型?

2024.06.25

哈喽大家好我是站长,美区火箭apple ID 土耳其apple ID 其他apple ID 账号资源,可加微信: 咨询 公众号:Ai

关键词:深度学习;高性能计算;数据分析;数据挖掘;LLM;PPO;NLP;ChatGPT;人工智能;高性能服务器;HPC;AIGC

随着人工智能、深度学习、高性能计算、数据分析、数据挖掘、LLM、PPO、NLP 等技术的快速发展,ChatGPT 也得到了快速发展。ChatGPT 是 OpenAI 开发的大型预训练语言模型,是 GPT-3 模型的变种,经过训练可以在对话中生成类似人类的文本响应。

ChatGPT 背后的算法基于 Transformer 架构,这是一种使用自注意力机制处理输入数据的深度神经网络。Transformer 架构广泛应用于自然语言处理任务,如语言翻译、文本摘要、问答等。ChatGPT 可用于创建可以与用户对话的聊天机器人。

1、ChatGPT是什么?它和以往的人工智能有何不同?

ChatGPT 是人工智能的一次革命性进步。众所周知,过去如果想找到一个问题的答案,可以手动在百度、谷歌等搜索页面上搜索各种答案。百度和谷歌只是通过爬虫技术寻找大量已知问题的相关答案。但 ChatGPT 不同,ChatGPT 可以智能回答几乎所有问题,并且保证原创性。答案与之前公布的任何已知答案完全不同!ChatGPT 甚至可以编程、画画、写诗、写文章!

目前,微软正在与ChatGPT开发商OpenAI洽谈100亿美元的投资,如果交易达成,OpenAI的估值将达到290亿美元。与此同时,微软正在将OpenAI的人工智能技术融入其办公软件Office中。

据悉,OpenAI与微软的合作由来已久,2019年微软向OpenAI投资10亿美元后,两家公司随后展开多年合作,OpenAI在微软的Azure云计算服务中开发人工智能超级计算技术。

2. ChatGPT 训练的整个过程

ChatGPT 作为智能对话系统,其效果极其惊艳。记得上一次 AI 技术引起如此轰动还是两年半前,当时人工智能正处于鼎盛时期;多模态领域以 DaLL E2 和 Stable Diffusion 为代表的 Diffusion Model,也就是最近很火的 AIGC 模型。

从整体技术路线上看,ChatGPT引入了“人工标注数据+强化学习”(RLHF,reinforcement learning from human feedback)的方式,不断对预训练的语言模型进行微调,主要目的是让LLM模型学会理解人类命令的含义(比如写一篇短文生成题、知识答题、头脑风暴题等不同类型的命令),让LLM学会针对给定的提示输入指令(用户的提问)判断什么样的答案是高质量的(信息丰富、内容丰富、对用户有帮助、无害、不含有歧视性信息等标准)。

在“人工标注数据+强化学习”的框架下,具体来说,ChatGPT的训练过程分为以下三个阶段:

1. 第一阶段

至于 GPT 3.5 本身,虽然功能强大,但很难理解不同类型的人类指令所蕴含的不同意图,也很难判断生成的内容是否是高质量的结果。为了让 GPT 3.5 初步理解指令所蕴含的意图,将随机选取一批测试用户提交的提示(即指令或问题),由专业注释人员针对指定提示给出高质量的答案。然后,再利用专业人员注释后的数据对 GPT 3.5 模型进行微调。通过这一过程,可以认为 GPT 3.5 初步具备了理解人类提示所蕴含意图,并基于这样的意图给出相对高质量答案的能力。

2. 第二阶段

在这个阶段,冷启动后的监督策略模型首先会针对每个提示生成 X 个结果,并根据结果的质量由高到低进行人工排序,以此作为训练数据,通过 pair-wise learning to rank 模式训练奖励模型。对于学习到的 RM 模型来说,输入和输出结果的质量分数越高,代表生成的答案质量越高。

3.第三阶段

此阶段无需人工标注数据,而是利用上一阶段学习到的RM模型,根据RM打分结果更新预训练模型的参数。具体来说,从用户提交的提示中随机抽取一批新命令(指不同于第一阶段和第二阶段的新提示,其实对于提升LLM模型理解指令的泛化能力非常重要和有帮助),通过冷启动模型初始化PPO模型的参数。然后针对随机抽取的提示,利用PPO模型生成答案,利用上一阶段训练好的RM模型给出答案质量评估的奖励分数。这个就是RM对整个答案(由单词序列组成)给出的总体奖励。有了单词序列的最终奖励,每个单词可以看作是一个时间步,按照顺序从后向前传递奖励,得到的策略梯度可以更新PPO模型参数。 这是一个标准的强化学习过程,目的是训练LLM产生高奖励的答案,也就是产生符合RM标准的高质量答案。

如果我们不断重复第二阶段和第三阶段,很显然每次迭代都会让 LLM 模型变得越来越强大。因为在第二阶段,RM 模型的能力通过人工标注的数据得到增强,而在第三阶段,增强后的 RM 模型对新提示生成的答案进行更准确的评分,并使用强化学习来鼓励 LLM 模型学习新的高质量内容,这类似于使用伪标签来扩展高质量的训练数据,因此 LLM 模型得到了进一步的增强。显然,第二阶段和第三阶段是相辅相成的,这也是为什么不断迭代会有不断增强的效果。

尽管如此,我认为第三阶段使用强化学习策略并不一定是ChatGPT模型效果特别好的主要原因。假设第三阶段不使用强化学习,而是改用下面的方法:与第二阶段类似,对于一个新的提示,冷启动模型可以生成X个答案,分别由RM模型进行评分,我们选取​​评分最高的答案形成新的训练数据,进入fine-tune的LLM模型。假设换成这种模式,我相信效果可能比强化学习更好,虽然没有那么精致,但效果可能不会差很多。无论第三阶段采用哪种技术模式,本质上很有可能都利用了第二阶段学到的RM,起到了扩充LLM模型高质量训练数据的作用。

以上就是ChatGPT的训练过程,ChatGPT是改进后的instructGPT,改进主要是标注了数据采集方式上的一些差异,其他方面包括模型结构、训练流程等基本都遵循instructGPT。可以预见的是,这个Reinforcement Learning from Human Feedback技术会很快蔓延到其他的内容生成方向,比如一个大家容易想到的方向,比如《一种基于Reinforcement Learning from Human Feedback的机器翻译模型》等等。

但我个人认为,将这项技术用在 NLP 某个特定内容生成领域意义不大,因为 ChatGPT 本身就可以处理各种类型的任务,基本覆盖了 NLP 生成的很多子领域。所以对于某个 NLP 子领域来说,单独使用这项技术并没有太大的价值,因为它的可行性可以认为已经被 ChatGPT 验证过了。如果将这项技术应用到其他模式的生成上,比如图片、音频、视频等,或许是一个更值得探索的方向。或许我们很快就会看到类似《基于人类反馈强化学习的 XXX 扩散模型》的文章。

3.蓝海大脑高性能深度学习ChatGPT一体机

通过多年努力,蓝海大脑攻克了性能指标、外观结构设计、工业生产等关键技术难题,成功研发出蓝海大脑高性能深度学习ChatGPT一体机,支持快速图形处理、GPU智能计算,性价比高、外观精美,满足了人工智能企业对图形、视频等信息的强大计算处理技术的需求。

快速、高效、可靠、易管理的蓝海大脑液冷工作站拥有出色的静音性和完善的温控系统,满载下噪音控制在35分贝左右。搭配NVIDIA、Intel、AMD GPU显卡,可加速神经网络的训练和推理速度,更快打造精准的灯光渲染效果,提供高速视频和图像处理能力,加速AI,带来更流畅的交互体验。

突破传统风冷散热模式,采用风冷与液冷混合散热模式。服务器内主要热源CPU采用液冷冷板散热,其余热源仍采用风冷散热。这种混合散热方式可以大大提高服务器的散热效率,同时降低主要热源CPU散热的功耗,增强服务器的可靠性;支持VR、AI加速计算;深受广大深度学习ChatGPT领域工作者的喜爱。

1、主要技术指标

可靠性:平均故障间隔时间MTBF≥15000小时

工作温度:5~40℃

工作湿度:35%~80%

存储温度:-40~55℃

存储湿度:20%~90%

噪音:≤35dB

2. 产品特点

集中管理:支持多种异构硬件平台、操作系统和应用程序,提供单一系统映像,实现计算节点和图形工作站节点的集中管理和统一调度。

负载均衡:提供强大的负载均衡能力,保证计算服务器的任务尽可能均匀分布,避免机器忙闲不均。并根据服务器的负载指标(如CPU利用率、可用内存、IO等)采取保护措施

高效利用资源:避免计算任务之间发生冲突,导致任务失败或者计算时间延长。

优先级管理:确保在资源不足的情况下,紧急的项目或任务能够被优先处理,以便更快地启动,避免影响设计和工程的进度

3. 客户利益

实现统一的用户登录、认证、作业管理、数据管理,实现跨部门资源共享,最大化利用率

加速公司产品开发进度,大幅缩短开发周期,提高产品设计开发效率

提供统一平台,最大限度提高深度学习、虚拟图像、HPC等领域的快速响应和准确预测,带来更流畅的交互体验

提高客户满意度,提供图像、视频、声音等实时用户体验,加快搜索速度

降低总体拥有成本、简化工作流程、加速多种工作负载、提高生产力并促进企业创新

哈喽大家好我是站长,美区火箭apple ID 土耳其apple ID 其他apple ID 账号资源,可加微信: 咨询 可扫码下方关注公众号获取账号教程资源

© 2010-2022 XuLaLa 保留所有权利 本站由 WordPress 强力驱动
请求次数:69 次,加载用时:0.665 秒,内存占用:32.19 MB