哈喽大家好我是站长,美区火箭apple ID 土耳其apple ID 其他apple ID 账号资源,可加微信: 咨询 公众号:Ai
ChatGPT正在成为一场竞赛,中国企业竞相发布“自主研发”的ChatGPT,争夺所谓的胜利者。
但事实上,ChatGPT并不是比赛的终点,而是起点。 这只是人工智能新时代的开始。 通用人工智能的竞赛实际上是一场永无休止的长跑,而不是百米短跑。
假设这样一个新时代真的到来,什么力量可以与之抗衡呢?
此前,雷锋网盘点了追逐“ChatGPT”的学术、创业和大公司三派:学术派,以清华大学为首; 以王小川、王惠文为首的创业派,财力雄厚; 而以百度为首、以阿里巴巴为代表的大厂派,已经在2020年开始了大车型的布局研究。(推荐阅读:《》》)
其中以大厂牌最为突出,因为有技术、有资源、有产品。 就像微软之于OpenAI、谷歌之于DeepMind一样,各大厂商和科研团队之间的合作已经成为群雄竞争的主要形式。 由于ChatGPT的成功是强大的科研投入和新产品优化的结合,因此各大厂商的资源(数据、算力)和产品平台将发挥至关重要的作用。
一个小型初创团队告诉雷锋网,大厂商的命运是可预期的。 国内小型人工智能公司受到客观条件的限制。 比如OpenAI对微软的依赖也是其发展和生存的必要条件。
人工智能市场巨大,每个企业都能在其中找到自己的定位。 差异化的关键点其实在于能否在未来的持续竞争中保持投入,最终以最低的成本提供最好的体验。
01
ChatGPT 的本质
在关于ChatGPT的讨论中,一个常见的问题是:OpenAI的ChatGPT这么受欢迎,我们(中国)还有机会吗?
在模型方面,对于ChatGPT来说,大语言模型是最小的垫脚石。
作为 ChatGPT 的技术基础,GPT-3 于 2020 年首次推出,拥有 1750 亿个参数,在多种语言任务(包括文本理解、文本生成、智能问答、文本延续、文本摘要等)中取得了优异的表现.)。 此后,以GPT-3为代表的大型语言模型成为自然语言处理研究者(NLPer)的必争之地。 在区分各家公司的ChatGPT实力时,大模型的实力成为重要的考虑因素。
各大科技公司中,目前有大型机型计划的包括阿里巴巴(统一)、百度(文信)、华为(盘古)等。
训练一个自研的大模型难度不低,涉及数据、算法和算力三个维度。 据传,全世界能够从零开始自研训练一个大型模型的人不超过200人:
•数据层面:对于深度学习来说,当样本数量较少时,不正确的模型复杂度会导致过拟合和欠拟合。 当样本数量增加时,这种风险就会变小。 因此,大型模型对数据的数量和质量都有极高的要求。 GPT-3拥有1750亿个参数,数据量达45TB,表现出优异的性能。 数据的收集、清理和标记需要人力和资金。
•算法层面:除了海量数据外,大模型训练对AI框架的深度优化和并行能力提出了更高的要求。 该领域对AI人才的科研和工程能力要求最高,也是近期各大厂商人才竞争的源头。
•算力水平:这个领域参差不齐,但公开信息显示,为了让OpenAI训练GPT-3,微软帮助建设了一个配备1万张显卡、价值5亿美元的算力中心。 模型的训练消耗了355个GPU年的计算能力,单次训练的成本为1200万美元。
OpenAI 的 GPT-4 尚未公布。 面对相对确定的不确定性,企业AI的底层建设也显得尤为关键,算力就是其中之一。
在算力方面,据雷锋网了解,虽然早年各大厂商都在紧锣密鼓地建设自己的AI实验室,但对算力资源的投入却参差不齐。 一些知名厂商的显卡连一万块都没有。 更多详情请添加VX:Fiona190913,持续关注各大厂商ChatGPT的后续报道。
除了显卡数量不足之外,企业之间的差距可能还体现在:过去算力的积累,以及利用有限算力资源训练无限大模型的能力。 在这一波ChatGPT中,除了“英伟达的好消息”之外,国内不少云计算厂商和计算服务商的声音也微弱。 本质是芯片需要适应算法。
也就是说,拥有算力固然重要,但更重要的是找到一款适合大模型训练、能够实现大模型训练的芯片。 尤其是近两年大机型风潮中,一些大厂商因为成本考虑而远远落后,没有进入市场,难以追赶。
在模型和算力的高压下,团队之间的天花板其实已经显现出来。 阿里巴巴在这次ChatGPT浪潮中一直保持低调,但由于其在大模型和基础设施方面的长期优势,阿里巴巴是不可忽视的重要参与者,一举一动都牵动着整个AI行业的神经。
02
长跑运动员阿里
如上所述,大模型的研究难度极大,门槛极高。
当大多数中小企业声称“自主开发大模型”时,他们往往会利用监督学习算法基于开源大模型和数据集进行微调,获得新的模型,然后基于此开发产品模型。 虽然性价比高,但由于底层基础差异化不大,上层建筑在产品体验上也难以区分。
这意味着,如果从底层的数据、算法、算力部署入手,大模型的开发注定是大公司之间的军备竞赛(人力资源、资本、数据)。 而且,起步越早,先发优势就越大。
图例:大模型训练需要解决的数据、算法和算力问题(新辰科技分享)
阿里巴巴作为国内最早进入大规模语言模型的团队之一,在超越ChatGPT方面拥有超越其他团队的优势,这也意味着其在数据、算法方面拥有试错和解决问题的经验和计算能力,甚至在产品发布上都有探索和实验。
公开资料显示,阿里巴巴在大模型研究方面拥有扎实的基础:
•阿里巴巴早在2020年1月就开始研发多模态大模型(MultiModality-to-MultiModality Multitask Mega-transformer,简称“M6”)。6月,开发出3亿参数的M6。 有一个良好的开端;
•2021年是阿里巴巴大模型快速腾飞时期:3月发布千亿参数多模态大模型M6,4月发布首款中文大模型PLUG(270亿参数,被誉为中文版“GPT-3”)发布。 5月发布万亿参数大模型M6,10月发布10万亿参数大模型M6……
•2022年,阿里巴巴“统一”大模型体系诞生,包括谷歌、微软、DeepMind、Mega等国际顶级团队引用的通用统一模型M6-OFA。 当年云栖大会期间,全国首个AI模型社区ModelScope上线,贡献了300多个优质AI模型,10多个参数超百亿的大型模型……
对比国内其他主要互联网科技公司在大模型上的投入和产出,阿里巴巴的模型研究在前沿领域走得最远,从结果到产出的时间最短,对中文模型的认知度突出,多模态结合和通用架构。 研发的实施也是最透明的(尤其体现在魔法界),想要不引起关注都很难。
仅看阿里巴巴大模型结果的数量并不足以一睹其研发差异化。 雷锋网尝试从以下几个角度进行分析:
首先,阿里巴巴的大模型从M6、PLUG发展到统一,在训练方式上也经历了明显的变化:从BERT到自回归。
国内大型模型的发展,尤其是2021年将会出现的很多大型模型,基本上都是基于BERT的。 2021年,阿里巴巴开始从BERT转向自回归并复制GPT-3。 鉴于大多数伪造GPT-3的尝试都以失败告终,阿里巴巴一定是尝试了很多次才成功的。
目前,在Moda社区,我们可以看到多个已成功复现的GPT-3中文版本,参数范围从base到175B。 这些版本均已开源,最高下载量达到72k,可见其受到AI算法开发者的广泛认可。
图例:MoDa社区中文GPT-3页面(来自MoDa社区)
Google 发布的 BERT(Bi Direction Encoder Representation from Transformers)是第一个大型预训练模型。 BERT 没有使用传统的单向语言模型,或者两个单向语言模型的浅层拼接进行预训练,而是使用 MLM(掩码语言模型)生成深度双向语言表示。
OpenAI发布的GPT-3是后来者。 GPT-3延续了单向语言模型训练方法,但将模型规模扩大到1750亿个参数。 GPT-3专注于更通用的NLP模型,解决了当前BERT类型模型的两大缺点:过度依赖领域内的标记数据和对领域数据分布的过度拟合。
BERT 和自回归的区别在于,基于 BERT 架构训练的大型语言模型更擅长“理解”,而基于自回归(即 GPT-3)的方法更擅长“生成”。 达摩院已成为国内为数不多的具有自我回归布局的大型模型团队之一。
另外,值得注意的是,Google 的一项研究(论文《大型语言模型的 Emergent Abilities》)表明,模型的规模将从 700 亿个参数显着变化到 2800 亿个参数,验证了数千亿个参数是大模型从量变到质变的一道坎。 阿里巴巴是国内第一个创建千亿参数大型模型的团队。
其次,从大模型背后最关键的算力技术来看,阿里巴巴在训练大模型方面的工程积累也有了显着提升,主要体现在算力的部署上。
自2020年GPT-3出现以来,大型模型已成为AI领域最有前途的方向之一。 然而,大型模型的训练难度很大,需要很高的计算能力。 尤其是当模型的参数超过万亿、十万亿时(比如阿里巴巴的M6),训练过程不再单纯依靠堆叠算力。
实验表明,工程师可以通过在算法上下功夫来降低计算能耗。 例如,GPT-3推出两年后,2022年Meta开发的OPT模型计算量减少至1/7。 2022 年也有文章显示,2018 年需要数千块 GPU 训练的大型 BERT 模型,现在在单卡上只需 24 小时即可完成训练。 类似的例子还有无数。
提高训练速度和降低训练成本主要有两种方法。 一是关注训练数据的优化而不是参数尺度; 另一种是依靠算法和架构的创新,比如ALBERT、《孟子》等作品。 这两种方法都需要研发团队的技术经验。
公开资料显示,阿里巴巴在大模型训练领域拥有“两把刷子”。
一方面,阿里巴巴从数据和算法入手,降低计算能耗。 2021年5月,阿里巴巴达摩院团队仅使用480卡GPU训练了万亿参数多模态大模型M6。 与英伟达、谷歌等公司实现的万亿参数规模相比,能耗降低了80%以上。 同年10月,他们将M6的参数规模扩大到10万亿,训练时声称只使用512张GPU卡。
另一方面,阿里巴巴加大了对云计算的投入,打造了智能计算系统——飞天智能计算平台。
飞天智能计算融合了通用计算、异构计算等多种计算形态。 单集群峰值算力高达12 EFLOPS。 为万卡AI集群提供无拥塞、高性能的集群通信能力,其中专用机器学习平台PAI部署分布式训练框架EPL(训练英雄M6),可大幅降低能耗、提升速度。
一项公开数据是,截至2023年1月末,ChatGPT官网总访问量超过6.16亿次。 每次与ChatGPT交互,算力云服务成本为0.01美元。 如果总投资30.2亿元,算力500P的数据中心支持ChatGPT的运行。 至少需要7-8个这样的数据中心,基础设施投资数百亿。
如果不是基于微软的Azure云平台,ChatGPT将无法提供稳定的服务。 在云计算产品方面,阿里云排名中国第一、全球第三。 未来支持ChatGPT这样的产品有天然的优势。
最后,阿里巴巴大规模模式研究体现的另一个特点是“模式服务”和“中国生态建设”意识。
阿里巴巴专注于大模型的落地,解决行业问题。 2022年9月,推出“统一”大模型系列,分为模型基础层、通用模型层和行业模型层三层。
图例:阿里巴巴统一大模型架构
在模型基础上,它们得到统一学习范式OFA(One-For-All)等关键技术的支持,并且在业界率先统一了模态表示、任务表示和模型结构。 M6-OFA模型可以在不引入新结构的情况下同时处理图像描述、视觉定位、文本映射等10多个单模态和跨模态任务。
2021年,OpenAI推出Vincent图形产品DALL·E。 其背后的关键技术是在文本和图像模式之间架起一座桥梁的架构 CLIP。 阿里巴巴达摩院是国内第一个注意到CLIP对多模态影响的团队。 投入研发,于2022年推出中文版CLIP(ChineseCLIP),在中文跨模态中发挥重要作用。
这对于提高模型的泛化能力有很大的影响。 例如,基于文本、图像、语音、视频等多种模态的组合,设计统一的任务表示和结构,可以让上层模型不仅服务于单一领域(如电商),还可以服务于多个领域。其他领域(如金融、医疗、法律等)。
在中国生态建设方面,阿里的另一个贡献是对标HuggingFace的Magic社区建设。 Moda社区成立不到半年。 在推动中国AI模型开源方面,以其清晰的文档格式、丰富的模型类型、高质量的中国模型(包括大型模型)吸引了众多开发者。
在大语言模型的研究中,中文语料库的短缺一直是行业难题。 阿里巴巴牵头贡献自己的模型和数据集,推动人工智能应用的发展,推动人工智能产品与用户的互动,推动汉语研究语料库的积累并开源。
用一个AI从业者的评价来形容,在国内追逐ChatGPT的过程中,阿里巴巴武器、数据、算法、算力齐全,场景丰富,很难缺席和失败。
03
如果AIGC时代全面到来
虽然ChatGPT是一个智能会话机器人,但它提供问题的能力本质上是文本生成,这是AIGC的一个分支。
无论是文本生成、图像生成、图片、视频,甚至已经出现的各种类型的语音生成,其技术的成熟和产品的普及,都代表了人工智能在生成数字内容方面的无限想象力。 AIGC正在打造新赛道,改变传统产品形态。
例如,语音音箱市场将被激活和重塑。 以天猫精灵为例,拥有超过4000万家庭用户,月互动量超过80亿次。 原来的AI对话能力还是这样。 通过大模型的基础训练,结合声音情感信息媒介,天猫精灵或将升级为真正的家庭伴侣,成为包含知识、情感、个性、记忆的新型家庭互动系统,展现出超乎想象的世界。 能力。
更重要的是,我们正处于一个转折点。 人工智能不仅是一种产品,更有可能成为一种服务“AI as Service”,这将成为各大科技公司竞争的核心战场。 如何向外界输出AI能力,如何以最低的成本提供最好的体验,将成为各大厂商竞争的关键。
擅长“为别人做嫁衣”的阿里巴巴,通过计算基础设施为客户降低了研发成本。
从以往的情况来看,目前国内只有阿里巴巴具备支持万亿参数以上大型模型开发的全栈“云+AI”技术实力。 同时,阿里巴巴也凭借过往支持超大型模型开发的经验,形成了独特的能力,将AI训练效率提升11倍,推理效率提升6倍。 这种“低碳训练”技术无疑将为阿里云客户未来提供高性价比的AI算力。
在提供产品体验方面,阿里巴巴的策略不是与生态链合作伙伴争夺终端客户,而是先拓展生态系统。 Moda社区就是一个典型的例子,让没有自研能力的AI开发者或者中小企业在Moda平台上体验多种AI模型,构建自己需要的AI能力。
换句话说,在AI深度渗透行业的蓝图上,阿里巴巴的策略似乎是向B端客户提供技术服务,通过B端客户触及C端,形成网络。 在Moda社区中,广大开发者或者中小企业主可以免费下载使用开源模型,并且可以对模型进行二次优化。 他们可以基于人工智能模型快速生成服务应用,无需局级机构,让人工智能真正成为一个触手可及的工具。 和生产要素。
截至目前,兰州科技、深圳科技、智普AI、奇智社区、Bilibili、IDEA研究院等十余家知名机构贡献了模型。 Moda社区的模特数量已经超过600个,也就是600多个,2022年11月上线的时候会翻倍。
除了用大模型来服务自己的淘宝、天猫、天猫精灵、钉钉等业务外,阿里巴巴做AI时代的模型基础设施服务商也是明智的选择。
根据阿里巴巴2022财年全年财报,过去一年阿里巴巴在技术相关成本和费用上的投入超过1200亿元。 在全球建立了7个研究中心,拥有3000多个开源技术项目,开源活跃度位居国内企业第一。 相当一部分投资进入了人工智能领域。
对于需要极高投入的AI研发,可见阿里巴巴也有在这场长跑中坚持下去的决心。 在最近的沸沸扬扬中,真正的主角或许还没有拔剑,好戏才刚刚开始。
持续关注国内ChatGPT和AIGC的发展。 欢迎添加本文作者微信sunpx33和编辑微信Fiona190913交流意见、交流心得。
参考链接:
//
最近热门文章
哈喽大家好我是站长,美区火箭apple ID 土耳其apple ID 其他apple ID 账号资源,可加微信: 咨询 可扫码下方关注公众号获取账号教程资源