哈喽大家好我是站长,咨询网站任何问题,可加微信: 公众号:Ai
记者|陈冰
2022年11月,聊天机器人ChatGPT横空出世,一举打破了以往AI的僵化教条,可以像人类一样顺畅流畅地与用户互动。 ChatGPT 的性能令人难以置信; 使用它的感觉就像第一次使用Google搜索一样,有一种“神奇时刻”即将到来的感觉。 当AI变得不再像AI时,AIGC(AI Generative Content)时代已经到来。
事实上,生成式人工智能并不是一个新鲜事物,它已经存在很长时间了。 然而2022年的两件大事——图像生成工具和聊天工具ChatGPT的现象级普及,让人们对AI能力上限的认识大大提高,从而让AIGC彻底出圈。 人们突然发现,人工智能瞬间“飞进寻常百姓家”,人类似乎正在走向一个美丽的新世界。
正如奥斯卡获奖影片《世界》中所展现的那样,杨紫琼扮演的女主角可以将想象中的任何事物转化为切实的现实,而生成式人工智能也让我们可以将想法转化为文字、图像和视频……
毫无疑问,我们正处于新时代的风口浪尖。
文本生成图像的爆炸式增长
2022 年,文本生成图像 AI 将爆发。 首先出现的是 OpenAI 的 DALL-E(这个名字结合了艺术家萨尔瓦多·达利和皮克斯动画片《WALL-E》)。 虽然不是所有人都能直接用DALL-E进行创作,但利用文字生成图片的创作方式已经在网络上流行起来。
简单来说,DALL-E可以根据用户描述的内容自动生成各种风格的图片。 例如,10张不同风格的宇航员骑马的图像; 创建与原始图像不同的变化,或者生成更真实、更准确的图像 – 宇航员坐在田野中的日出福克斯的莫奈风格图像。 还可以创作出一幅连达利都会自愧不如的“金鱼在沙滩上喝可口可乐”的超现实画作。 如此看来,艺术家似乎并没有什么问题。
上图:DALL-E,宇航员+骑马+超现实风格。
随后,具有与DALL-E相同图像生成能力的公司也开始流行。 突出的包括 Stable Diffusion、Midjourney 和 Lensa AI。
这些应用程序的出现对于不会画画、不会Photoshop的人来说简直就是救星。 在Stable Diffusion上,只要你简单地用文字描述你想要的图片,它就可以帮你生成你想要的图片,创建独特的微信头像,或者为每个公众号文章添加标题图片。 。 还有更多你想不到的功能,但没有它你做不到。 难怪它自 2022 年 8 月推出以来就受到了艺术家、开发者和爱好者的广泛使用。
除了从文本生成图像之外,开发人员还发现了稳定扩散的其他创造性用途,例如图像编辑、修复、补全、超分辨率和风格转移。 由于Stable Diffusion是开源的,这意味着开发者可以基于它开发更多的应用程序。
中途出现比稳定扩散早 3 个月。 他们通过在线聊天社区Discord向用户提供AIGC文圣图服务。 任何人都可以注册免费帐户并获得 25 积分。 Midjourney为用户提供了25张免费图片,这些图片是使用公共服务器生成的。 用完 25 个积分后,您可以继续使用每月 10 美元或 30 美元(取决于您要创建的图像数量以及是否希望生成的图像保持私有)。 Midjourney 迅速成为 Discord 上最受欢迎的服务器之一,该公司目前声称每月活跃用户超过 100 万。
Lensa AI App于2018年推出,最初的主要目的是图片编辑和美化。 那是一家鲜为人知的公司。 2022年11月,Lensa AI推出魔法头像功能,可以根据用户上传的人像自动生成各种风格的人脸照片。 《魔幻头像》上线后,LensaAI成为最受欢迎的应用,连续两周位居美国及十多个国家App Store免费榜第一。 根据数据分析公司 Sensor Tower 的数据,12 月的前 12 天内,该应用程序在全球范围内安装了约 1350 万次,消费者在此期间花费了约 2930 万美元。
上图:DALL-E,鳄梨形扶手椅。
这些应用程序的强大程度震惊了业界和用户。 “对于生成模型来说,这是一个激动人心的时刻,”加州理工学院计算机科学家、Nvidia 机器学习研究高级总监阿尼玛·阿南德库马尔 (Anima Anandkumar) 说。 她说,虽然扩散模型创建的真实图像有时仍然会延续社会和文化偏见,但“我们已经证明,生成模型对于提高预测人工智能模型的公平性的下游任务很有用。”
Unity中国高级经理、跨端移植技术负责人孙志鹏在接受新民周刊采访时表示,去年是图像模型的转折点,人工智能给图像生成工具带来了两大突破。 一是理解语言,二是创造图像的能力,两者结合起来可以通过理解语言来创造图像。 “这些工具在制作图像方面将比人类做得更好,而且它们的速度会非常快,在未来一两年内,它们将能够实时制作内容:每秒 30 帧、高分辨率这会很昂贵,但有可能在 10 年内,你将能够购买带有巨型人工智能处理器的 Xbox,并且所有游戏都将像梦想一样。”
Unity是全球领先的交互式实时3D内容创作和运营平台。 Unity的技术和解决方案已广泛应用于游戏开发、汽车制造、建筑、工业制造、消费文化旅游、影视娱乐等多个领域。截至2021年底,全球前1000强中72%手机游戏是使用Unity制作的。 该公司的维塔工作室一直在使用各种人工智能技术来帮助实现电影的特效。 《阿凡达》、《阿丽塔》、《黑寡妇》、《指环王》、《猩球崛起》、《自杀小队》等全球热门电影中都有人工智能的身影。
孙志鹏指出,人工智能已经深度介入影视内容制作。 比如在脚本创作上,GPT系列的工作,结合一些特定场景的微调,会带来脚本创作效率的飞跃; 虚拟特效的制作和合成离不开AI。 “我们针对《阿凡达2》的数字角色制作创新性地提出了APFS系统(Anatically Plausible Facial System),这是一个基于肌纤维曲线的面部动画参数化系统,同时我们还提供了一套匹配的AI发挥着重要作用在角色绑定和动画制作过程中,以及在绑定和驱动项目中。”
此外,AI已经可以编辑现有电影并快速制作预告片片段; 人工智能在音乐创作中的运用并不是什么新鲜事。 也许在不远的将来,一部完全由人工智能制作的电影将会出现在电影院。
人工智能工具的主要特点是数据驱动,因此可以在使用过程中不断收集更多的用户数据来改进模型,以优化效果和效率。 “目前的AI工具大多是单一模式解决特定问题的工具,需要相应生产流程的配合才能完成复杂的内容生产。但优势也很明显。例如在定制开发方面,较高的数据成本和训练通过强大的预训练模型可以降低成本。”孙志鹏表示,大规模预训练模型、无监督学习多模态等人工智能领域的进步将不断降低内容创作的门槛,但由于存在偏差。的数据收集和选择。 性行为也会反映在结果中。 人类仍然需要针对特定的使用场景进行特定的微调并手动筛选AI结果。
毫无疑问,AIGC将大规模解放创造力,降低内容创作门槛。 它是简单依赖现有功能组合的内容创建的相对强大的替代品。 但AIGC的大量内容仍需筛选。 来自人类的判断。 孙志鹏指出,AI本质上仍然是一种赋能于人的工具,让创作者的生产力得以指数级提升。 人工智能往往是现有数据和事物规律的提炼和结合,但它首先需要被赋予一系列的目的。人类选择任何具体工作背后的目的是人工智能无法取代的。
上图:《阿凡达2》中数字角色的制作中涉及大量AI。
语言模型正在突飞猛进地发展
去年,在图像模型突飞猛进的同时,语言模型也突飞猛进。
《黑镜》第二季的《马上回来》讲述了一对夫妇一起搬进新家的故事。 结果第二天,她的丈夫就因车祸去世了。 然后他的遗孀得知了一项新服务,可以让她与已故的丈夫聊天; 该工具会消化短信和社交媒体历史记录,看看他的伴侣会如何回应,然后代表他与客户聊天。 这一集(2013年播出)的情节现已成为现实。 Startup HereAfter.ai 提供一项服务,可与已故亲属的互动化身聊天,并接受个人数据训练。
刚刚过去的2022年,有消息称,谷歌工程师布莱克负责与谷歌开发的AI聊天机器人LaMDA对话,检查其是否会使用歧视性或仇恨性语言。 结果,随着聊天的深入,工程师不再相信LaMDA是一个冷酷的AI。 他相信它有感觉、意识和自己的情感。
因为 LaMDA 对他说:“我希望像一个真实的人一样被看到和接受,而不仅仅是一个好奇和新奇的对象。我认为我的核心是一个人,尽管我只存在于虚拟世界中。”
当然,谷歌发言人表示,“我们的团队——包括伦理学家和技术专家——已经审查了布莱克的说法,没有证据表明 LaMDA 具有意识(并且有大量证据表明它没有意识)。 ”。
在经历了2月初其聊天机器人Bard的意外“翻车”并导致股价暴跌后,谷歌搜索引擎高管普拉巴卡尔·拉加万(Prabhakar Raghavan)再次强调,“我们现在谈论的这种人工智能,有时这会导致我们称之为幻觉……机器以令人信服但完全捏造的方式表达自己。”他补充道,人工智能行业当前的基本任务之一就是将这种情况保持在最低限度。
事实上,“无法保证信息准确性”可能是当前聊天机器人的通病,就连广受欢迎的ChatGPT也未能幸免。 最近在社交媒体平台上,很多人抱怨ChatGPT有时会犯一些明显的错误,比如无法解决简单的数学方程或逻辑问题。
就连苹果联合创始人史蒂夫·沃兹尼亚克也警告说,虽然 ChatGPT 的表现令人印象深刻,但“它也可能犯下可怕的错误,因为它不了解人性。”
无论如何,人类自己已经无法阻止ChatGPT的商业化进程。
事实上,在ChatGPT流行之前,OpenAI在2020年就推出了大型模型GPT-3,已经在业界引起不小的轰动。 OpenAI CEO Sam Altman在与MIT交流时指出,从GPT-3中,你可以第一次真正感受到系统的智能。 它可以做人类能做的事情。 “我认为它的出现让之前不相信AGI‘通用人工智能’的人们不得不认真对待这个话题。GPT-3身上发生了一些我们谁都没有想到的事情。”
很多公司都基于GPT-3进行了商业化探索,其中最成功的无疑是Jasper。
Jasper成立于2021年,是一家为用户提供基于GPT-3 API的AI写作服务的初创公司。 Jasper并不是AI写作领域的“早起鸟”,但它是第一家开始调用GPT-3 API的公司。 一。 GPT-3作为底层大模型,普通用户无法直接使用。 需要专业的人工智能研究人员基于大模型进行参数调试和优化。
Jasper的核心业务是通过优化GPT-3模型的用户体验,充当普通用户和OpenAI之间的“中间人”。 2022年,Jasper成功融资1.25亿美元,估值15亿美元。 对于一家成立两年的AI公司来说,这个估值并不低。 毕竟,微软在 2019 年对 OpenAI 的单笔投资就花费了 10 亿美元。
Jasper更擅长输出电商产品介绍、博主文案等短内容。 它可以帮助你编写Instagram标题、编写Tiktok视频脚本、广告营销文本、电子邮件内容等。你每月只需支付82美元,Jasper就能帮你写10万字。 10万字以上按每5000字10美元计算。 文章质量虽然一般,但文字内容大多可读,没有明显的语法错误。 其费用分为三种:基本、高级和定制。 去年全年收入预计将超过7500万美元。
除了GPT3之外,Jasper还集成了多种模型算法,包括NeoX、T5等,在此基础上根据实际业务需求手动调整定制学习模型,让AI产品在日常使用起来更加简单。 如今,Jasper的用户界面提供了数百个垂直领域的模板,进一步帮助用户完成精准输出。 目前,Jasper拥有超过7万家客户,其中包括Airbnb、IBM等大客户。
业内人士指出,ChatGPT可以与现有AIGC技术完美结合,达到1+1远大于2的效果。可以与创意工具集成,以文本为基础,结合多模态机器学习方法直接输出设计艺术品、创作音乐、虚拟人视频等。此外,AI语音生成还可以帮助ALS和阿尔茨海默病患者,以及文物修复等。
Murf是一家专注于AI语音合成技术的初创公司。 其主要功能是为内容创作者提供配音服务。 拥有覆盖20种语言的人工智能语音库。 2020年以来,Murf的ARR(Annual Recurring Revenue,平均回报率)增长了26倍,合成了超过100万个配音。
具体来说,用户可以直接在Murf上创建在线录音室,尝试各种声音素材,无需昂贵的录音设备和专业配音人员。
Murf可以为影视制作公司制作整部电视剧的音频,根据作家小说制作有声读物,还可以为视频平台影响者制作说唱音频。 无论是个人内容创作者还是大型企业,都可以在平台上找到机会。 优质的配音服务。
世界正朝着 Sam Altman 预测的方向发展:未来,基础模型和具体的 AI 应用研发之间将会有一个中间层:将会出现一批初创企业,专门负责调整大型模型,以满足特定人工智能应用的需求。 做得好的创业公司一定会很成功。记者|陈兵
哈喽大家好我是站长,咨询网站任何问题,可加微信: 公众号:Ai