当前位置:首页 > 科技 > 正文内容

AI作画爆火,捧出多个新晋独角兽

cytd2022-10-22 16:58科技1884

本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。



智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影

人工智能(AI)创作,怎么突然就成了AI领域最热门的话题?

AI作画拿大奖的热议事件才没过多久,这周,两家AI生成内容企业相继官宣过亿美元新融资。最近爆火的Stable Diffusion模型,其背后公司Stability AI宣布获得1.01亿美元融资,投后估值达10亿美元;明星AI内容平台创企Jasper亦宣布获1.25亿美元新融资,估值达17亿美元。

投资界对AI的热情正在回升。这是一个方兴未艾的赛道,正大举挖掘AI的创造力潜能——AI算法在消化大量图像、视频、文本后,能学会创作诗歌、文章、绘画、照片、视频等原创内容,其作品甚至能做到“以假乱真”,乃至被高价拍卖。

!
也想出现在这里? 联系我们
首页广告区块



▲今年9月,AI画作《太空歌剧院》夺冠科罗拉多州博览会数字艺术创作类比赛

掀起AI创作热潮的鼻祖级“以文生图”模型DALL·E背后的顶级AI创企OpenAI,亦被爆料正与微软谈判,想再拿一笔新融资。

此前OpenAI估值已接近200亿美元。据外媒The Information今日报道,一位直接了解OpenAI财务状况的人士透露,该公司有望在今年创收数千万美元。这意味着OpenAI去年的估值可能是2022年预测收入的500至800倍。

同样在这周,做AI音视频编辑的创企Descript,被传就新一轮融资开始与OpenAI CEO Sam Altman等投资者进行谈判。

连艺术圈都开始热议,AI创作,这是要抢走绘图师的饭碗?

一、AI商业化新生意,明星创企迅速蹿红

今年大火的AI生成图像,满打满算,其实严格意义上才起步大约两年。

2020年7月,马斯克参与创办、微软力捧的国际顶级AI研究机构OpenAI公布Image GPT模型,将在自然语言处理上取得突破性成就的Transformer模型引入图像补全及生成任务。

在此基础上,OpenAI于2021年1月推出了一个堪称图像版GPT-3的“炸圈”之作——能够“以文生图”的全新AI模型DALL·E。只需输入文字描述,DALL·E就能画出符合要求的一系列备选图像。



▲输入文本“穿芭蕾舞裙遛狗的萝卜”、“牛油果形状的扶手椅”、“将上部的图片素描化”,DALL·E分别生成对应的图像

这个开启了多模态学习的重磅研究成果,在AI学术界引起轩然大波。

此前,人们主要用GAN(生成对抗网络)算法来训练会创作的AI,但这种算法训练难度较高,而且很快遇到瓶颈。随后科学家们转换思路,将2015年诞生的扩散模型(Diffusion Model)引入到图像生成,DALL·E的出场,验证了这个新方法的可行性,并掀起新的研究热潮。

▲扩散模型根据“油画画布上的龙”提示词生成的样本

紧接着工业界就开始“卷”起来。从谷歌、百度等科技巨头到一众创企,纷纷入场为AI创作站台。

其中最具代表性的4个“以文生图”里程碑之作,均于今年诞生,分别是Midjourney、DALL·E 2、Imagen和Stable Diffusion。

2022年3月,AI图像生成平台Midjourney启动Beta版本测试;4月,OpenAI乘胜追击推出二代AI以文生图工具DALL·E 2,以4倍分辨率生成更逼真、更准确的图像;5月,谷歌公布用PyTorch实现的以文生图SOTA模型Imagen……



▲DALL·E 1与DALL·E 2生成图像对比

但直至此时,AI创作仍是一个不算出圈的话题,真正将其推向高潮的关键变量,是Stable Diffusion。

今年8月,基于扩散模型的开源模型Stable Diffusion横空出世。相较不对外开放的谷歌Imagen、限制免费作画数量的DALL-E,Stable Diffusion面向公众免费开放,上手几乎没有门槛,用户使用消费级显卡就能实现DALL-E 2级别的图像生成,且据称生成效率可提高30倍。

从此AI作画开始在网上爆红,每天都有海量网友蜂拥而至,甚至连特斯拉前AI和自动驾驶主管Andrej Karpathy都一连沉迷好几天,在推特上不停晒用Stable Diffusion生成的作品。



▲Andrej Karpathy在8月连发Stable Diffusion相关推文

目前Stable Diffusion的各渠道累计日活用户超千万,已经吸引超过20万开发者。

为Stable Diffusion提供算力的是Stability AI,这家创企就凭借这么一个“爆款”开源模型,最新拿到1.01亿美元融资,跻身独角兽企业之列。

Stability AI创始人兼CEO Emad Mostaque是个在英国长大的印度人,2005年毕业于牛津,是一位连续创业者,2020年创办Stability AI的目标就是为了在学术和产业界之外打造第三极,为AI研究扫清障碍,实现AI技术的真正普及化。

结果如其所愿,Stable Diffusion被赞誉为“开源炸弹”,Stable AI也被视作有望撼动OpenAI江湖地位的一匹“黑马”。



▲Stability AI创始人兼CEO Emad Mostaque

据悉,Stable AI现有103人,计划扩张到300人,其算力目前用的是在亚马逊云科技(AWS)上租用的4000台英伟达旗舰计算卡A100 GPU。Emad在近期接受采访时透露,Stable AI已经签订了很多合作订单,盈利能力超过大多数赔钱的大公司,明年还打算资助100个AI方向的博士。

另一家本月拿到1.25亿美元新融资的AI内容生成创企Jasper,此前已经推出用AI生成博客文章、社交媒体帖子、网站副本等的多种功能,它的Jasper Art系统同样可以根据文字生成不同风格的图像。



▲Jasper Art系统演示

Jasper Art链接:https://www.jasper.ai/art

二、轻松上手零门槛,生成作品视效惊艳

在科技巨头、明星创企们的推动下,AI自动生成内容的上手门槛正变得越来越低。

经典的DALL·E 2已开放测试版,它可以结合文本描述生成风格迥异的图像,兼顾到阴影、反射和纹理细节,还能在生成图像中增删元素。它还有一个大招,是能将图像扩展到原始画布之外,创建广泛的新构图。



DALL·E 2链接:https://openai.com/dall-e-2/

还有更易上手的DALL·E迷你版——Craiyon,由谷歌和Hugging Face的研究员们开发。用户可以直接在网络浏览器搜索框中输入文字描述,让AI生成各种神奇的画作。



Craiyon链接:https://www.craiyon.com/

据其创始人Boris Dayma透露,自2021年7月推出以来,Craiyon每天生成约1000万张图像,增加了多达10亿张以前不存在的图像。

今年7月,百度也特别展示了基于其文心大模型1秒“补全”真迹遭焚毁的中国传世水墨名画《富春山居图》。网友只要在百度APP搜索“富春山居图”,在空白处勾勒几笔,就能用AI补全自己心中的《富春山居图》。



▲在百度APP用AI“补全”《富春山居图》

再比如今年8月斩获科罗拉多州博览会数字艺术赛道大奖的Midjourney,用法也非常简单,在对话框输入文字描述,就能立即获得由AI生成的4张草图。4个“U”按钮可以将对应序号图片的尺寸变大,增加更多细节;“V”按钮可以按照对应序号图片,再生成4张风格近似的衍生草图。



Midjourney链接:https://www.midjourney.com/

不过,AI的发挥并不稳定,有时秒出神图,有时成品也犯一些低级错误。

不管怎么说,AI作画拿大奖、赚大钱的事,确实令不少艺术创作者为此破防,十年寒窗苦读,结果一朝被AI分分钟生成的作品打败。

虽然现阶段AI仍然主要靠“模仿”,在“悟性”上没法媲美人类,参透不了艺术的灵魂,但顶尖AI算法创作的不少文字、图像乃至视频,在许多外行眼中,已经很难分辨出与人类作品的差别。

目前,已经有很多日常消费的视觉类商品,比如海报、插图等,是由AI创作生成的。

还有一些公司另辟蹊径,从这股热潮的细分环节觅得商机。

正如前文提到的,AI生成作品的质量,一定程度上取决于你的文字描述,这个文字描述过程简称为“提示词”。如果“提示词”写的好,AI创作的效果就会更加令人满意。

比如今年6月成立的PromptBase,就是一家靠兜售AI绘画工具“提示词”发家致富的公司。用户可以从PromptBase这里花1.99美元买一个“提示词”,将其复制到DAll·E、Midjourney、Stable Diffusion等平台,就能生成质量上乘的作品。



PromptBase链接:https://promptbase.com/

科技巨头、明星创企们,还在继续将AI创作的实力“卷”向新的高度。

比如过去一个月,Meta和谷歌接连发布AI生成视频的研究进展。

Meta AI在9月29日公布的AI系统Make-A-Video,基于几百万个视频和23亿张图片训练而成,能根据给定的一段话,生成一个时长几秒钟的短视频。



▲Make-A-Video生成的“画自画像的泰迪熊”短视频

Make-A-Video链接:https://makeavideo.studio/

继承Imagen,谷歌的Imagen Video模型能生成1280 x 768分辨率、每秒24帧的视频片段,而且能按需生成不同的艺术风格,比如水彩画、像素画、梵高风等。



▲Imagen Video生成的一些视频片段

Imagen Video链接:https://imagen.research.google/video/

论文链接:https://imagen.research.google/video/paper.pdf

谷歌的另一款AI生成视频模型Phenaki,亦可以切换视频整体风格,而且还能根据200个词左右的文字描述,生成2分钟左右的视频,并在文本描述中补充添加剧情,形成一个完整的故事。



▲Phenaki生成2分钟视频的片段:镜头对准了办公室里狮子的脸,聚焦到办公室里穿着深色西装的狮子

Phenaki链接:https://phenaki.video/

论文链接:https://arxiv.org/abs/2210.02399

按这样下去速度发展下去,即将破防的,估计就不只是绘画师了。

三、版权争论不休,偏见问题难解

随着各种AI生产力工具出炉,AI创作的门槛被不断拉低,一些投资者对AI生成内容模型的期待值越来越高,甚至将其视作极大扩张AI普及范围的潜在变革工具。

但其商业化道路前方,还横亘着不少难题,最大的争议点就在于版权与偏见。

按原理来说,AI创作是“从无到有”,通过消化大量数据,生成现实世界中原本并不存在的东西,理应不存在侵犯版权的问题。

但实际上,因为AI学习的训练数据集过于庞大,就连造出这些AI工具的研究人员都没法保证,AI不会误拿一些商用需付费的资源,或者不会产生任何侵犯肖像权、商标权等侵权行为。

例如,Stable Diffusion生成的一些图像似乎带有水印,说明它的原始训练数据集中有一部分图像应该是受版权保护的。

对此,Getty Images、Shutterstock等知名付费图库纷纷封禁AI生成图片,停止接收所有由Stable Diffusion、DALL·E 2、Midjourney等AI模型生成的画作。

与种族、性别歧视相关的偏见,更是AI领域长期以来争论不休的“重灾区”。在国外,很多训练时没有考虑到偏见问题的AI工具,在生成人类形象时,会默认生成欧美白种人、男性形象。

这些问题,都令AI创作在通往落地的路上背负着沉重的枷锁。

长期裹挟在隐私伦理争议中的谷歌,对AI生成工具一直持谨慎态度,基本上都是只发论文公布研究成果,没怎么将AI模型对外开放。

OpenAI也不断改进其安全措施,包括通过从训练数据中删除存在偏见、负面倾向的数据,避免DALL·E 2生成暴力、仇恨、色情、政治类图像。该创企还采用先进技术以及自动化和人工监控系统,来防止AI技术被滥用。

Stability AI创始人Emad Mostaque则不觉得关于模型的负面影响源头是技术的问题,认为技术无好坏,人类的使用方式才分善恶,“当人们心理健康时,好事总是远超任何负面的事,现实中,人们会慢慢习惯这些模型。”

但不管怎么说,在我们尚且无法确保能够引导AI应用走在正道上时,通过法规进行相关行为、用途的约束仍非常必要。

此外,开源在催化AI创作应用热潮的同时,也降低了技术开发门槛,专注于此的企业们如何在特定领域寻找及培养付费意愿强的消费习惯、如何形成长期竞争力,仍有待时间给出答案。

结语:探索AI,需长期主义的坚持

近年来,随着AI泡沫破裂论声势渐长,围绕AI落地商用价值的探讨逐渐占据主流,资本似乎对短期内看不见盈利前景的故事失去了耐心。

但尽管短期内落地进程触达瓶颈,AI的长期价值不应被武断否定。能够改写未来的颠覆式技术,总是需要时间的沉淀。迄今我们仍不知道现有的算法是否会是走向通用AI的正确途径,然而道路虽远,行则将至,如今AI生成内容产业的日趋繁荣,也许能将人们对AI的关注重点与信心拉回到技术范式革新所带来的长远价值。

至少现在,远未到对AI失去期待的时刻。

扫描二维码推送至手机访问。

版权声明:本文由4K智能学习网发布,如需转载请注明出处。

本文链接:https://4k3.cn/post/19357.html

分享给朋友:

“AI作画爆火,捧出多个新晋独角兽” 的相关文章

国产折叠手机似全数国产化,国产面板显抗衡韩国面板的实力

国产折叠手机似全数国产化,国产面板显抗衡韩国面板的实力

华为公布的5G折叠手机接纳京东方供给的OLED面板,其接纳外折叠的编制,另据悉OPPO将公布的折叠手机也接纳外折叠编制,很可能也接纳了京东方的OLED面板,小米的折叠概念机据揣测由维信诺供给,这表示出在折叠手机风潮惠临之时,国产手机企业推出的折叠手机将全数由国产面板企业供给,表示出国产面板企业已具备与韩国面板巨子竞争的实力。 中国面板企业的上风与弱点 截止2018年,中国最大的面板企业京东方已在液晶面板市场居于全球第一名,经由十多年的全力终于获得了这一职位;...

雷军:未来10年,小米就可能不靠手机挣钱了!

2018年,小米公司成功上市,这是小米创立的第8个年头。但是很可惜, 小米上市之后,小米股价的表现是持续低迷。而且整个2018年,小米手机在国内可以说是没有任何的增长,如果不是红米系列在印度大卖的话,估计小米的股价还得持续下跌! 但话又说白了,雷军从创立小米的时候就表示过:没想着靠小米手机来赚钱,毕竟小米手机的利润太低了。 那么问题来了,小米现在都是一家上市公司了,小米需要找到哪些突破点来提升业绩以此给股东们回报呢,原来,雷军为小米制定了Alot这个计划!...

美媒大赞华为OPPO 可折叠手机即将让美国人嫉妒不已

美媒大赞华为OPPO 可折叠手机即将让美国人嫉妒不已

新浪美股 北京时间3月18日讯,美国知名科技媒体TheVerge报道称,美国在手机设计上落后了,可折叠手机就是证明。 今年的世界移动通信大会充满了可折叠设备,从华为时髦的Mate X到小米的三折叠式手机,再到TCL的棱角龙骨铰链设计,再到Oppo的原型机,再到笨重的Royale FlexPai,再到LG有点作弊的V50第二屏幕。 但所有这些设备都有一个共同点:就像最近几波在海外发布的创新手机设计一样,它们在美国不会以任何有意义的方式出现。 从可折叠设备...

华为Mate 20X将发5G版本 低价5G机型随后就来

华为Mate 20X将发5G版本 低价5G机型随后就来

昨天,华为获得了首个德国TÜV 5G手机CE认证证书,华为Mate X将成为德国首款官方认证5G机型。在会后接受媒体采访时,华为高层李小龙还透露了一些新机消息。按照李小龙介绍,华为下一款支持5G的手机为Mate 20X。之所以在Mate X之后选择为Mat...

Moto G7 Plus即将上市 定位中端

Moto G7 Plus即将上市 定位中端

今天,联想手机常程在微博为Motorola G7 Plus做官宣,宣布这款新机即将登陆中国市场。据悉,Motorola G7 Plus已经于2月9日在巴西发布,该系列共有Moto G7、Moto G7 Play、Moto G7 Power、Moto G7...

脑洞大开 国产全面屏全新设计曝光

脑洞大开 国产全面屏全新设计曝光

全面屏时代,为了追求更大屏占比,手机厂商们提出了不同的屏幕设计方案,诸如对称式、刘海屏、水滴屏、打孔屏、可升降镜头、滑盖式等,但包括厂商们在内,大家都认为这不是完美的全面屏解决方案。而屏下隐藏式相机技术又不太完善,距离商用还遥遥无期。现在,有两款中兴新机的...