当前位置:首页 > 科技 > 正文内容

人类忙着卷来卷去的时候,AI已经完成了近几年最大的一次进化

cytd2022-10-27 15:35科技1960

有很长一段时间,AI(人工智能)这个词变得没那么让人兴奋了。

人们已经躲不开它,但同时也发觉,无论是AI的技术演进还是商业应用,似乎都遇到了瓶颈。人们有很多年没再体验到AlphaGo那样的惊艳,业界也没再经历像语音助手普及那样的商业机会,甚至许多投资人也只是在实在没什么新鲜故事时,才不情愿的又转身回头看起了AI的机会。

不过,就在这个全人类都忙着卷来卷去的2022,AI却正在经历一次近年来最大的一次进化。

AI突然翻红

就在10月18号,因为推出 Stable Diffusion 文本-图像AI生成模型而大火的人工智能公司 StabilityAI 宣布完成1.01亿美元的种子轮融资,让整个公司估值达到10亿美金,成为所谓“独角兽”企业。这距离 StabilityAI 成立仅有两年时间。



!
也想出现在这里? 联系我们
首页广告区块

即便以科技互联网产业发展的标准看,StabilityAI 的成长速度也是惊人的,这种速度是2022年以来全球AI产业爆发式增长的一个缩影,此刻距 StabilityAI 旗下的 Stable Diffusion 开源模型风靡全球尚不足2个月。

这种疾风骤雨的突飞猛进堪称一场真正的革命,尤其在全球经济预期转弱的大背景下。

同所有的革命一样,这场AI革命也不是一夜之间完成的。

一直以来人们都有一个梦想,即借助人工智能AI技术来拓展现有人类智慧、知识和创造力的边界,但人脑复杂结构带来的学习能力远超人类构建AI的能力,于是AI只能通过各种特定深度学习模型来单点突破某些特定领域,比如 alphaGO 用来学习围棋,又比如通过天文大数据帮助寻找脉冲星候选体。

而AIGC,即基于AI能力的内容创作(包括文字、图片和视频等等)也是其中一个重要类别,2022年之前,囿于核心技术的局限性,这个领域一直不温不火,因为AI并没有点石成金的法术,它不具备人类凭空创造的能力。AI的“深度学习”训练并不是拥有自我意识的自主学习,是通过收集大量样本让AI从海量数据中总结规律,再根据人类的指令,基于规律进行内容再生产的过程,它同时受核心算法、硬件条件、数据库样本等多方面的限制。



在2022年之前,AIGC领域使用最多的算法模型名为对抗生成网络 GAN (Generative adversarial networks),顾名思义就是让AI内部的两个程序互相对比,从而生成最接近人类心目中的正确形象。但这个算法有一个严重问题,由于程序互相对比的标准是现成的样本,因此生成的内容实质上是对现有内容无限逼近的模仿,而模仿,意味着它无法真正突破。



GAN的缺点被最终被 diffusion 扩散化模型克服,它正是今年以来陆续涌现的包括 Stable Diffusion 开源模型在内的诸多 AIGC 图片生成模型的技术核心。

diffusion 扩散化模型的原理类似给照片去噪点,通过学习给一张图片去噪的过程来理解有意义的图像是如何生成,因此diffusion 模型生成的图片相比 GAN 模型精度更高,更符合人类视觉和审美逻辑,同时随着样本数量和深度学习时长的累积,diffusion 模型展现出对艺术表达风格较好的模仿能力。



从今年初引起广泛关注的 Disco Diffusion ,再到 DALL-E2、MidJourney 等模型都是基于Diffusion模型,而拿到融资的 Stable Diffusion 是其中最受欢迎的。由于 StabilityAI 对科技社区氛围的拥护和对技术中立原则的认同,Stable Diffusion 主动开放了自己的源代码,不仅方便人们部署在本地使用(普通消费级显卡既能满足 Stable Diffusion 的硬件要求),还带来了魔术般的用户体验:打开网址,输入你想要画面的关键字,等待几分钟,模型就会生成完成度非常高的图片作品。普通人使用最尖端AI技术的门槛因此被降到最低,上线以来,仅通过官方平台 DreamStudio 制作的生成图片就超过1.7万亿张。



AIGC沉寂许久的革命火种,瞬间燎原。

绚烂的蓝海

以 StabilityAI 为代表的的AIGC图片生成模型在如此短的时间内发展到极为成熟的地步,预示着它从比较传统的设计绘图、插画、游戏视觉,电子商务等领域到大热的元宇宙和虚拟现实技术都拥有巨大的发展潜力。



想象一下,在未来的VR/AR虚拟世界里,你脑海中想到的画面可以借助ai生成技术实时渲染出来,这将会对人们娱乐和获取信息的方式产生怎样的颠覆?

但这不是市场在如今经济大环境极为低迷之际为AI投下赞成票的全部原因,广泛的商业潜力固然吸引人,但更值得投入的是AI技术本身。这场革命还未完结,它的下一篇章已经向人们走来。

那就是生成视频。

从本质上讲,视频是连续的静态图像,随着 ai 图片生成技术的日益成熟,许多人都把目光投向生成视频领域,9月以来,Meta 和 Google 先后公布了自己在这一 AIGC 最前沿领域的最新成果。

Meta 的模型名为Make-A-Video,通过学习大量文本-图像组合样本数据和无文本标记的视频来理解真实世界中物体的运动逻辑,Make-A-Video能够初步在构建图像的基础上让图像动起来,同时拥有理解三维物体立体结构的能力。



名为 imagen video 的模型则通过被称为联级扩散系列模型的方法生成视频。也就是先通过基础扩散模型生成分辨率较小的视频,然后再通过一系列时间、空间超分辨率模型提升视频的分辨率和帧数。



横向比较来看,imagen 的视频分辨率(1280X768 )高于Make-A-Video,时长也略长一些。



但突破还不止于此,另一个名为 Phenaki 的AI视频生成模型(也来自Google团队)公布了其能够根据文本内容生成可变时长视频的技术,也就是说 Phenaki 有从文本中提炼理解故事情节并将其转化为视频的能力。

公布的demo中,Phenaki 基于几百个单词组成的一连串有前后逻辑关系的文本指令生成了一段2分多钟的连贯视频,这种充满镜头感、丰富情节和转场的故事片雏形假以时日势必对未来整个视频行业,包括短视频、电视电影等产生广泛冲击。



生成视频模型尚在起步阶段,在具体运动的细节、画面精细度、不同物体和人的互动等方面尚显稚嫩,从分辨率到画质上也有浓浓的“人工智能”痕迹,然而回想AI图片生成模型同样经历了从全网群嘲到逆袭的过程,后之视今亦犹今之视昔,谁又能说这未尝不是AIGC革命下一个高潮即将来临的预言?



剧变带来的争议

剧烈的变化总是伴随着争议,以 Stable Diffusion 为代表的AIGC革命“图像阶段”也是如此,我们试着将其归纳为下面几个问题并做出初步回答。

(1)AI生成内容的版权问题该如何界定?

中国的著作权法中规定只有自然人或组织可以被认定为作者,因此ai生成内容并没有享有著作权的实体。如果没有更多协定约束,AI生成内容可以被任意使用,包括商业使用在内。Midjourney、Dell-e等都明确表示用户拥有自己生成作品的所有权。





值得一提的是,很多AI生成技术深度学习训练所使用的数据库中可能包含了侵权内容,但因此导致用户生成内容侵权的可能性非常低,因为生成内容本身是充满高度随机和不确定性的,即使陷入版权争议,举证过程也会极为困难。

(2)AI生成内容是否具有艺术性?如果有,该如何评价与界定?

AI生成内容的艺术性在半年之前还是个看着有些无聊的问题,但在《歌剧院空间》作品获奖后,人们开始越来越多的谈论它。



总的来说,AI生成的内容并不是自己创造的,它受自身模型算法和数据库样本容量影响,这也是许多人声称ai生成内容“没有灵魂”的原因。

然而仅仅把AI生成技术看做纯粹的工具也是不公平的,因为它不仅可以模仿,而且算法和样本一同提供了现有人类所不能完全提供的创作视角。



现有的AI生成图像技术已经让人们参与图像创作的门槛变得无限低,因此对生成作品的艺术性鉴赏或许应该从更细分的角度入手,正如 NFT 之于传统艺术品一样,它的价值需要经过市场的检验,而艺术品市场对此正处于理解和接受的初级阶段。

(3)AIGC革命的“图像阶段”对图像工作者和艺术创作者来说意味着什么?

随着AI生成技术“民主化”,未来中低端绘画内容和它的市场会被AI代替,这意味着大批腰部及以下的图像工作者、插画师、设计师等会失去现有工作。

随着AI生成图像内容越来越丰富和逼真,它们也正在根本上解构着商业图片库赖以生存的运营模式——如果图片可以自己生成的话,谁还要花钱买图呢?



但AI生成技术同样拓展了人们对绘画工具能力的理解。对艺术创作者来说,AI生成技术将有利于他们基于自身理念(而不是技法)创造更多维度,更具创造性的作品。

未来将会是创作者创造力的比拼,因为AI“消除了外行表达创造力的障碍。”(比约恩·奥姆所说,他的团队开发出了 Stable Diffusion 最初的基础算法。)



(4)AI生成内容应该如何监管,如何防止虚假信息和不适宜信息的传播?

秉持技术中立态度的研究者例如 StabilityAI 会尽量减少对内容的控制和干预。他们认为一个开放和充分讨论的社区将会逐步形成对信息内容传播的监督机制。

“使用者自己需要为如何使用这项技术负责,这包括道德和法律上的合规性。”Stability AI 公司 CEO Emad Mostaque 曾在采访中如此表示。



与此同时,尽管深度学习所用到的数据库经过了严格的筛选,屏蔽了色情、暴力、恐怖等内容,但有关社会刻板偏见、种族歧视等内容尚无法从技术上完全消除,更重要的是,关于如何界定所谓偏见在伦理学上仍然是一个颇受争议的问题。正因如此,Google 决定在排除相关风险前推迟公开发布 imagen video 模型,而许多已发布的模型选择为其生成作品加上不可去掉的水印来避免潜在争议。

AIGC革命如火如荼进行中,它不是将来时,而是进行时。我们已经身处其中。

现在就是未来。

扫描二维码推送至手机访问。

版权声明:本文由4K智能学习网发布,如需转载请注明出处。

本文链接:https://4k3.cn/post/19533.html

分享给朋友:

“人类忙着卷来卷去的时候,AI已经完成了近几年最大的一次进化” 的相关文章

为什么现在的智能手环的价格会参差不齐,它们功能上会有区别吗?

为什么现在的智能手环的价格会参差不齐,它们功能上会有区别吗?

自从手机的蓝牙功能被研发出来之后,使用的规模是越来越广了,从最后的用来手机和手机直接传输数据,到如今可以用蓝牙毗连良多设备,使得我们不消再像曩昔那样凭数据线毗连了,比如我们用的蓝牙耳机、蓝牙音箱这些,尤其是蓝牙耳机,可以使我们解脱有线耳机所带来的困扰。 此后,为了使用户体验到更温馨的功能,于是就有厂商别出机杼的设计出了一款和手表近似的产物出来,这就是我们如今熟悉的智妙手环了,各类智妙手环之间的功能,根基都是差不多的,可以记实本身的轨迹,信托一些爱好跑步的小伙伴...

国产折叠手机似全数国产化,国产面板显抗衡韩国面板的实力

国产折叠手机似全数国产化,国产面板显抗衡韩国面板的实力

华为公布的5G折叠手机接纳京东方供给的OLED面板,其接纳外折叠的编制,另据悉OPPO将公布的折叠手机也接纳外折叠编制,很可能也接纳了京东方的OLED面板,小米的折叠概念机据揣测由维信诺供给,这表示出在折叠手机风潮惠临之时,国产手机企业推出的折叠手机将全数由国产面板企业供给,表示出国产面板企业已具备与韩国面板巨子竞争的实力。 中国面板企业的上风与弱点 截止2018年,中国最大的面板企业京东方已在液晶面板市场居于全球第一名,经由十多年的全力终于获得了这一职位;...

无AI不智能,哈弗F7x引领智能轿跑SUV新潮流

无AI不智能,哈弗F7x引领智能轿跑SUV新潮流

尤瓦尔.赫拉利在《未来简史》里对人类的未来做出了大胆的猜想。他认为,未来的世界是人类与AI并行的世界。AI(人工智能)就其本质而言,是对人的思维的信息过程的模拟,让机器能够像人一样思考、感受和认识世界,是人工智能科学家们孜孜以求的终极目标。曾经有人说过:"以虚拟的网络系统或实体现身的 AI 机器人们,一边宣告着未来已来,一边愈来愈深且广地改写着我们的现在时。"从下围棋的"阿尔法狗"、写诗的微软"小冰"、到写文案的"莎士比亚",AI机器人的横空出世,让人们更直观的感受...

努比亚自曝红魔3:更轻电池更大

努比亚自曝红魔3:更轻电池更大

近日,努比亚智能手机总经理倪飞在微博上自曝了即将发布的新机红魔3,这是一款内部搭载有风扇主动散热方案的游戏手机。这一消息公布后,有不少网友都认为红魔3的体积可能会比较大,毕竟内部想要塞入一颗风扇势必会让设计变得更加困难,增加体积可能是唯一的途径。好消息是,...

315焦点:究竟啥是性价比?

315焦点:究竟啥是性价比?

2019年3月11日晚间,OPPO副总裁沈义人突然在微博发声,表示“性价比是个伪命题,我只相信一分钱一分货”。此言一出,立刻引来了许多网友的激烈反应,而沈义人更是直接表示,指称对方并不明白手机行业的许多潜在成本差异。客观地说,作为业内媒体,我们当然很能明白...

绝对不降价 苹果印度重回高端路线

绝对不降价 苹果印度重回高端路线

此前,苹果公司的代工厂纬创获准在印度新建一家生产工厂,这一做法可以帮助苹果规避当地对进口产品征收的高关税,进而控制高定价,提升iPhone的市场竞争力。虽然2018款iPhone的销量没有前代好,但苹果公司并未打算通过价格手段来挽回市场。有消息称,苹果印度...