作者:Wheart
最近一年,随着 AIGC(AI-Generated Content) 技术的发展壮大,越来越多的人感受到了它的恐怖之处。AI 降低了创作门槛,使每个普通人都有机会展现自己的创造力,做出不输专业水平的作品。但是就在全民 AI 作图的进程中,艺术家好像与其站在了对立面。
以 Stable Diffusion 和 Midjourney 为代表的业内巨头经常受到艺术家们的集体抵制!究其原因无非两点:一是这些模型在未经允许的情况下使用艺术家的作品进行训练,做出的图片与艺术家风格极其类似,涉嫌侵权;二是某些传统艺术家认为,AI 只是对图片进行简单的拼接,不能算是艺术,它的滥用导致艺术市场震荡,出现“劣币驱逐良币”的现象。
综合来看,现在的 AIGC 市场就像一个怀揣着炸弹的巨人,外表看过去非常强大,但是内部有尚未解决的致命威胁,如果这个威胁不解除,行业发展终究受限,本文将详细聊聊出现这种情况的前因后果,并给出可能的解决方案。
最近越来越多的画家发现,Stable Diffusion 等 AIGC 模型使用的数据集里有自己的作品,并且这里不乏作者经过数十年的摸索形成的具有自己独特的风格画作,现在人们可以利用 AI 几秒钟生成相同风格的内容,这对艺术家来说显然是不公平的。
这引发了艺术家非常严重的担忧:他们自己的艺术正在被用来训练一个有朝一日可能会影响他们生计的计算机程序。更急迫的是,任何使用 Stable Diffusion 或 DALL-E 等系统生成图像的人都拥有对生成图像的版权和所有权(具体条款会有所不同)。一位插画师对此解释道:人们会使用 AI 生成图书封面、文章插图等内容,这将威胁他们的生计,毕竟站在购买者视角,当你可以免费在 1000 张图里挑来挑去时,为什么要付 1000 美元给创作者?况且这些艺术家都是在不知情的情况下进行的。
对于这个问题,Stability AI 创始人兼首席执行官 Emad Mostaque 表示,艺术只是 Stable Diffusion 背后的 LAION 训练数据的一小部分,艺术类图片占数据集的比例远低于 0.1%,并且只有在用户选择调用时才会创建。但是一些搜索工具收集的数据表明,在世艺术家的很多画作都在数据集之中,几千张画作的情况并不少见。
Craig Wright的“中本聪”身份遭门罗币开发者等人质疑:6月20日消息,近日,一直在比特币基金会担任首席科学家职务的Gavin Andersen在法庭上确认曾经收到Craig Wright(澳本聪)申请比特币基金会工作的邮件。?对此,门罗币开发者Riccardo Spagni发推文质疑:“为什么比特币开创者Craig Wright需要寻求一份比特币基金会的工作呢?”(U.Today)[2020/6/20]
技术是原罪?
这个问题的出现不是偶然,而是必然,也是 AI 发展无法绕开的问题,要想详细了解缘由,我们或许可以通过 AIGC 技术原理与发展路径窥探一二。
AIGC是利用人工智能技术来生成内容。2021 年之前,AIGC生成的主要还是文字(代写文章),而新一代模型可以处理的格式内容包括:文字、声音、图像、视频、动作等等。AIGC 被认为是继专业生产内容(PGC,professional-generated content)、用户生产内容(UGC,User-generated content)之后的新型内容创作方式,可以在创意、表现力、迭代、传播、个性化等方面,充分发挥技术优势。2022 年 AIGC 发展速度惊人,年初还处于技艺生疏阶段,几个月之后就达到专业级别,足以以假乱真。
2014年提出的“对抗生成网络”GAN(Generative Adverserial Network)是前些年大热的深度学习模型,也可以算作AIGC的实用框架(去年年底还是主流的研究内容)。
GAN 的基本原理其实非常简单,这里以生成图片为例进行说明。假设我们有两个网络,G(Generator)和 D(Discriminator)。正如它的名字所暗示的那样,G 是一个生成图片的网络,它接收一个随机的噪声z,通过这个噪声生成图片,记做G(z)。D 是一个判别网络,判别一张图片是不是“真实的”。它的输入参数是 x,x 代表一张图片,输出 D(x) 代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。在训练过程中,生成网络G的目标就是尽量生成真实的图片去判别网络 D。而 D 的目标就是尽量把G生成的图片和真实的图片分别开来。这样,G 和 D 构成了一个动态的“博弈过程”。最后博弈的结果是什么?在最理想的状态下,G 可以生成足以“以假乱真”的图片G(z)。对于D来说,它难以判定 G 生成的图片究竟是不是真实的,因此 D(G(z)) = 0.5。
动态 | 澳本聪Craig S. Wright所获得的美国版权注册没有要求限制,付费即可申请:据悉,澳本聪Craig S. Wright所获得的美国版权注册没有要求限制,只需付25美元填申请表,并且版权局不负责审核真实性,只有在发现敲诈的时候才会有2500美元的罚款。[2019/5/21]
这样我们的目的就达成了:我们得到了一个生成式的模型G,它可以用来生成图片。
但是 GAN 有三个不足:一是对输出结果的控制力较弱,容易产生随机图像;二是生成的图像分别率较低;三是由于 GAN 需要用判别器来判断生产的图像是否与其他图像属于同一类别,这就导致生成的图像是对现有作品的模仿,而非创新。因此依托 GAN 模型难以创作出新图像,也不能通过文字提示生成新图像。
在 2021 年,OpenAI 团队将跨模态深度学习模型 CLIP(Contrastive Language-Image Pre-Training)进行开源。CLIP 模型能够将文字和图像进行关联,首先收集4亿未清洗的图像+文本pair的数据集,进行预训练以完成任务。用对比学习目标进行训练:分别对图像和文本编码(文本是一整句话),然后两两计算cosine相似度,再针对每个图片的一行或文本的一列进行分类,找出匹配的正例。每个图像都有32,768个文本候选,是SimCLR的两倍,负例个数的增多也是效果好的原因之一。在预测时也很简单,找一个图像分类的数据集,把label转为自然语言,比如“狗”可以转为“一张狗的照片”。再用预训练好的编码器对label和图像编码,再去计算相似度即可。
算法的总体过程可以总结为:输入图片,预测在32768个随机采样的文本片段集中,哪一个实际上与数据集配对。因为是文本描述不是具体的类别,所以可以在各种图像分类任务上进行zero-shot,其中Zero-Shot是一种迁移学习,描述一只斑马,可以用“马的轮廓+虎的皮毛+熊猫的黑白”,生成新的类别,普通的有监督分类器都可以将马、老虎、熊猫的图片正确分类,但遇到没有学习过的斑马的照片却无法分类,但是斑马却和已分类的图像有共同点,可以推理出这一新的类别。
动态 | 推特用户satoshi被怀疑与Craig Wright有关:据bitcoinexchangeguide报道,名为/img/20221124231049/2.jpg" />
随后出现的 Diffusion 扩散模型,则真正让文本生成图像的 AIGC 应用为大众所熟知,也是2022 年下半年 Stable Diffusion 应用的重要技术内核。
扩散模型的灵感来自于非平衡热力学。定义了一个扩散步骤的马尔可夫链(当前状态只与上一时刻的状态有关),慢慢地向真实数据中添加随机噪声(前向过程),然后学习反向扩散过程(逆扩散过程),从噪声中构建所需的数据样本。
声音 | Craig Wright:吴忌寒从未与ABC保持一致:据AMBCrypto消息,最近在比特币极限主义者Tone Vays主持的一个视频上,比特币中本聪的BCH区块链视觉实施的忠实信仰者Craig Wright谈论了即将到来的BCH硬分叉及相关问题。Craig Wright首先表达了他与吴忌寒的关系,他说道:“我和吴忌寒从来就不是好朋友......吴忌寒从没有与ABC保持一致”。他还谈到他已经计划了一条尝试将BTC扩大的路子,并表示自己不想要一年前发生的分离,他补充道:“不幸的是,我们已经和吴忌寒讨论了这一切,并认为他将支持和想要扩大,但是我们发现,那个时候吴忌寒低估了这一切。吴忌寒实际上想要分离,他不想要分叉。所以,一年前发生在BTC上的——BCH分离部分其实是吴忌寒需要的一种Segwit和允许ASIC提升的延展性修正的形式。”[2018/11/12]
前向过程是不断加噪的过程,加入的噪声随着时间步增加增多,根据马尔可夫定理,加噪后的这一时刻与前一时刻的相关性最高也与要加的噪音有关(是与上一时刻的影响大还是要加的噪音影响大,当前向时刻越往后,噪音影响的权重越来越大了,因为刚开始加一点噪声就有效果,之后要加噪声越来越多 )
逆向过程是从一个随机噪声开始,逐步还原成不带噪音的原始图片——去噪并实时生成数据。这里我们需要知道全部的数据集,所以需要学习一个神经网络模型(目前主流是U-net + attention结构)来近似这些条件概率,来运行反向扩散过程。
Diffusion 模型有两个特点:一方面,给图像增加高斯噪声,通过破坏训练数据来学习,然后找出如何逆转这种噪声过程以恢复原始图像。经过训练,该模型可以从随机输入中合成新的数据。另一方面,Stable Diffusion 把模型的计算空间从像素空间经过数学变换,降维到一个可能性空间的低维空间里,这一转化大幅降低了计算量和计算时间,使得模型训练效率大大提高。这算法模式的创新直接推动了AIGC技术的突破性进展。
自称是比特币“创始人”的Craig Wright被起诉盗取已故IT专家超百亿美元比特币遗产:据coindesk,澳大利亚企业家Craig Wright近日被起诉盗取已故IT专家Dave Kleiman超过110万枚比特币的所有权。Kleiman的兄弟Ira Kleiman代替其提出诉讼,他的律师认为这些比特币价值超过100亿美元。同时Craig Wright还被指控扣押Kleiman的区块链技术的知识产权。Dave死后,Wright伪造了一系列合同将Dave资产转移进自己公司。此前,Craig Wright曾宣称自己是比特币发明者中本聪。[2018/2/27]
漏洞!
通过以上算法简介大家也可以明白,AIGC本质上就是机器学习,既然是这样,那就无法避免使用大量的数据集执行训练,在这之中确实存在损害图片版权者的利益。
虽然我们都知道这种情况的存在,但是仍然很难解决。
对于艺术家来说,虽然认为这些平台侵害了自己的权益,但是现在仍没有完善的法律规定此类侵权行为,甚至在某些法律条文中,这种行为是合法的。
一方面,AIGC难以被称为“作者”。著作权法一般规定,作者只能是自然人、法人或非法人组织,很显然AIGC不是被法律所认可的权利主体,因此不能成为著作权的主体。但AIGC应用对生成的图片版权问题持有不同观点,图片属于平台、完全开源还是生成者,目前尚未形成统一意见。
另一方面,AIGC产生的“作品”尚存争议。传统意义上的作品是指文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果。AIGC的作品具有较强的随机性和算法主导性,能够准确证明AIGC作品侵权的可能性较低。同时,AIGC是否具有独创性目前难以一概而论,个案差异较大。
即使现在把自己的作品从数据集中删除也无法阻止自己风格作品的生成,首先,AI 模型已经过训练,对应风格已经掌握。而且,由于 OpenAI 的 CLIP 模型(于训练 Stable Diffusion 以理解文字和图像之间的联系),用户仍然可以调用特定的艺术风格。
对于AI项目方来说,让数据集每张图片都得到授权是不现实的,如果此类法案通过,那么 AI 行业的发展将受到很大的阻碍,或许是灭顶之灾。所以我们需要一个折中的方案。
方案
首先我们来分析一下AIGC行程的创作闭环:
在创意构思方面,AIGC构建了新的创意完善通路,传统的创作过程中消化、理解以及重复性工作将有望交由AIGC来完成,最终创意过程将变为“创意-AI-创作”的模式。
在创意实现方面,创作者和AIGC的关系类似于摄影师和照相机。摄影师构建拍摄思路并进行规划,对相机进行参数配置,但是不用了解相机的工作机制,一键生成高质量的内容。同样的,创作者构思并进行规划,对AI模型进行参数配置,不需要了解模型的原理,直接点击输出内容即可。创意和实现呈现出分离状态,实现过程变为一种可重复劳动,可以由AIGC来完成,并逐步将成本推向趋近于0。
所以这里有两个大主体:创作者和 AIGC。创意重要,创作同样也重要,AI做出的图片是创作者的“创意版权”,是AIGC或者说采用艺术家风格的“底层创意/创作版权”,两者都应该对生成内容享有权益,现在的情况就是少了艺术家的那份收益。
其实艺术家并不是不让 AI 学习他们的画作,只是也想在其中得到相应的收益,所以只要这份设计得到艺术家的承认,AIGC 的漏洞就得以修复。
创作者的成果是 AIGC 学习的对象,但创作者的创意才是关键,创意本身比AIGC生成的绘画更有价值,因此如何将创作者的“创意”进行量化,甚至定价,将有助于打造AIGC的商业模式。这其中“注意力机制”将成为 AIGC 潜在的量化载体。例如有机构专家提出,可以通过计算输入文本中关键词影响的绘画面积和强度,我们就可以量化各个关键词的贡献度。之后根据一次生成费用与艺术家贡献比例,就可以得到创作者生成的价值。最后在与平台按比例分成,就是创作者理论上因贡献创意产生的收益。
例如某AIGC平台一周内生成数十万张作品,涉及这位创作者关键词的作品有30000张,平均每张贡献度为0.3,每张AIGC绘画成本为0.5元,平台分成30%,那么这位创作者本周在该平台的收益为:300000.30.5*(1-30%)=3150元的收益,未来参与建立AI数据集将有望成为艺术家的新增收益。
但是以上设计也有缺陷,因为AI并不完美,并不是每张图片都有价值,所以这里优化方案可以是生成时不向艺术家付款,而有满意的内容想要下载时,才需要支付相应的费用。这也与传统的艺术创作领域流程相似,甲方下单,乙方提供满意的作品时,甲方支付所有款项。
为了让流程更加合规,更完美的做法是首先向全球艺术家公开风格库,每个艺术家都可以选择是否将自己的作品内容加入训练集图库中,如果加入则可以在其他用户创作对应风格时获得相应收益,这也是在另一方面为艺术家寻求新的收益途径。在市场上“侵权”行为如此多的背景下,此“正版授权”图库定会受到艺术家群体的支持,这种模式才更类似于正向循环,也是更良性的模式。
Web3?
Web3 一直在强调“创作者经济”,这与 AIGC 想要解决的问题不谋而合,利用区块链技术,完全可以打造一个围绕 AIGC 的生态网络。
创作者通过 AICG 的赋能,加上 Web3 模式下的经济模型,可以将自己的创意和影响力进行指数级的放大。也让更多的人能实现从消费到参与、从用户到所有者的转变。同时艺术家可以得到他赢得的收益份额,达到一个双赢局面。
其实 Web3+AI 并不是一件新鲜事,生成式艺术 NFT 领军者 Art Blocks 就是一个成功的应用案例。(虽然算法不同,但是仍旧是异曲同工)
Art Blocks是一个生成随机艺术品的平台。它是由 Erick Snowfro 在 2020 年推出,是一个专注于可编程、生成性内容的平台,其生成的内容在以太坊区块链上是不可改变的。那么「随机艺术品」是如何随机的呢?这个随机过程是受一串数字控制的,这串数字存储在以太坊链上的一个非同质化代币(NFT)上。之后这个代币所存储的数字串控制你所购买艺术品的一系列属性,最终生成属于你的独一无二的艺术品。
如果你是一个买家,比较看好某个艺术家的风格,然后支付后开始铸造,算法生成随机的同风格的艺术品就会被发送到你的账户中,以代币的形式存在,最终的作品可能是静态图像、3D 模型或交互式的艺术品。每个输出都是不同的,并且在平台上创建的内容类型具有无限种可能性,但每个项目可铸造的艺术品的数量是一定的,也就是说一旦铸造满了,这个项目就不会有新的作品生成了。
对于创作者:他们需要预先在 Art Blocks 上调整和部署好自己的生成艺术脚本,并确保它的输出结果与输入的哈希值有关。这个脚本会通过 Art Blocks 存储在以太坊链上。
对于收藏者:当收藏者铸造某一系列的作品(你可以理解为点击购买按键时),他们实质上获得了一个随机的哈希值,然后脚本执行,一副对应这个哈希值的生成艺术作品当场被创作出来。
这种模式让收藏者也参与了生成艺术的创作。
这副作品的内容,实际上是由原艺术家的风格、生成算法和你的铸造时机三者决定。工具、创作者和买家联合完成了这样的作品,这种新的 NFT 创作模式让这幅艺术品拥有了更多的纪念价值,留下了当下最新技术的印记。
和购买主流的 NFT 头像项目不同,在 Art Blocks 上购买 NFT 更像是在直接支持一位艺术家——这些艺术家往往是实名的,有大量的历史作品,并且 Art Blocks 会对他们进行作品相关的深度采访。Art Blocks 上初次出售的NFT,艺术家可以获得 90% 的收入,剩下的 10% 分给 Art Blocks。
所以大家可以发现,Art Blocks 简直是给 AIGC 开辟了一条“康庄大道”,当然这条路并不完能粘贴复制,但是在细节方面对其修改完全可以成为 AIGC+Web3 的商业闭环!而且现在也已经有项目在做类似的事情。
正是因为有那么多先行者探路,我们有理由相信 AIGC 将会走的越来越远,现在的缺陷也将慢慢修补完善。
金色早8点
比推 Bitpush News
Foresight News
PANews
Delphi Digital
区块链骑士
深潮TechFlow
链捕手
区块律动BlockBeats
DeFi之道
在 2022 年,如果不碰到“元宇宙”一词,就很难行动。继 Facebook 在 2021 年底更名之后,几乎每个公司都渴望让我们了解他们对数字世界的愿景,让我们可以在一个虚拟平台上工作、娱乐和.
1900/1/1 0:00:00城市的出现,是人类文明繁荣的标志。随着AI技术蓬勃发展,元城市建设也被各国提上了日程。2022年9月2日,以“数智元城 贯通未来”为主题的2022世界人工智能大会国际AI城市论坛在上海正式举行.
1900/1/1 0:00:00文/William M. Peaster,Bankless贡献者;译/金色财经xiaozou在过去几年里, DeFi的活动中心一直是以太坊,同时还扩展到了以太坊虚拟机(EVM)链.
1900/1/1 0:00:00原文:《BAYC 地板价跌破 50E,BendDAO 清算风暴再度来袭?》作者:angelilu,Foresight NewsBendDAO 中 28 个 BAYC 进入清算.
1900/1/1 0:00:00原文:The Crypto Winter of 2022撰文:Megan Dyamond编译:0x11,Foresight News? 图片来源:由无界版图 AI 工具生成.
1900/1/1 0:00:00严监管能否避免此类悲剧重演?FTX 地震的余波正在一波波向全球蔓延。除了已知的 FTX 存在的 80 亿美元资金缺口,受波及的还有与 FTX 和 Alameda 相关联的100 多家企业,FTX.
1900/1/1 0:00:00