摘要
本文将探讨人工智能技术的发展对人类的影响,以及人类应该如何面对这些技术。第一章将讨论以NovelAI为代表的AI绘画技术与人类画师之间的竞争,分析其中的原理和影响,并且挖掘其中两者合作的可能性。第二章将讨论基于最新GPT-3.5模型的ChatGPT,根据各种对话测试结果分析它现阶段的能力,并预计它未来的发展方向。第三章将会作总结,结合人工智能的发展历程和现如今的发展大势,以总结AI和人类之间的未来。
关键词
关键词:人工智能 AI绘画 GPT 竞争 互助
绪论
2022年10月,随着NovelAI的模型被黑客盗取并泄露,在互联网上首先掀起了一阵AI绘画的热潮。如今包括NovelAI在内的AI绘画实现大多基于7月发布的Stable Diffusion模型,一种最新的扩散算法模型。它使得AI绘画突破了在创作能力上的瓶颈,而相应的由AI完成的绘画作品也开始大批出现。ChatGPT由OpenAI在2022年11月末正式推出。它使用基于GPT-3.5架构的大型语言模型,以对话方式进行交互,并以此获得数据通过强化学习进行训练。事实上,chatGPT所具备的功能已经远远超出了简单的对话,因而再一次刷新了人们对于AI能力的认知。那么,随着AI技术的不断迭代升级,作为人类,又该当何去何从?
NovelAI:AI与人类之间的竞争
AI绘画在经历了多次技术迭代后,在2022年正式开花结果,诞生出了以NovelAI为代表的一批AI绘画程序和海量的作品。但是随之而来的,AI绘画也同样饱受着来自各界人士的争议和攻击,似乎AI绘画生来就是为了和人类画师进行竞争的。
质量之争
2022年4月开始内测,基于Discord bot的MidJourney亦是今年AI绘画界的主流程序之一。而在2022年8月,杰森·艾伦(J.Allen)在科罗拉多州博览会艺术比赛中以MidJourney生成的作品《太空歌剧院》(Theatre Dopera Spatial)取得了第一名的成绩。科罗拉多州博览会主办方在得知该作品为AI所作后,也并没有取消艾伦的参赛资格和奖牌。大赛评委表示即使他们事先知道,同样也会授予艾伦最高奖项。这个结果首先证明了AI绘画在完成质量上已经能够超越大部分人类画师;其次也证明了AI绘画所完成的作品质量已经能够得到权威的认可。[1]
AI绘画的质量得以在今年取得重大突破,主要归功于新一代扩散算法模型,也就是Stable Diffusion的推出。Diffusion扩散算法提出于2015年,其核心思想是将作为训练集的图画不断添加白噪点,记录并逆向整个过程使AI学习。由此绘画的整个过程被简化成了AI更加容易理解的去噪过程,从而避开了一些数学上比较难以达成的限制条件。Stable Diffusion模型支持通过使用提示词来产生新的图像,描述要包含或省略的元素,以及重新绘制现有的图像,其中包含提示词中描述的新元素。该过程通常被称为“指导性图像合成”(guided image synthesis),通过使用模型的扩散去噪机制(diffusion-denoising mechanism)。此外,该模型还允许通过提示词在现有的图中进内联补绘制和外补绘制来进行部分更改。[2] [3]
但是从现阶段的大部分作品来看,通过AI所完成的画作仍然具有普遍的质量问题。最典型的包括手脚等肢体部位的处理异常;对于用户输入的提示词(prompts)和提示图片也存在理解不到位的情况。但是考虑到AI绘画仍然处在快速发展的阶段,这些问题有些将能通过模型的迭代得到优化,有些也能由用户自行控制,比如输入限制条件(negative prompts)来得到解决。总的来看,虽然AI绘画仍然无法撼动顶尖画手的地位,但是对于中低端画手,尤其是初入行业的画手来说,AI绘画已经极大影响了他们的生存空间。
效率之争
2022年10月12日晚上11点,插画师@haruno_intro完成了长达11个小时的全程绘画过程直播。但是这位作者并没有想到的是,在他最终发布成品的5个小时之前,一位名为@musaishh的用户已经在推特上发布出了一幅与@haruno_intro的画作高度相似的作品。而事实证明,这幅作品正是@musaishh通过在直播间对半成品画作进行截图,再通过NovelAI最终生成的。[4]
除开这起事件中@musaishh的所作所为,只看AI的成果,毋庸置疑可以确认AI绘画有着比人类画师更高的完成效率。即便就这起事件中来看AI完成的作品无论是阴影氛围还是纹理质感都远远不及插画师@haruno_intro,但是更高的效率意味着AI可以凭借更大的产出来减少单张作品质量的缺陷。MidJourney在输入一次提示词后可以同时生成四幅图像,随后用户可以选择在某一张图像的基础上继续创作四幅新的图像,或是针对这一张图像进行细化。NovelAI则视设备性能的不同,用户也能选择一次同时生成6-10张以上的成品供挑选并由此进一步创作或细化。如此一来,借助用户人工剔除低质量作品保留高质量作品,AI的作画效率同时也成为了提升质量的利器。
市场之争
由前文所提及的,AI在质量和效率上的巨大进步已经强烈冲击了传统的客户-画师之间的约稿市场,尤其是中低端市场。对于对质量没有苛刻需求的用户而言,AI绘画能够在大大节约财力和时间成本的同时完成相当于或者高于大部分中低端画师的作品。诸如独立游戏开发者这类财力,人力都比较紧张的客户来说,AI绘画的快速发展无疑是一个福音。
即便Stable Diffusion本身已经配置了GUI可以供用户进行prompts的输入和各种参数的调节,但是全英文的界面和诸多的参数调节框所针对的受众自然也是更偏向于那些愿意付出时间和耐心来研究和调节的专业用户的,而非普通大众。因而,谁能解决这个问题,将AI绘画带出圈,谁就能开辟出一个新的市场。今年以来,多个互联网巨头与行业头部企业纷纷加大AI绘画项目投入。其中,百度推出AI作画产品“文心一格”,抖音上线AI绘画特效,腾讯上线“QQ小世界AI画匠”活动……[5]据统计国内至少已经诞生了23款独立的AI绘画工具或小程序,而诸如美图秀秀这类软件也开始内置AI绘画功能。可见AI绘画在挤压传统绘画市场的同时,也开辟出了一片新的市场。
版权之争
今年以来,围绕AI绘画的版权问题,其争议也从来就没有停止过。争议的核心,大致可以划分为以下几点:
其一,在未经画师本人的许可下其作品被充当AI的训练集进行训练,这构成了对画师原作的侵权;其二,通过AI绘画产生的作品版权归属不明,无法确定其是否具有版权,即便认为具有版权也难以认定是归属于AI还是归属于操作AI的用户。
针对第一点,持有此类观点的一些是画师本人,也有一些是画师的粉丝。他们中有相当一部分人认为AI绘画的训练和产出过程是将原画师的画简单的进行打碎和重新拼接组合,但是实际上这却是对其原理有着根本的误解。AI学习绘画的流程基于带有结果和输入的客观事实(作为训练集的图片和程序员为每张图片打上的标签,即prompts),分析出每种输入最有可能对应哪种结果并输出,从而写出一本“行动纲要”以供日后参考。而当AI学习完毕,也就是写完了一本针对各种情况的行动纲要时,它就可以被部署了。这是一种基于仿生学的学习方式,也就是说,本质上和人类画师学习绘画的过程是相一致的。人类画师在学习绘画的过程中需要不断临摹前人的作品,那么AI也需要经历同样的过程。与从0开始画一幅作品不同的是,缝合AI要学习的是各个部分的相关性,如何把一部分完整地剪切下来,同时处理拼接处使其平滑。因而在事实上,只会做“简单拼接”工作的AI的实现难度要远大于如今的绘画AI。[6]
至于第二点,借华中科技大学法学院副院长、教授熊琦的观点,对于AI作画,从生成的内容来看,虽然画作水平一般,但不影响独创性判断,可以被视为作品,受到著作权法的保护。对于著作权归属,则要看谁是作品的创作者。目前AI绘画属于AICG,即人工智能生成内容(AI Generated Content)的一个分支。它仍然被视作是辅助创作的工具,而非创作的主体。[7] 但是针对具体的著作权归属学界仍然没有一个清晰的定论。在实际执行中目前只能靠服务提供者和用户之间达成某种契约,比如国内相当一部分的AI绘画小程序在其用户界面已经作了不保留版权的声明。
合作的可能?
程序员开发绘画AI的本意不是消灭中底层画师,而是让这个世界发展的脚步更快,为人们包括自己带来更好的生活质量。从现阶段的发展来看,虽然没有必要对其盲目的追捧,但是也不能一昧的抵制AI绘画所带来的变革。就前文所述,受AI绘画冲击最严重的中低端画手多为对其进行攻击的主力;与此同时,相当一部分的高端画手已经成为了最早一批将AI绘画作为他们自己绘画工具的画师。相比于普通人,他们对画面构成的理解更为深刻,因而在使用各类prompts时能够更加得心应手,从而完成质量更加高出一截的作品。这些作品或是对线稿的的辅助上色,或是简单的收集灵感,但是都证明了AI绘画都有着与人类画师合作的可能性。在Stable Diffusion模型正式开源后,我本人也尝试过去寻找一些和AI作画合作的可能。下面是一些结果的展示:
1.通过一幅粗略上色的输入图,得到输出结果(左为输入的我自己的作品,右为AI输出图)
不难看出AI在光照阴影和衣服纹理质感的处理的完成度上已经远远超过了输入图,不过同样也暴露出了AI现存的一定问题:其一,虽然整体画面结构基本一致,但仍然出现了与原图不符之处(左手的动作);其二,对书本这类方形物品的处理出现了畸形;其三,部分人体细节,如手部、头发末梢等位置的处理依然不到位。
2.通过一个人物形象图,额外输入prompts来获取作画灵感(左一为输入的我自己的作品,右二为AI输出图)
在这一层面上AI所完成的工作还是相当到位的,基本理解了输入图像所包含的人物基本特征,在输出上也没有什么太大的问题,如果只是作为灵感收集的话,理应是够用了。
ChatGPT:AI与人类之间的互助
ChatGPT于2022年11月末正式上线,对所有拥有OpenAI账号的用户开放免费公测,并且同时也开放了可供开发者使用的API调用接口。ChatGPT因为其问题解答功能的即时性和广泛性,再一次在互联网上掀起了热度。一时间出现了大量依赖于其API运行的各类小程序或群机器人bot,使得ChatGPT服务器压力骤增,出现了多次崩溃现象。目前最新一版(Dec 15 Version)已经作了对单个用户1小时内访问数上限的限制,但是这依然不妨碍它成为一个强大的辅助工具。与此同时,随着测试的深入,ChatGPT所包含的诸多问题,也暴露在了世人面前。不过,OpenAI开放免费测试的本意正是通过收集用户与AI的对话数据进一步训练和完善模型,来提升AI的产出质量。所以整个测试的过程既是模型训练成果对人类的回馈,也是人类在继续推动AI进步,我们不妨将这个过程看作为是一种互助。[8] [9]
何为GPT?
GPT的全称为Generative Pre-trained Transformer,即生成型预训练变换模型。GPT属于自回归语言模型,目的是为了使用深度学习生成人类可以理解的自然语言。这一系列的模型可以在非常复杂的NLP任务中取得非常惊艳的效果,例如文章生成,代码生成,机器翻译,Q&A等,而完成这些任务并不需要有监督学习进行模型微调。而对于一个新的任务,GPT仅仅需要非常少的数据便可以理解这个任务的需求给出解答。[10]
GPT至今已经发布了三个大版本,每一版的参数量和训练及规模都呈现出快速的上升趋势。在未来预计将要发布的GPT-4中,参数量将会达到惊人的100万亿。[11]
模型 | 发布时间 | 参数量 | 预训练数据量 |
GPT-1 | 2018 年 6 月 | 1.17 亿 | 约5GB |
GPT-2 | 2019 年 2 月 | 15 亿 | 40GB |
GPT-3 | 2020 年 5 月 | 1,750 亿 | 45TB |
GPT-4 | 计划中 | 100万亿 | 未知 |
代码互助
虽然ChatGPT惊人的代码能力是其一大宣传点之一,但是GPT模型被用在代码处理上却并非其首创。在2021年推出的GitHub Copilot是这一领域的先驱者。不过它所使用的是更早的GPT-3模型,训练集则以GitHub平台上用户提交的代码为主。而ChatGPT使用的则是最新的GPT-3.5模型。训练集则更是涵盖到了整个互联网上的大部分文字资源。
经过我本人的实验,目前GPT模型在代码处理上的能力如下表所示:
功能 | GitHub Copilot(基于GPT-3) | ChatGPT(基于GPT-3.5) |
根据文字需求完成代码 | √ | √ |
根据部分代码补全代码 | √ | √ |
根据代码给出文字解释 | √ | √ |
寻找代码语法错误 | X | √ |
寻找代码逻辑错误 | X | √ |
优化代码中的性能问题 | X | √ |
模拟代码调试 | X | √ |
…… | …… | …… |
可见ChatGPT在代码处理的功能种类上已经大大领先了前辈GitHub Copilot。另外经过测试还可以看出,ChatGPT对于用户需求的理解能力也已经胜过了GitHub Copilot。譬如以去年程序设计基础期末考试的一道递归题作为输入:
左图为GitHub Copilot输出的结果,可见其实它并没有能够理解题目中“递归”的需求。而ChatGPT不仅理解了,并且还完整分析了答题思路,并且给出了带注释的完整代码,其相比于前者的进步程度可见一斑。
但是无论如何,AI在解决代码问题上的应用还算是一种新兴事物,它无法完成对一个复杂需求的功能实现;由于字数限制也很难解决代码量比较大的需求,因而其发展还有很长的一段路需要走。不过,它确实不失为一种解决问题的好工具,尤其是在排查各类代码逻辑错误或者处理各种编译器报错时,可以极大省去在搜索引擎上搜索答案的时间,从而极大节约了时间成本。
写作互助
GPT作为一种语言模型,它既需要能够理解用户输入内容,又需要以文字的形式输出给用户。为了能够了解到现阶段ChatGPT的语言处理能力,我以2022年上海市徐汇区高三英语二模卷作为输入(因为考虑到其训练集多半还是以英语为主),根据其各个题型的得分来判断它在语言理解写作方面的能力。
测试的结果大致如下图所示(仅展示能客观评分的部分):
语法 | 11选10 | 完形填空 | 阅读 | 六选四 | 翻译 | 概要写作 | 总分 | |
得分 | 7 | 10 | 10 | 14 | 8 | 13.5 | 5.5 | 68 |
满分 | 10 | 10 | 15 | 22 | 8 | 15 | 10 | 90 |
得分率 | 0.7 | 1 | 0.66 | 0.63 | 1 | 0.9 | 0.55 | 0.75 |
如果其他分数按照现有得分情况中位数计算的话(听力22分,作文20分),其总分大致在110分左右。作为参考,当时徐汇区全区平均分大致在85分上下,110分的总分大约已经是前列市重点高中的中上游水平。
从得分情况中可以看出,AI答题正确率最高的题型为“小猫钓鱼式”(11选10,六选四)的,此类题因为选项少,可能性少,排错较为容易。并且根据对比完形填空的数据可以发现,AI是在试图理解文章内容的基础上去给出答案的,而不是作类似于搜题软件的数据库比对工作(因为英语模卷文章多选自外刊,之前我认为AI如此解题的可能性较大),所以一旦面对诸如完形填空这种干扰项较多的题型时就容易出现错误。在解决阅读理解和语法填空这类题型时,AI所表现出来的答题情况和人类学生大差不差,个别题目中比较刁钻的坑很难被绕过去。
ChatGPT另外一个表现不错的地方体现在翻译上,就答题结果来看,有两句甚至达到了和标准答案完全一致的程度,其扣分点主要在对关键词使用的不准确上,在实际应用时这种问题是可以忽略不计的。经过多次测试,可以得出的结论时它的翻译能力已经和当今主流的翻译软件Google翻译、DeepL翻译等大致相同。
真正的写作能力方面从测试结果可以看出ChatGPT现阶段对文章的概括能力依然不是很强,主要体现在对关键点的定位和描述出现偏差。但是在命题作文的写作方面,ChatGPT所表现的还是相当得心应手的,无论是语法还是结构都称得上是比较完美的。
总的来看,GPT-3.5已经赋予了ChatGPT极强的文字处理能力,但是它在现阶段并非完美的,事实上,它依然很容易给出一些看上去合理但是实际上错误的输出结果。虽然在几次版本更新中修复了这些问题,但是现阶段它仍然只能作为一种参考工具,而非辅助决策工具。
未来发展
OpenAI首席执行官Sam Altman认为,现阶段通过借助ChatGPT来做任何重要的事情都是错误的。目前它可以被当作一种娱乐性质的软件,但如果渴望ChatGPT能有更大的实用价值,则有些显得过于理想化。作为一款合格的工具是帮助人们减少重复性劳动,而一款好工具是能帮助人们进行决策。而ChatGPT目前能做到的,还处于前者。换言之,它只提供了“情绪价值”,没有提供“商业价值”。
ChatGPT作为一个测试平台,一方面是为接下来将要发布的GPT-4蓄力,一方面也让世人见识到了AI的巨大潜力。在各方面互助的推动下,AI在现阶段呈现出的问题终将被修复,并且势必以一个全新的姿态再一次给世人带来震撼。
总结:AI与人类的未来
自从AlphaGo初次崭露头角,将AI带入到大众的视野中来,这几年我们见证了AI在技术上的不断革新与迭代,并且不断涉入到我们生活中的各个方面领域。如今的AI不断崭露头角,以世人难以想象的速度快速发展着。无论是NovelAI还是ChatGPT,它们不过是整个AI行业发展的一个小缩影,在不久的将来也许越来越多的行业会被AI所取代,AI在人们的决策中也将会扮演起越来越重要的作用。技术的发展在历史上从来就不是线性增长的,而是会在某一个奇点瞬间爆发出来,现如今AI的发展就站在这个奇点之上。面对AI对各行各业的冲击,我们需要做的不应该是主动去抵制新生事物,而是应该在发展的潮流中主动确定自己所处的位置,如此才不至于被时代的洪流所淹没。过去数十年技术革命所带给我们的是不同于当年工业革命时期的,更为强大的信息获取能力和学习能力,所以我们相比于当年因为蒸汽机的诞生而失去工作的工人更有可能顺应时代的发展。倘若人人只着眼于当下,那么技术的发展永远就是滞后的,甚至是止步不前的。
参考与引用
[1] 网络文章:AI智能作图参加比赛,获得艺术绘画第一名!惹怒人类艺术家!_Allen_参赛_杰森·艾伦 (sohu.com)
[2] 维基中文百科词条:Stable Diffusion – 维基百科,自由的百科全书 (wikipedia.org)
[3] GitHub Repository:CompVis/stable-diffusion: A latent text-to-image diffusion model (github.com)
[4] 网络文章:When AI Stole and Finished Your Drawing Then Calls You a Thief — Superpixel
[5] 网络文章:行业巨头布局,从小众走向大众,AI绘画擘画出600亿市场“大蛋糕”_发展_内容_用户 (sohu.com)
[6] 知乎文章:别再说AI画画是缝合了——白话AI作画原理(适用于没有数学和统计学基础的人!) – 知乎 (zhihu.com)
[7] 中国知识产权网 AI作画,版权归谁? – – 中国知识产权网 (cnipr.com)
[8] ChatGPT官网:ChatGPT: Optimizing Language Models for Dialogue (openai.com)
[9] 维基中文百科词条:ChatGPT – 维基百科,自由的百科全书 (wikipedia.org)
[10] 维基中文百科词条:GPT-3 – 维基百科,自由的百科全书 (wikipedia.org)