+
95
-

什么是AIGC?

什么是AIGC?


网友回复

+
15
-

AIGC(AI-Generated Content翻译过来是“人工智能生成内容”),2021年之前,AIGC主要生成文字,2022年新一代模型可以处理的格式内容包括:文字、语音、代码、图像、视频、机器人动作等。

AIGC被认为是继专业生产内容PGC、用户生成内容UGC之后的一种新的内容创作方式,可以充分发挥其在创意、表现力、迭代、传播、个性化等方面的技术优势。

2022年,AIGC以惊人的速度发展。年初还处于技艺生疏阶段,几个月后达到专业水平,足以以假乱真。与此同时,AIGC的迭代速度呈指数级爆发,其中深度学习模型的不断完善、开源模型的推广以及大模型商业化的可能,成为AIGC发展的“加速度”。

一、深度学习模型是AIGC加速普及的基础 视觉信息在网络中一直具有很强的传播力且易被大众感知,具有跨平台、跨领域、跨人群的优势,自然容易被记住和理解。同时视觉信息应用场景广泛,因此生成高质量的图像成为当前AI领域的一个现象级功能。 2021年,OpenAI团队将开源跨模态深度学习模型CLIP(对比语言-图像预训练,以下简称“CLIP”)。CLIP模型可以将文字和图像关联起来,比如文字“狗”和狗的图像进行关联,并且关联特征非常丰富。所以CLIP模型有两个优点: 1、可以同时理解自然语言和分析计算机视觉,实现图文匹配。 2、为有足够多的有标记的“文本-图像”进行训练,CLIP模型大量使用互联网上的图片,这些图片一般携带各种文本描述,成为CLIP的天然训练样本。 据统计,CLIP模型在网络上收集了超过40亿的“文本-图像”训练数据,为AIGC的后续应用,尤其是输入文本生成图像/视频落定奠定了基础。 GAN(Generative Adver Serial Network)虽然是很多AIGC的基础框架,但它有三个缺点: 1、对输出结果的控制能力弱,容易产生随机图像; 2、生成的图像分辨率低; 3、由于需要使用鉴别器来判断生成的图像是否与其他图像属于同一类别,因此生成的图像是对已有作品的模仿,而非创新。所以依靠GAN模型很难生成新的图像,也无法通过文本提示生成新的图像。 AIGC相关深度学习模型汇总表 随后出现的Diffusion扩散化模型,真正让文本生成图像的AIGC应用为大众所熟知,也是2022年下半年Stable Diffusion应用的重要推手。Diffusion有两个特点: 1、在图像中加入高斯噪声,通过破坏训练数据进行学习,然后找出如何逆转这个噪声过程来恢复原始图像。训练后,模型可以从随机输入中合成新数据。 2、Stable Diffusion通过数学变换将模型的计算空间从像素空间降低到一个势空间的低维空间,大大减少了计算量和时间,大大提高了模型训练的效率。这种算法模式的创新直接推动了AIGC技术的突破性进展。 总的来说,AIGC在2022年实现了突破,主要是在深度学习模型上取得了很大的进步:首先基于海量互联网图片训练了CLIP模型,推动AI绘画模型结合创新;其次,Diffusion扩散化模型实现算法创新;最后,利用潜在空间的降维方法降低Diffusion模型内存和时间消耗大的问题。所以,AIGC绘画之所以能帮助大众画出各种充满想象力的画,有赖于大量深度学习模型的不断完善。 二、 “开源模式”成为AIGC发展催化剂

在算法模型方面,AIGC的发展离不开开源模型的推动。以深度学习模型CLIP为例,开源模型加速了CLIP模型的广泛应用,使其成为目前最先进的图像分类人工智能,让更多的机器学习从业者将CLIP模型嫁接到其他AI应用中。与此同时,AIGC绘画最受欢迎的应用稳定扩散(Stable Diffusion)已经正式开源(包括模型权重和代码),这意味着任何用户都可以使用它来建立特定文本到图像的创作任务。稳定扩散的开源直接引发了2022年下半年AIGC的广泛关注。短短几个月,大量二次开发出现,从模型优化到应用扩展,大大降低了用户使用AIGC进行创作的门槛,提高了创作效率,长期占据GitHub热榜第一。

在训练数据集方面,机器学习离不开大量的数据学习。作为全球非营利性机器学习研究机构,LAION于2022年3月开放了最大的开源跨模态数据库LAION-5B,使近60亿个“文本-图像”对可供训练,从而进一步加速了AI图像生成模型的成熟,帮助研究人员加速从文字到图像的模型生成。正是CLIP和LAION的开源模型构建了当前AI图像生成应用的核心。未来,随着模型的稳定,开源将成为AIGC走向成熟的催化剂。源模型有望使相关模型成为海量应用、网络和服务的基础,应用层面的创造力有望迎来拐点。

AIGC发展历程与概念

1950年,艾伦·图灵在论文《计算机器与智能》中提出了著名的“图灵测试”,给出了一种确定机器是否具有“智能”的测试方法,即机器能否模仿人类的思维方式“生成”内容,然后与人进行交互。某种程度上,从那时起,人工智能就被期待用于内容创作。经过半个多世纪的发展,随着数据的快速积累、算力性能提升和算法效力增强,今天的人工智能不仅可以与人类进行交互,还可以进行写作、编曲、绘画、视频制作等创意工作。2018年,人工智能生成的画作在佳士得拍卖行以43.25万美元成交,成为全球首个售出的人工智能艺术品,受到各界关注。随着人工智能在内容创作中的应用越来越多,人工智能生成内容(AIGC)的概念悄然兴起。 一、AIGC 发展历程 结合人工智能的演进,AIGC的发展大致可以分为三个阶段,即早期萌芽阶段(20世纪50年代至90年代中期)、沉淀积累阶段(20世纪90年代中期至21世纪10年代中期)、快速发展阶段(21 世纪 10 年代中期至今)。 1、早期萌芽阶段(1950s-1990s) 受当时科技水平限制,AIGC仅限于小规模实验。1957年,Lejaren Hiller和LeonardIsaacson通过将计算机程序中的控制变量改为音符,完成了历史上第一部由计算机创作的音乐作品——弦乐四重奏《依利亚克组曲》。1966年,约瑟夫·韦岑鲍姆(Joseph Weizenbaum)和肯尼斯·科尔比(Kenneth Colbv)共同开发了世界上第一个机器人“伊莉莎(Eliza)”,可以通过关键字扫描和重组来完成交互式任务。20世纪80年代中期,IBM基于隐马尔可夫模型创造了声控打字机“Tangora”大概能处理两万字。从80年代末至 90年代中,由于高昂的系统成本无法带来可观的商业变现,各国政府减少了在人工智能领域的投入,AIGC也没有取得重大突破。 2、沉淀积累阶段(1990s-2010s) AIGC从实验性向实用性逐渐转变。2006年,深度学习算法取得重大突破。与此同时,图形处理单元(GPU)和张量处理器(TPU)等计算设备的性能持续提升。互联网使得数据规模迅速扩大,为各类人工智能算法提供了海量的训练数据,使人工智能的发展取得了重大进展。然而,AIGC仍然受到算法瓶颈的限制,无法很好地完成创作任务应用仍然有限,效果有待提升。2007 年,纽约大学人工智能研究员罗斯·古德温装配的人工智能系统通过对公路旅行中的一切所见所闻进行记录和感知,撰写出小说《1The Road》。作为世界上第一部完全由人工智能创作的小说,其象征意义远大于实际意义,整体可读性不强,拼写错误、修辞空洞、逻辑缺失明显。2012年,微软公开展示了全自动同声传译系统。基于深度神经网络通过语音识别、语言翻译、语音合成等技术等技术生成中文语音。 3、快速发展阶段(2010s-至今) 2014年以来,随着以生成式对抗网络(GAN)为代表的深度学习算法的提出和迭代更新,AIGC迎来了一个新的时代。生成内容百花齐放,效果逐渐逼真至人类难以分辨。2017年,微软人工智能少女“小冰”推出全球首个由人工智能创作的100%诗集《阳光失去了玻璃窗》。2018年,Nvidia发布的StyleGAN机型可以自动生成图片,现在已经升级到第四代机型StyleGAN-XL,其生成的高分辨率图片,人眼很难分辨真假。2019年,DeepMind发布了生成连续视频的DVD-GAN模型,在草原、广场等清晰场景中表现突出。2021年,OpenAI推出了DALL-E和一年后的升级版DALL-E-2,主要用于生成文本和图像之间的交互内容。用户只需输入简短的描述性文字,DALL-E-2就能创作出相应的高质量的卡通、写实、抽象画。 二、AIGC的概念和内涵 目前,AIGC的概念还没有统一规范的定义。AIGC对国内产学研的理解是“继专业生成内容(PGC)和用户生成内容(UGC)之后,利用人工智能技术自动生成内容的新型生产方式”。国际上对应的术语是“人工智能合成媒体(AI-generated Media 或 Synthetic Media)”,其定义是“通过人工智能算法对数据或媒体进行生产、操纵和修改的统称”。综上所述,我们认为AIGC既是从内容生产者视角进行分类的一类内容,又是一种内容生产方式,还是用于内容自动化生成的一类技术集合。 为了帮助不同领域的受众群体更好地了解AIGC,现在从发展背景、技术能力、应用价值三个方面深入剖析了它的概念。 1、发展背景 AIGC的兴起源于深度学习技术的快速突破和数字内容供给需求的不断增加。 1)技术进步推动了AIGC可用性的提高 在人工智能发展的初期,虽然在AIGC上进行了一些初步的尝试,但由于各种因素,相关算法大多基于预定义的规则或模板,远没有达到智能创造的水平。近年来,基于深度学习算法的AIGC技术快速迭代,彻底打破了模板化、公式化、小范围的限制,可以快速灵活地生成不同模式的数据内容。 2)海量需求牵引 AIGC 应用落地 随着数字经济与实体经济融合的不断深入,以及Meta、微软、字节跳动等平台巨头的数字场景向元宇宙的转型,人类对数字内容总量和丰富度的整体需求不断增加。数字内容的生产取决于想象力、制造能力和知识水平;传统的内容生产方式受限于人力资源有限的制造能力,逐渐无法满足消费者对数字内容的需求,供给侧产能瓶颈日益凸显。基于以上原因,AIGC已被广泛应用于各个行业,其市场潜力也逐渐显现。 2、技术能力 根据面向对象和实现功能的不同,AIGC可以分为三个层次。 1)智能数字内容孪生 其主要目标是建立从现实世界到数字世界的映射,并将物理属性(如大小、纹理、颜色等)和社会属性(如主体行为、主体关系等)在现实世界中高效且可感知进行数字化。 2)智能数字内容编辑 其主要目的是建立数字世界与现实世界的双向交互。基于数字内容孪生的基础上,从现实世界控制和修改虚拟数字世界中的内容。同时利用数字世界高效率仿真和低成本试错的优势,为现实世界的应用提供快速迭代能力。 3)智能数字内容创作 其主要目标是让人工智能算法具备内容创作和自我演化的能力,由此形成的AIGC产品具备类似甚至超越人类的创作能力。以上三个层面的能力共同构成了AIGC的能力闭环。 3、应用价值 AIGC将有望成为数字内容创新发展的新引擎,为数字经济发展注入新动能。 1)AIGC 能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本、高效率的方式满足海量个性化需求;同时能够创新内容生产的流程和范式,为更具想象力的内容、更加多样化的传播方式提供可能性,推动内容生产向更有创造力的方向发展。 2)AIGC可以支撑数字内容与其他产业的多维度互动、融合渗透,从而孕育新的商业模式,打造经济发展的新增长点,为千行百业的发展提供新动能。此外,从2021年开始,元宇宙呈现出超乎想象的爆发式发展;作为数字与现实融合的“终极”数字载体,元宇宙将具有持久性、实时性、创造性等特征。它还将加速物理世界的再生产,并通过AIGC创造无限的内容,从而实现自发的有机增长。 三、AIGC关键技术落地实施 目前AIGC生成正在完成从简单的降本增效(以生成金融/体育新闻为代表)向创造额外价值(以提供绘画创作素材为代表)转移,跨模态/多模态内容成为关键的发展节点。 技术视角下,以下场景将成为未来发展的重点:文本-图像 视频的跨模态生成、2D到3D生成、多模态理解结合生成。后文将对以上技术场景的技术原理、现有进展、关键瓶颈等进行展开。 商业视角下、未来3年内,虚拟人生成和游戏AI这两种综合性的AIGC场景将趋于商业化成熟。 1、文本生成 以结构性新闻撰写、内容续写、诗词创作等细分功能为代表。基于NLP技术的文木生成可以算作是AIGC中发展最早的一部分技术,也已经在新闻报道、对话机器人等应用场景中大范围商业落地。 一方面,2020年,1750亿参数的GPT-3在问答、摘要、翻译、续写等语言类任务上均展现出了优秀的通用能力。证明了“大力出奇迹”在语言类模型上的可行性。自此之后,海量数据、更多参数、多元的数据采集渠道等成为国内清华大学、智源研究院、达摩院、华为、北京大学、百度等参与者的关注点。 目前,大型文本预训练模型作为底层工具,商业变现能力逐渐清晰。以GPT-3为例,其文木生成能力已被直接应用于Writesonic、Conversion.ai、SnazzyAl、Copysmith、Copy.ai、Headlime等文本写作/编辑工具中。同时也被作为部分文本内容的提供方,服务于Al dungeon等文本具有重要意义的延展应用领域。 另一方面,以Transformer架构为重要代表,相关的底层架构仍在不断精进。研究者们正通过增加K-adapter、优化Transformer架构,合理引入知识图谱及知识库、增加特定任务对应Embeddina等方式,增加文本对于上下文的理解与承接能力、对常识性知识的嵌入能力、中长篇幅生成能力、生成内容的内在逻辑性等。 1)应用型文本生成 应用型文本大多为结构化写作,以客服类的聊天问答、新闻撰写等为核心场景。2015年发展至今,商业化应用已较为广泛,最为典型的是基于结构化数据或规范格式,在特定情景类型下的文本生成,如体育新闻、金融新闻、公司财报、重大灾害等简讯写作。据分析师评价,由AI完成的新闻初稿已经接近人类记者在30分钟内完成的报道水准。Narrative Science 创始人甚至曾预测,到 2030 年, 90%以上的新闻将由机器人完成。 在结构化写作场景下,代表性垂直公司包括Automated Insights(美联社Wordsmith)、Narrative Science、textengine.io、AX Semantics、Yseop、Arria、Retresco、Viable、澜舟科技等。同时也是小冰公司、腾讯、百度等综合性覆盖AIGC领域公司的重点布局领域。 2)创作型文本生成 创作型文本主要适用于剧情续写、营销文本等细分场景等,具有更高的文本开放度和自由度,需要一定的创意和个性化,对生成能力的技术要求更高。 我们使用了市面上的小说续写,文章生成等AIGC工具。发现长篇幅文字的内部逻辑仍然存在较明显的问题、且生成稳定性不足,尚不适合直接进行实际使用。据聆心智能创始人黄民烈教授介绍,目前文字生成主要捕捉的是浅层次,词汇上统计贡献的问题。但长文本生成还需要满足语义层次准确、在篇章上连贯通顺的要求,长文本写作对于议论文写作、公文写作等等具有重要意义。未来四到五年,可能会出现比较好的千字内容。 除去本身的技术能力之外,由于人类对文字内容的消费并不是单纯理性和基于事实的,创作型文本还需要特别关注情感和语言表达艺术。我们认为,短期内创作型文本更适合在特定的赛道下,基于集中的训练数据及具体的专家规则进行场景落地。 在创作型文本领域,代表性的国内外公司包括Anyword、Phrasee、Persado、Pencil、Copy.ai、Friday.ai、Retresco、Writesonic、Conversion.ai、Snazzy Al、Rasa.io、LongShot.AI、彩云小梦等。 3)文本辅助生成 除去端到端进行文本创作外,辅助文本写作其实是目前国内供给及落地最为广泛的场景。主要为基于素材爬取的协助作用,例如定向采集信息素材、文本素材预处理、自动聚类去重,并根据创作者的需求提供相关素材。尽管目前能够提升生产力,但我们认为相对于实现技术意义上的AI生成,能否结合知识图谱等提供素材联想和语句参考等更具有实用意义。 这部分的国内代表产品包括写作猫、Gilso写作机器人、Get写作、写作狐、沃沃AI人工智能写作。 4) 重点关注场景 长期来看,我们认为闲聊型文本交互将会成为重要潜在场景,例如虚拟伴侣、游戏中的NPC个性化交互等。2022年夏季上线的社交AlGC叙事平台Hidden Door以及基干GPT.3开发的文木探索类游戏Aldunaeon均已获得了不错的消费者反馈。随着线上社交逐渐成为了一种常态,社交重点向转移AI具有其合理性,我们预估未来1-2年内就会出现明显增长。目前较为典型的包括小冰公司推出的小冰岛,集中在精神心理领域的聆心智能、开发了AI dungeon的Latitude.io等。 2、音频及文字一音频生成 整体而言,此类技术可应用于流行歌曲、乐曲、有声书的内容创作,以及视频、游戏、影视等领域的配乐创作,大大降低音乐版权的采购成本。我们目前最为看好的场景是自动生成实时配乐、语音克隆以及心理安抚等功能性音乐的自动生成。 1)TTS(Text-to-speech)场景 TTS在AIGC领域下已相当成熟,广泛应用于客服及硬件机器人、有声读物制作、语音播报等任务。例如倒映有声与音频客户端“云听”APP合作打造AI新闻主播,提供音频内容服务的一站式解决方案,以及喜马拉雅运用TTS技术重现单田芳声音版本的《毛氏三兄弟》和历史类作品。这种场景为文字内容的有声化提供了规模化能力。 目前技术上的的关键,在于如何通过富文本信息(如文本的深层情感、深层语义了解等)更好的表现其中的抑扬顿挫以及基于用户较少的个性化数据得到整体的复制能力(如小样本迁移学习)。基于深度学习的端到端语音合成模式也正在逐步替代传统的拼接及参数法,代表模型包括WaveNet、Deep Voice及Tacotron等。 目前的垂直代表公司包括倒映有声、科大讯飞、思必驰(DUl)、Readspeaker、DeepZen和Sonantic。 随着内容媒体的变迁,短视频内容配音已成为重要场景。部分软件能够基于文档自动生成解说配音,上线有150+款包括不同方言和音色的AI智能配音主播。代表公司有九锤配音、加音、XAudioPro、剪映等。 该技术目前被应用于虚拟歌手演唱、自动配音等,在声音IP化的基础上,对于动画、电影、以及虚拟人行业有重要意义。代表公司包括标贝科技、Modulate、overdub、replika、Replica Studios、Lovo、Voice mod. Resemble Ai、Respeecher、DeepZen、Sonantic、VoicelD、Descrip...

点击查看剩余70%

我知道答案,我要回答