真的是太卷了!先是Runway,Stable Video Diffusion,HeyGen,现在又来了一个Pika。悄然崛起的视频AI,标志着AI竞争进入了下一阶段。
在当下的AI赛道上,AI聊天、制图一类的应用,早已百花齐放。然而,在此类同质化应用扎堆的情况下,此前较少被人提及的AI视频工具异军突起,盖过了风头正盛的文字生成图片类AI应用。
01 市场规模与现状
随着AI大模型和多模态AI技术的融合发展,人工智能生成内容的创作能力、通用化能力以及工业化水平快速提升。有据数据表明,2022年AI视频生成工具的市场价值为4.15亿美元,预计到2032年将达到21.72亿美元。2023年至2032年期间,复合年增长率(CAGR) 为18.5%,是一个快速发展的领域。
市场呈现出清晰的细分趋势,不同领域涌现出各种专业化的解决方案。但视频是多帧图像的组合,文生视频在文生图的基础上增加了时间维度,需要更多算力资源、理解能力和生成能力,因此,AI视频工具在市场上的数量不如AI文本生成和图片生成工具,主要的应用场景集中在文本生成视频,AI视频剪辑、AI数字人、AI人声等。
目前比较知名的品牌主要包括:
- Runway:文本生成视频
- Pika:文本生成视频
- Fliki:文字生成视频,文字生成声音,AI数字人,声音克隆,文章转为视频
- InVideo: 文字生成视频,AI视频编辑,AI数字人,AI人声
- Pictory: 文本生成视频,AI视频编辑,自动总结,将文章转为视频
- Peech:AI视频剪辑
- Synthesia:AI数字人,AI人声
- HeyGen:AI数字人,AI视频翻译,声音克隆,图片说话
- Opus Clip:长视频剪辑成短视频
总体上看功能差异并不大,主要是在易用度、质量、使用场景上做差异。
例如Runway是真的通过AI生成视频,而不是选择有限的元素进行创作;Synthesia主打的是AI数字人领域,而Opus Clip则是解决客户将长视频剪成若干个短视频的需求;Pictory切入的是社交媒体短视频的领域,Peech则是主打品牌宣传视频。
过去一些早期的AI生成视频确实存在一些问题,如图像细节不够清晰、运动不自然等。但近年来的发展中涌现了一些先进的生成式模型,包括GAN(生成对抗网络)的演进版本以及运用深度学习技术的视频生成模型。这些模型在处理图像和视频时能够更准确地捕捉细节和动态特征,使得生成的内容更加逼真。
尽管技术不断进步,但文生视频的底层技术仍在不断优化,最优模型尚未出现。
在实现高分辨率视频生成、超长文本的视频生成以及无限时长的连贯视频生成方面,文生视频仍在不断探索创新,迎接未来的挑战。这一领域的持续发展将进一步提升AI生成视频的质量和应用广度。
02 降本增效显著
由于内容行业对新、快、差异化等需求较大,急需降低生产门槛,提升生产效率。在2022年,短视频的制作能力尚未跟上各平台爆发的短视频需求,传统的人工生产短视频成本大概在100-500元/条,涉及脚本撰写、场景搭建、拍摄、美工处理等多个环节。
利用生成式AI技术,人们能够以自动化、智能化的方式,将文本、图像、音频、视频等多模态数据重新组合,来创造全新的内容,在降低成本的同时,也打破了各个专业之间的“技术壁垒”。
例如,像InVideo和Fliki这样的工具具备文字生成视频的功能,可满足批量生产视频的需求。Synthesia可以轻松生成数字人,为产品解说视频提供便利,无需再花费时间进行拍摄。而Runway则为后期视频优化提供了高效的解决方案。这些大模型的应用使视频制作变得更加快捷、灵活,并提升了生产效率。
在AI的帮助下,现在只需要一个人,只要Ta有创意且熟悉AI视频软件的操作,就可以做出以前需要一个团队才能做出来的效果,制作成本直降至原本的1/5-1/10。
由于短视频平台的流行,所以基于语义识别和视觉识别的智能抓取直播讲解片段并混剪分发的直播切片也逐渐流行。
例如,使用Opus Clip这类产品,自动识别直播过程中的卖点片段,无需剪辑,实时获得海量短视频素材,为直播卖家提供了更便捷的引流和成交手段。这些创新技术正在进一步推动着短视频制作领域的发展,为行业带来更为高效、灵活的创作方式。
无论是短视频还是长视频,AI生成视频都会为视频内容行业的发展赋予新的价值。
03 业界巨头纷纷看好
近段时间,已经有多家企业发布新的视频生成工具。11月16日,社交媒体巨头Meta发布工具Emu Video,能够基于文本和图像输入生成视频剪辑。
几乎同时,字节跳动发布了PixelDance模型,通过描述(纯文本)+首帧指导(图片)+尾帧指导(图片),即可生成包含复杂场景和动作的视频。
11月21日,Runway动态笔刷Motion Brush面世,该工具发布的时候引起不小的关注。11月24日,专注于开发人工智能产品的初创公司Stable AI发布了其最新的AI模型Stable Video Diffusion(稳定视频扩散模型)。
除此之外,Adobe也在文生视频领域有新动作。日前,该公司宣布已收购AI视频生成创业公司Rephrase.ai,后者主要通过AI技术将文本转换为虚拟形象视频。
从Adobe收购Rephrase.ai,及国内外企业纷纷布局AI视频生成领域,可以看到,AI生成内容大潮已经逐渐从文本和图片,进一步转向视频生成。
在10月份爆火的HeyGen创始人Joshua,也发表了他对于未来生成式视频的看法,AI的热潮催生了非常多成功的产品,像Midjourney和Stablility.ai等AI图像工具,以及像Jasper、Copy.ai等文字生成类工具,但视频生成工具还有很大的市场空间。
04 投资界的高度期望和投入
据Pitchbook统计,截止至10月15日,2023年对生成式AI初创企业的投资总额已达232亿美元,比2022年全年总额增长了250.2%。
而最近的一次大规模融资,无疑是Pika。这家仅有四人的初创公司,半年用户超50万,已经融资5500万美元,一连串投资人名单非常豪华,几乎所有AI领域的知名公司都参与了此轮融资,名单包括但不限于:前Github CEO Nat Friedman、Quora创始人Adam D’Angelo、OpenAI创始成员Karpathy、Perplexity CEO等等,堪称是集齐了硅谷的半壁江山。
Lightspeed Venture Partners也对AI视频领域发表了他们的看法:到了2023年,视频可以说是最有价值的媒体形式,我们每个人每天都在越来越多地消费更多的视频,尽管整体内容的创建变得越来越容易,但是创建高质量视频的过程对于大众来说仍然具有挑战性且难以实现,不过AI正在改变这一状态。
05 行业难题一:视频质量
当前的人工智能模型很难准确捕捉现实世界场景和情感的复杂性。让AI理解文字表面相对容易,但要深刻领悟文字的内涵和外延,并辅以优质视频素材、逼真的声音,并保持风格的一致性,是个相当复杂的问题。
对于AI生成视频的质量,哪怕是一些国外的工具,根据我们的观察,目前大部分人还是持有保留态度的。由于一句话的信息量太少,生成的视频细节不够丰富,而且也无法生成真正的有情节的视频,给人造成了一种“没有感情”、“粗制滥造”的感觉。
如果只是根据提示文本,查找一些好看的素材,再把它们拼凑起来,这种类型的视频还可以,但稍微对情节有要求的,基本上都不能用,或者是要改很多次。还不如全部人手做来得快。
06 行业难题二:深度视频伪造
AI生成视频面临的第二个问题是深度伪造视频的兴起。由AI制作的高度逼真视频可能让观众难以分辨真实与虚构,进一步模糊了现实与虚构之间的边界。
随着AI生成视频逼真度和可信度的提高,判断真伪变得越来越困难。以前文字和图片易受伪造,如今连视频也能被篡改,可能被不法分子用于伪造新闻报道、虚构公共人物声明,误导公众、扭曲事实,甚至用于勒索、欺诈或诽谤,给个人、组织或公司带来伤害,进而对社会和媒体产生不信任等问题。
解决这个问题需要开发者、媒体和政府的共同努力。首先,必须加强检测和辨认技术的研发,及早发现并有效阻止伪造视频的传播。
其次,建议制定并完善相关法规,建立监管机制,对违规行为进行严肃惩罚,确保使用该技术的实体对其行为负责。10月30日,美国制定了最严的AI监管法,11月1日,首个全球性AI声明发布了,这些都表明相关机构正在迈出治理AI的步伐。
此外,AI生成视频的制作者应主动披露其使用了自动化工具的信息,有助于公众更清晰地了解视频的制作过程,降低被误导的风险。近期,YouTube宣布采取措施要求视频创作者主动披露AI生成内容。
07 人工智能生成视频的未来
当谈到AI生成视频的未来,我们认为有几个关键趋势:
- 竞争愈发白热化:Adobe Systems收购了Rephrase.ai,Runway对RunwayML进行了更新,再加上Pika的闯入,无疑再次搅动了AI视频领域的格局。
- AI视频创业生态迅速成熟:预计在未来1-2年内会有多家初创公司扩大规模并吸引大额融资。新的独特用途,如专注于直播的视频工具可能带来重大机遇。
- 生成视频的质量将提高:随着技术的不断进步,未来的AI生成视频将变得更加逼真、细致,并具备更高水平的理解问文字的能力。
- 跨领域应用:AI生成视频将不再局限于广告和娱乐领域,还将渗透到教育、医疗等各行业,为各领域提供更智能、高效的解决方案。
- 伦理和法律规范:数据隐私和版权保护将成为迫切解决的问题,以确保AI视频的发展在法律和伦理的框架内进行。
如今,AI视频生成逐渐成为创业企业及资本追逐的新热点,目前已经有众多企业推出相关产品,AI视频生成技术也走上了一个新高度。可以想象,随着技术的不断突破,AI视频生成技术将短视频、短剧等行业带来新的可能。