“AI+视频”是LLM后AI新基建能力

时间: 2024-02-26 23:47:46 | 作者: 乐鱼官方入口

最近，Pika 1.0的发布引起了广泛关注，它以出色的视频生成效果成为焦点。这一技术不仅被Meta、Runway、Heygen等科技巨头和独角兽企业关注，还在AI视频领域引领。AI视频技术大致上可以分为两种：一种是以固定模板为基础，进行局部调整，例如改变皮肤颜色或唇形，像Heygen和易点Kreado AI；另一种则更加开放，可以依据用户提供的图片和文字制作全新视频，Pika和Runway就属于这一类。

在我们看来，“AI+视频”不只是AI的一个应用领域，它更代表了在大型语言模型（LLM）之后AI技术的新基础设施。这一技术有两大应用方向：一是面向消费者，它能够降低用户生成内容（UGC）的门槛，有可能诞生“AI时代的抖音”或视频版的妙鸭应用；二是面向企业，能够在电商、教育等行业降低成本，提高效率，并且在影视和游戏制作领域具有巨大的潜力。

11月28日，Pika发布了其1.0版本的AI视频工具。这个版本具备了基于文字生成视频和对视频局部进行编辑的功能，其效果可与Runway的Gen-2媲美。Pika是一个年轻的产品，仅成立6个月，但已经展现出令人印象深刻的性能，直逼Runway。

Pika的创始团队拥有哈佛大学和斯坦福大学的背景。他们在23年初参加Runway举办的第一届AI电影节时，发现市面上缺乏优质的AI视频制作工具，因此决定创业，并于同年4月成立Pika。7月，Pika在Discord平台上推出了测试版，允许用户免费试用根据文字和图片生成3秒短视频的功能。截至12月1日，该平台的用户数量已超过50万，每周生成的视频数量达数百万。

Pika 1.0正式版在11月28日发布，其底层模型基于Diffusion模型进行了创新。目前，用户可以加入等待名单，等待体验该产品。至今，Pika已完成三轮融资，共计5500万美元，估值达2.5亿美元，其投资者包括前Github CEO Nat Friedman和OpenAI创始成员Karpathy。

根据Pika创始人接受海外独角兽公众号采访时透露，Pika将持续迭代，预计明年实现商用。其功能主要包括：

视频生成：用户输入文字或图像后，Pika能生成包括3D动画、实拍电影等多种风格的视频，具有逼真的光影效果和细腻的细节处理，还能进行多样化的镜头控制。

视频转换：在不改变视频结构的情况下，Pika可以转换视频的风格，例如把真人视频变成动画风格。

视频编辑：通过鼠标框选和文字描述，用户可以对视频的特定部分进行编辑。例如，在视频中给一只狒狒添加墨镜。

视频扩展：Pika能够扩展视频的尺寸和长宽比，自动填充超出原视频范围的内容。它还能延长现有视频的时长。

Pika 1.0虽然目前的视频时长较短，通常不超过1分钟，但未来版本预计将提供更长时间的视频生成能力。Pika的这些功能不仅使其成为一款令人期待的产品，也预示着AI视频技术将在多个领域发挥重要作用。

在AI视频技术领域，Pika和Runway各有所长。根据Pika的官方资料，这个平台在生成连贯、自然的视频方面表现出色，可以精确地实现用户期望的视频变化。然而，在画面清晰度和真实感方面，Pika还有提升的空间。与之相比，Runway在视频生成的质量上表现更优，但有时生成的视频可能与用户的预期不完全吻合。

在移动互联网的发展中，视频已成为占据用户使用时长最多的内容形式，超过30%。我们认为，AI视频技术是继大型语言模型之后的新基础设施，其应用前景十分广阔。

对于C端用户来说，AI视频技术可能催生出“AI时代的抖音”，推动消费互联网的发展。目前，短视频平台如抖音、快手已占据了移动互联网用户最多的使用时间。AI技术的加入有望进一步降低短视频制作的门槛，Pika 1.0等AI视频产品可能会成为新一代的短视频巨头。

在B端市场，AI视频技术的结合可广泛应用于广告营销、电商、游戏、影视制作等领域，具有极大的扩展性。例如，AI可以替代传统的视频剪辑工作，显著提高效率和降低成本。据易点天下的数据，AI营销素材制作平台KreadoAI能将视频制作的效率从12小时/个缩短至6-8分钟/个，成本仅为线。

大型语言模型的发展已经相对成熟，以OpenAI的GPT系列为代表。从2017年Transformer架构的出现到GPT系列模型的连续发布，OpenAI在数据、资金、算力、人才等方面展现了其在大型语言模型领域的领导地位。同时，谷歌的Bard、微软的LLaMa、百度的文心一言、科大讯飞的星火大模型等也不断推进，形成了“一超多强”的竞争格局。

相比之下，AI+视频领域仍处于成长阶段，公司如Pika有机会在这一领域突围。目前，视频生成技术面临的挑战包括动态性不足、视频时长较短以及训练数据的限制。

从技术和产品角度看，AI+视频可以分为两大类：一是功能相对单一的视频生成，主要用于营销、教育等领域，例如Heygen、KreadoAI；二是更为开放式的视频生成工具，能够按照每个用户输入的文字或图像生成全新内容，例如Pika和Runway。

在AI视频领域，Runway的Gen-2产品自发布以来进行了多次更新，不断提升视频质量和控制能力。其商业化程度也在提升，推出了基于视频积分的计费模式，按此标准，Gen-2生成视频的成本约为0.05美元/秒。这些更新和商业化举措使Runway在AI视频制作领域取得了重要进展。

AI视频制作领域面临的挑战主要包括动态性不足、视频时长限制和训练数据的不足。尽管目前AI生成的视频多在十秒以内，但随着技术的发展，这些问题有望得到解决。长期来看，AI视频技术在电商、教育、影视、游戏制作等领域的应用将更加广泛和深入。

最近，Heygen凭借其创新的AI技术，包括让郭德纲用英语讲相声和让Taylor Swift用中文唱歌的视频，成功吸引了大众的目光。最新消息显示，Heygen已成功筹集到560万美元的新资金，估值达到了7500万美元。与此同时，他们的年回归收入(ARR)达到了1800万美元，较3月和8月分别增长了1700万和800万美元。

除了他们引人注目的视频翻译服务外，Heygen还提供了一项引人入胜的数字人生成功能。用户都能够上传自己的视频，短时间内就能创建出数字化的个人形象，并根据文字内容制作短视频。此外，Heygen还提供了各种模板，包括数字人模板、视频模板和声音模板等。根据公司网站信息，制作15分钟的数字人视频只需29美元。同时，他们还提供声音克隆和人像调整等附加收费服务。

易点天下在7月12日推出了他们的最新产品——KreadoAI。这个平台是在现有的LLM和图像大模型技术的基础上，结合营销数据开发的。截至10月底，KreadoAI已经覆盖了全球67个国家，注册用户超过60万（8月初仅为40万），独立访客数超过一百万，付费总额超过一百万美元。在付费用户中，海外用户占70%-80%，国内用户占20%-30%。

数字人短视频：用户都能够选择真人数字模板或者通过AI技术生成的图片，创作出数字人短视频。这个过程包括文案的AI生成和用户写作。按照K币的计价方式，制作费用为7元/分钟。

AI模特：用户都能够上传真人模特的照片，系统将生成不同肤色和样貌的模特图，适用于各种商业拍摄需求。即将推出的人台模特图功能，将允许用户在虚拟模特上试穿各种衣物和配饰，一键生成多种风格的真人模特效果图。

真人克隆数字分身：用户上传个人的视频和音频，2-3个工作日内即可得到数字化的个人形象和声音克隆，价格分别为4300元和3600元。

上一篇：日本投资600万元就能拿永住？签证免税双重利好来吸引海外投资者

下一篇：自主智能机器翻译服务助力海南自贸港建设