“AI+视频”是LLM后AI新基建能力_乐鱼官方入口_乐鱼官方是赞助了大巴黎|官方网站入口 
乐鱼官方入口
乐鱼官方入口

“AI+视频”是LLM后AI新基建能力

时间: 2024-02-26 23:47:46 |   作者: 乐鱼官方入口

  最近,Pika 1.0的发布引起了广泛关注,它以出色的视频生成效果成为焦点。这一技术不仅被Meta、Runway、Heygen等科技巨头和独角兽企业关注,还在AI视频领域引领。AI视频技术大致上可以分为两种:一种是以固定模板为基础,进行局部调整,例如改变皮肤颜色或唇形,像Heygen和易点Kreado AI;另一种则更加开放,可以依据用户提供的图片和文字制作全新视频,Pika和Runway就属于这一类。

  在我们看来,“AI+视频”不只是AI的一个应用领域,它更代表了在大型语言模型(LLM)之后AI技术的新基础设施。这一技术有两大应用方向:一是面向消费者,它能够降低用户生成内容(UGC)的门槛,有可能诞生“AI时代的抖音”或视频版的妙鸭应用;二是面向企业,能够在电商、教育等行业降低成本,提高效率,并且在影视和游戏制作领域具有巨大的潜力。

  11月28日,Pika发布了其1.0版本的AI视频工具。这个版本具备了基于文字生成视频和对视频局部进行编辑的功能,其效果可与Runway的Gen-2媲美。Pika是一个年轻的产品,仅成立6个月,但已经展现出令人印象深刻的性能,直逼Runway。

  Pika的创始团队拥有哈佛大学和斯坦福大学的背景。他们在23年初参加Runway举办的第一届AI电影节时,发现市面上缺乏优质的AI视频制作工具,因此决定创业,并于同年4月成立Pika。7月,Pika在Discord平台上推出了测试版,允许用户免费试用根据文字和图片生成3秒短视频的功能。截至12月1日,该平台的用户数量已超过50万,每周生成的视频数量达数百万。

  Pika 1.0正式版在11月28日发布,其底层模型基于Diffusion模型进行了创新。目前,用户可以加入等待名单,等待体验该产品。至今,Pika已完成三轮融资,共计5500万美元,估值达2.5亿美元,其投资者包括前Github CEO Nat Friedman和OpenAI创始成员Karpathy。

  根据Pika创始人接受海外独角兽公众号采访时透露,Pika将持续迭代,预计明年实现商用。其功能主要包括:

  视频生成:用户输入文字或图像后,Pika能生成包括3D动画、实拍电影等多种风格的视频,具有逼真的光影效果和细腻的细节处理,还能进行多样化的镜头控制。

  视频转换:在不改变视频结构的情况下,Pika可以转换视频的风格,例如把真人视频变成动画风格。

  视频编辑:通过鼠标框选和文字描述,用户可以对视频的特定部分进行编辑。例如,在视频中给一只狒狒添加墨镜。

  视频扩展:Pika能够扩展视频的尺寸和长宽比,自动填充超出原视频范围的内容。它还能延长现有视频的时长。

  Pika 1.0虽然目前的视频时长较短,通常不超过1分钟,但未来版本预计将提供更长时间的视频生成能力。Pika的这些功能不仅使其成为一款令人期待的产品,也预示着AI视频技术将在多个领域发挥重要作用。

  在AI视频技术领域,Pika和Runway各有所长。根据Pika的官方资料,这个平台在生成连贯、自然的视频方面表现出色,可以精确地实现用户期望的视频变化。然而,在画面清晰度和真实感方面,Pika还有提升的空间。与之相比,Runway在视频生成的质量上表现更优,但有时生成的视频可能与用户的预期不完全吻合。

  在移动互联网的发展中,视频已成为占据用户使用时长最多的内容形式,超过30%。我们认为,AI视频技术是继大型语言模型之后的新基础设施,其应用前景十分广阔。

  对于C端用户来说,AI视频技术可能催生出“AI时代的抖音”,推动消费互联网的发展。目前,短视频平台如抖音、快手已占据了移动互联网用户最多的使用时间。AI技术的加入有望进一步降低短视频制作的门槛,Pika 1.0等AI视频产品可能会成为新一代的短视频巨头。

  在B端市场,AI视频技术的结合可广泛应用于广告营销、电商、游戏、影视制作等领域,具有极大的扩展性。例如,AI可以替代传统的视频剪辑工作,显著提高效率和降低成本。据易点天下的数据,AI营销素材制作平台KreadoAI能将视频制作的效率从12小时/个缩短至6-8分钟/个,成本仅为线。

  大型语言模型的发展已经相对成熟,以OpenAI的GPT系列为代表。从2017年Transformer架构的出现到GPT系列模型的连续发布,OpenAI在数据、资金、算力、人才等方面展现了其在大型语言模型领域的领导地位。同时,谷歌的Bard、微软的LLaMa、百度的文心一言、科大讯飞的星火大模型等也不断推进,形成了“一超多强”的竞争格局。

  相比之下,AI+视频领域仍处于成长阶段,公司如Pika有机会在这一领域突围。目前,视频生成技术面临的挑战包括动态性不足、视频时长较短以及训练数据的限制。

  从技术和产品角度看,AI+视频可以分为两大类:一是功能相对单一的视频生成,主要用于营销、教育等领域,例如Heygen、KreadoAI;二是更为开放式的视频生成工具,能够按照每个用户输入的文字或图像生成全新内容,例如Pika和Runway。

  在AI视频领域,Runway的Gen-2产品自发布以来进行了多次更新,不断提升视频质量和控制能力。其商业化程度也在提升,推出了基于视频积分的计费模式,按此标准,Gen-2生成视频的成本约为0.05美元/秒。这些更新和商业化举措使Runway在AI视频制作领域取得了重要进展。

  AI视频制作领域面临的挑战主要包括动态性不足、视频时长限制和训练数据的不足。尽管目前AI生成的视频多在十秒以内,但随着技术的发展,这些问题有望得到解决。长期来看,AI视频技术在电商、教育、影视、游戏制作等领域的应用将更加广泛和深入。

  最近,Heygen凭借其创新的AI技术,包括让郭德纲用英语讲相声和让Taylor Swift用中文唱歌的视频,成功吸引了大众的目光。最新消息显示,Heygen已成功筹集到560万美元的新资金,估值达到了7500万美元。与此同时,他们的年回归收入(ARR)达到了1800万美元,较3月和8月分别增长了1700万和800万美元。

  除了他们引人注目的视频翻译服务外,Heygen还提供了一项引人入胜的数字人生成功能。用户都能够上传自己的视频,短时间内就能创建出数字化的个人形象,并根据文字内容制作短视频。此外,Heygen还提供了各种模板,包括数字人模板、视频模板和声音模板等。根据公司网站信息,制作15分钟的数字人视频只需29美元。同时,他们还提供声音克隆和人像调整等附加收费服务。

  易点天下在7月12日推出了他们的最新产品——KreadoAI。这个平台是在现有的LLM和图像大模型技术的基础上,结合营销数据开发的。截至10月底,KreadoAI已经覆盖了全球67个国家,注册用户超过60万(8月初仅为40万),独立访客数超过一百万,付费总额超过一百万美元。在付费用户中,海外用户占70%-80%,国内用户占20%-30%。

  数字人短视频:用户都能够选择真人数字模板或者通过AI技术生成的图片,创作出数字人短视频。这个过程包括文案的AI生成和用户写作。按照K币的计价方式,制作费用为7元/分钟。

  AI模特:用户都能够上传真人模特的照片,系统将生成不同肤色和样貌的模特图,适用于各种商业拍摄需求。即将推出的人台模特图功能,将允许用户在虚拟模特上试穿各种衣物和配饰,一键生成多种风格的真人模特效果图。

  真人克隆数字分身:用户上传个人的视频和音频,2-3个工作日内即可得到数字化的个人形象和声音克隆,价格分别为4300元和3600元。