只需要一张图,就可以给美国总统特朗普做一头茂密的卷发。
不需要复杂的步骤,你也可以像漫威英雄毒液一样变身。
把想法扔进大模型后用不了几秒,你脑海中的世界就会在你眼前展开。但如果突然想即兴再加点元素,比如来点雪花之类的呢?需不要回到前几步去调整呢?这样很容易把之前做好的东西弄乱哎。
爱诗科技给出了一个解法,在节前发布的PixVerse R1模型可以让用户通过语音和文字,去实时干涉视频的情节。
近日,该公司宣布完成3亿美元C轮融资(约合人民币20.6亿元)。这则消息为持续升温的AI视频生成赛道再投下一枚重磅。
长期以来,爱诗在AI视频生成赛道的表现亮眼,全球权威AI评估机构Artificial Analysis最新发布的视频生成模型排行榜显示,爱诗科技旗下PixVerse V5.6模型位列全球第二位。在25年底,爱诗ARR超过4000万美元(折合2.7亿人民币),全球用户数超一亿。
在AI视频生成赛道火热的今天,爱诗科技的产品做出了那些差异化,能够引得二十多家投资机构齐齐为它投票?巨头纷纷下场,“卷麻”了的 AI视频生成赛道中,爱诗科技又是如何俘获海外一亿用户的呢?
“卷麻了”的赛道上,爱诗有什么不同?
虽然AI视频生成赛道,都在卷“世界模型”的概念,但是爱诗却在这条道路上给出一个不一样的解法。
有网友分享自己使用PixVerse的经历,当输入“我漫步在台北的街头”,在视频生成的过程中,如果突然补一句“台北下起了雨”,画面中的光影和镜头会在约1秒左右实现平滑过渡,雨丝也实时出现。
与行走在现实世界中,天空突然飘雨的场景几乎一样。
从这个设计出发,可以一窥爱诗对“世界模型”的定义:让 AI 通过学习足够多事物运行的规律,产生一个可预测模拟物理、因果、时空等规律的模型。
在过去两年,“AI缺少常识”是网友“打假”与区分AI视频“的一个重要标志。
“一个西瓜,明明是横着切的,但是这西瓜却是竖着打开的,一看就是AI做的!”
“风吹过,草却没有动,又一个AI视频露出马脚了。”
所以爱诗科技提出的预测和模拟,可以让生成的视频更加符合现实中的自然科学规律,创造“沉浸式”体验。
博主“瑞哥那”在他的测评视频中点评道:“(根据你输入的内容同步改变视频的内容)就好像里面的人物他接受到了一个指令,所有的事物都会围绕你的指令去产生变化,同时也符合物理的规律。”
据爱诗科技的官网介绍其产品与 Sora、Runway、国内竞品的核心差异,集中在实时交互、低门槛创作、全链路一体化、本土化与性价比四大维度。而这点,就是非常吸引网友与AI测评博主关注的实时交互。

图说/爱诗PixVerse R1的创作界面
图源/ PixVerse R1
爱诗科技的创始人兼CEO王长虎有二十多年计算机视觉领域的从业经验,曾经在字节期间参与主导过抖音和Tik Tok从0到1的搭建,可谓是行业老兵。
但一般而言,视频玩家都会关注清晰度,行业普遍认为画面是否清晰是衡量视频质量好坏的一个重要标准。但 “瑞哥那”与不少网友指出了R1生成的视频质量和画面质感相比其他产品来说较低。
为什么一个生成画质不那么清晰的AI软件会获得这笔大额融资?
有AI科技博主指出:或许画质清晰与否,并不是爱诗科技的当下重点。
这次投资共吸引了二十几家投资机构与企业参与,在这个行业名单中,有两家“不太一样”的公司引起了不少人的兴趣——中国儒意和三七互娱。前者投资过《流浪地球》等知名电影,后者则是一家游戏公司。
拍电影的和做游戏的投AI视频工具,RB认为,关键在于他们是为世界模型思路下的“实时交互”逻辑买单。
以游戏为例,实时交互是实现游戏“沉浸式”体验的一个重点,现实中的人与虚拟世界如何互相作用。而PixVerse R1使用了瞬时响应引擎,可以把传统扩散模型所需的50+采样步数压缩至1–4步,让动态画面进入人眼可感知的“即时”响应阈值,达到“一边渲染一边播放的效果”。

图说/博主“瑞哥那”展示PixVerse R1的瞬时响应技术,视频内容是一个士兵不慎摔倒在雪地上,滑落到坦克旁边,随后坦克爆炸
图源/小红书博主@瑞哥那
但目前爱诗的模型也有显著的短板。比如虽然理论上可以无限生成视频,但是目前由于算力消耗太大,每个模板只能体验5分钟。另外,如果输入的文字概念比较模糊,则生成的视频也会差强人意。小编在试用软件的过程中发现,对于如“清新”“自然”等抽象概念,以及网络流行热词如“高智感”“可露丽风”等的把控,还有待加强。
比如小编曾经输入“一个女生,长发,身高1米66,民国风。男生不戴眼镜,高智感。男生与女生差不多个子,他们牵手走在香港的街头。要求有浪漫氛围。” 结果第一次生成了如下图片:

图说/小编第一次生成的图片,女孩形象和小编输入的内容还是有点差距的
图源/PixVerse R1
之后小编在没有更改文字的情况下点击重新生成,得到如下图片。

图说/小编按原文字重新生成的内容,这次更对味一点
图源/PixVerse R1
看来和其他AI模型一样,还是需要多跑几遍。
截至目前,该软件全球累计用户已超一亿,月活(MAU)突破 1600 万。在如此庞大的用户体量背后,这家 AI 企业究竟凭借什么在海外市场立足,迅速破圈?
不用订阅制,海外用户为什么会为它买单?
爱诗科技能够在海外火出圈,和其产品定位有关。
这款视频生成软件的目标,不是让创作者们把视频做得更好,而是直接定位90%的没有接触过视频制作的小白。

图说/爱诗科技对R1的定义中,用了“下一代”这个词
图源/PixVerse R1
对于普通人来说,清晰度不是他们最care的点。这部分用户的需求更在于,我输入的文字有没有很好地被翻译成视频内容,从情绪价值上来说,他们也更关注创作时的体验感,在创作的时候开不开心,有没有兴奋点。
在这一点上,实时交互技术支持把冒出来的“即时”灵感马上具象化成视频内容,从行业层面来看做出了差异化。
26年初,AI视频生成赛道重新洗牌。长期以来,美国OpenAI的Sora、谷歌的Veo被视为行业标杆,但是几乎一夜之间,中国企业后来居上。昆仑万维 SkyReels V4 与快手可灵 Kling 3.0 Pro先后登顶Artificial Analysis 全球文生视频权威榜单,交替领跑行业第一,字节跳动的Seedance 2.0亦在海外引起大量关注,新加坡媒体更是宣称中国在这条赛道上已经从“追赶者”变成“领跑者”。
如果单论国内赛道,目前该赛道的情况是大厂与独角兽平分秋色,字节腾讯百度都在研发自己的大模型,但是独角兽企业如MINIMAX等也不遑多让。
但是从底层逻辑而言,绝大部分赛道上的AI产品都在卷视频的流畅度,精致度,在性能上做赛跑,但是爱诗科技跳出“卷麻了”的性能怪圈,实时交互技术让爱诗换了一个维度竞争。
在商业模式上,爱诗科技也和其他AI视频生成不同。爱诗没有采用在海外市场广为使用的订阅制,而是采取“买点数”的方法。以国内版为例,刚注册会送你120个闪电,每天签到就送60点,不同难度的视频会耗费不同的点数。
这种商业化模式的核心,在于免费试用降低门槛、靠优质体验驱动自然种草。用户在 AI 视频创作过程中容易产生持续使用的兴趣,进而主动充值购买虚拟币,形成使用频次越高、付费意愿越强的正向循环。而对于普通玩家来说,每日签到攒闪电,有需求的时候就用攒的闪电做个高级的视频。
这种模式不仅能实现商业化转化落地,同时提升产品日活与用户粘性,能够用攒豆豆的方式长期保持用户粘性。不少海内外用户评价其 “为路人用户着想”“比传统订阅制友好太多”“可以攒够额度再生成高质量作品”。
除此之外,用爱诗的AI生成软件所产出的作品,也在社媒上发生过病毒式传播,比如其中的一个变身模板曾经在全球各个平台播放量超过10亿次。外国网友纷纷出教程教大家如何“变身”,加速用户种草。
在这个基础上,爱诗积极本土化。根据不同的市场,以及对应用户不同的情感文化需求,爱诗科技为他们定制不同的热门模板。
比如对欧美市场用户,爱诗就定制了“Hug Your Love”模板,对于墨西哥,印度等感情较为奔放的地区,定制了“KissKiss”模板,单日生成使用峰值均超30万,用户借此创作拥抱耶稣、Brahmin等文化象征的视频,引发共鸣。

图说/爱诗给国内用户设计的模板,可以让老照片动起来
图源/ PixVerse R1
RB 认为,爱诗科技轻量化运营有效打入海外用户心智,将被动付费转化为好奇心驱动的自然选择,并依托自然流量实现用户增长。
结语
在这条“卷麻了”的AI视频生成赛道上,爱诗科技的出海破圈,本质上是一场“反专业主义”的胜利。当大多数AI视频工具还在追逐影视级画质、服务专业创作者时,爱诗选择俯身服务“视频小白”——这群占用户90%的普通人,不在乎分辨率参数,只关心“我的想法有没有被听懂”“创作过程是否好玩”。这种对用户情绪价值的精准捕捉,正是其产品定位的底层逻辑。
且实时交互技术无论是对于未来的社交媒体平台,自媒体作者们,还是对于游戏与电影行业的潜在发展可能性,爱诗的未来都值得期待。
正如博主“瑞哥那”预测,在未来,视频将不再是一个简单的文件夹,而是一个持续发生的内容形态。


