海外用户超一亿，前字节老兵做了一个可以实时“改剧情”的AI

你的AI视频穿帮过吗？

只需要一张图，就可以给美国总统特朗普做一头茂密的卷发。

不需要复杂的步骤，你也可以像漫威英雄毒液一样变身。

把想法扔进大模型后用不了几秒，你脑海中的世界就会在你眼前展开。但如果突然想即兴再加点元素，比如来点雪花之类的呢？需不要回到前几步去调整呢？这样很容易把之前做好的东西弄乱哎。

爱诗科技给出了一个解法，在节前发布的PixVerse R1模型可以让用户通过语音和文字，去实时干涉视频的情节。

近日，该公司宣布完成3亿美元C轮融资（约合人民币20.6亿元）。这则消息为持续升温的AI视频生成赛道再投下一枚重磅。

长期以来，爱诗在AI视频生成赛道的表现亮眼，全球权威AI评估机构Artificial Analysis最新发布的视频生成模型排行榜显示，爱诗科技旗下PixVerse V5.6模型位列全球第二位。在25年底，爱诗ARR超过4000万美元（折合2.7亿人民币），全球用户数超一亿。

在AI视频生成赛道火热的今天，爱诗科技的产品做出了那些差异化，能够引得二十多家投资机构齐齐为它投票？巨头纷纷下场，“卷麻”了的 AI视频生成赛道中，爱诗科技又是如何俘获海外一亿用户的呢？

“卷麻了”的赛道上，爱诗有什么不同？

虽然AI视频生成赛道，都在卷“世界模型”的概念，但是爱诗却在这条道路上给出一个不一样的解法。

有网友分享自己使用PixVerse的经历，当输入“我漫步在台北的街头”，在视频生成的过程中，如果突然补一句“台北下起了雨”，画面中的光影和镜头会在约1秒左右实现平滑过渡，雨丝也实时出现。

与行走在现实世界中，天空突然飘雨的场景几乎一样。

从这个设计出发，可以一窥爱诗对“世界模型”的定义：让 AI 通过学习足够多事物运行的规律，产生一个可预测模拟物理、因果、时空等规律的模型。

在过去两年，“AI缺少常识”是网友“打假”与区分AI视频“的一个重要标志。

“一个西瓜，明明是横着切的，但是这西瓜却是竖着打开的，一看就是AI做的！”

“风吹过，草却没有动，又一个AI视频露出马脚了。”

所以爱诗科技提出的预测和模拟，可以让生成的视频更加符合现实中的自然科学规律，创造“沉浸式”体验。

博主“瑞哥那”在他的测评视频中点评道：“（根据你输入的内容同步改变视频的内容）就好像里面的人物他接受到了一个指令，所有的事物都会围绕你的指令去产生变化，同时也符合物理的规律。”

据爱诗科技的官网介绍其产品与 Sora、Runway、国内竞品的核心差异，集中在实时交互、低门槛创作、全链路一体化、本土化与性价比四大维度。而这点，就是非常吸引网友与AI测评博主关注的实时交互。

图说/爱诗PixVerse R1的创作界面
图源/ PixVerse R1

爱诗科技的创始人兼CEO王长虎有二十多年计算机视觉领域的从业经验，曾经在字节期间参与主导过抖音和Tik Tok从0到1的搭建，可谓是行业老兵。

但一般而言，视频玩家都会关注清晰度，行业普遍认为画面是否清晰是衡量视频质量好坏的一个重要标准。但 “瑞哥那”与不少网友指出了R1生成的视频质量和画面质感相比其他产品来说较低。

为什么一个生成画质不那么清晰的AI软件会获得这笔大额融资？

有AI科技博主指出：或许画质清晰与否，并不是爱诗科技的当下重点。

这次投资共吸引了二十几家投资机构与企业参与，在这个行业名单中，有两家“不太一样”的公司引起了不少人的兴趣——中国儒意和三七互娱。前者投资过《流浪地球》等知名电影，后者则是一家游戏公司。

拍电影的和做游戏的投AI视频工具，RB认为，关键在于他们是为世界模型思路下的“实时交互”逻辑买单。

以游戏为例，实时交互是实现游戏“沉浸式”体验的一个重点，现实中的人与虚拟世界如何互相作用。而PixVerse R1使用了瞬时响应引擎，可以把传统扩散模型所需的50+采样步数压缩至1–4步，让动态画面进入人眼可感知的“即时”响应阈值，达到“一边渲染一边播放的效果”。

图说/博主“瑞哥那”展示PixVerse R1的瞬时响应技术，视频内容是一个士兵不慎摔倒在雪地上，滑落到坦克旁边，随后坦克爆炸
图源/小红书博主@瑞哥那

但目前爱诗的模型也有显著的短板。比如虽然理论上可以无限生成视频，但是目前由于算力消耗太大，每个模板只能体验5分钟。另外，如果输入的文字概念比较模糊，则生成的视频也会差强人意。小编在试用软件的过程中发现，对于如“清新”“自然”等抽象概念，以及网络流行热词如“高智感”“可露丽风”等的把控，还有待加强。

比如小编曾经输入“一个女生，长发，身高1米66，民国风。男生不戴眼镜，高智感。男生与女生差不多个子，他们牵手走在香港的街头。要求有浪漫氛围。” 结果第一次生成了如下图片：

图说/小编第一次生成的图片，女孩形象和小编输入的内容还是有点差距的
图源/PixVerse R1

之后小编在没有更改文字的情况下点击重新生成，得到如下图片。

图说/小编按原文字重新生成的内容，这次更对味一点
图源/PixVerse R1

看来和其他AI模型一样，还是需要多跑几遍。

截至目前，该软件全球累计用户已超一亿，月活（MAU）突破 1600 万。在如此庞大的用户体量背后，这家 AI 企业究竟凭借什么在海外市场立足，迅速破圈？

不用订阅制，海外用户为什么会为它买单？

爱诗科技能够在海外火出圈，和其产品定位有关。

这款视频生成软件的目标，不是让创作者们把视频做得更好，而是直接定位90%的没有接触过视频制作的小白。

图说/爱诗科技对R1的定义中，用了“下一代”这个词
图源/PixVerse R1

对于普通人来说，清晰度不是他们最care的点。这部分用户的需求更在于，我输入的文字有没有很好地被翻译成视频内容，从情绪价值上来说，他们也更关注创作时的体验感，在创作的时候开不开心，有没有兴奋点。

在这一点上，实时交互技术支持把冒出来的“即时”灵感马上具象化成视频内容，从行业层面来看做出了差异化。

26年初，AI视频生成赛道重新洗牌。长期以来，美国OpenAI的Sora、谷歌的Veo被视为行业标杆，但是几乎一夜之间，中国企业后来居上。昆仑万维 SkyReels V4 与快手可灵 Kling 3.0 Pro先后登顶Artificial Analysis 全球文生视频权威榜单，交替领跑行业第一，字节跳动的Seedance 2.0亦在海外引起大量关注，新加坡媒体更是宣称中国在这条赛道上已经从“追赶者”变成“领跑者”。

如果单论国内赛道，目前该赛道的情况是大厂与独角兽平分秋色，字节腾讯百度都在研发自己的大模型，但是独角兽企业如MINIMAX等也不遑多让。

但是从底层逻辑而言，绝大部分赛道上的AI产品都在卷视频的流畅度，精致度，在性能上做赛跑，但是爱诗科技跳出“卷麻了”的性能怪圈，实时交互技术让爱诗换了一个维度竞争。

在商业模式上，爱诗科技也和其他AI视频生成不同。爱诗没有采用在海外市场广为使用的订阅制，而是采取“买点数”的方法。以国内版为例，刚注册会送你120个闪电，每天签到就送60点，不同难度的视频会耗费不同的点数。

这种商业化模式的核心，在于免费试用降低门槛、靠优质体验驱动自然种草。用户在 AI 视频创作过程中容易产生持续使用的兴趣，进而主动充值购买虚拟币，形成使用频次越高、付费意愿越强的正向循环。而对于普通玩家来说，每日签到攒闪电，有需求的时候就用攒的闪电做个高级的视频。

这种模式不仅能实现商业化转化落地，同时提升产品日活与用户粘性，能够用攒豆豆的方式长期保持用户粘性。不少海内外用户评价其 “为路人用户着想”“比传统订阅制友好太多”“可以攒够额度再生成高质量作品”。

除此之外，用爱诗的AI生成软件所产出的作品，也在社媒上发生过病毒式传播，比如其中的一个变身模板曾经在全球各个平台播放量超过10亿次。外国网友纷纷出教程教大家如何“变身”，加速用户种草。

在这个基础上，爱诗积极本土化。根据不同的市场，以及对应用户不同的情感文化需求，爱诗科技为他们定制不同的热门模板。

比如对欧美市场用户，爱诗就定制了“Hug Your Love”模板，对于墨西哥，印度等感情较为奔放的地区，定制了“KissKiss”模板，单日生成使用峰值均超30万，用户借此创作拥抱耶稣、Brahmin等文化象征的视频，引发共鸣。

图说/爱诗给国内用户设计的模板，可以让老照片动起来
图源/ PixVerse R1

RB 认为，爱诗科技轻量化运营有效打入海外用户心智，将被动付费转化为好奇心驱动的自然选择，并依托自然流量实现用户增长。

结语

在这条“卷麻了”的AI视频生成赛道上，爱诗科技的出海破圈，本质上是一场“反专业主义”的胜利。当大多数AI视频工具还在追逐影视级画质、服务专业创作者时，爱诗选择俯身服务“视频小白”——这群占用户90%的普通人，不在乎分辨率参数，只关心“我的想法有没有被听懂”“创作过程是否好玩”。这种对用户情绪价值的精准捕捉，正是其产品定位的底层逻辑。

且实时交互技术无论是对于未来的社交媒体平台，自媒体作者们，还是对于游戏与电影行业的潜在发展可能性，爱诗的未来都值得期待。

正如博主“瑞哥那”预测，在未来，视频将不再是一个简单的文件夹，而是一个持续发生的内容形态。