AI竞赛焦点已经开始转向多模态,字节和快手在AI视频赛道的竞争也日趋激烈。
近日,快手正式发布可灵2.0视频生成模型及可图2.0图像生成模型,将视频及图像创作的精准度带上一个新高度。同期,字节Seed团队正式发布Seedream 3.0 技术报告,据第三方榜单Artificial Analysis,Seedream 3.0综合性能已追平文生图SOTA模型GPT-4o,进入全球第一梯队。
作为短视频平台,字节和快手被认为是AI多模态领域的有力竞争者。经过一年多的技术追赶,双方在AI视频生成领域都取得了不错的进展。
根据AI产品榜3月数据,在全球AI产品增速榜(仅APP)上,即梦AI 以173.57%的月活增速位居第5,是增速最快的AI视频应用,其月活规模约2037万,而可灵AI的增速仅为36.44%,排名第14。根据快手公布的数据,截至目前,可灵AI全球用户规模突破2200万。
不过,AI视频生成领域尚未涌现类似DeepSeek在大型语言模型(LLM)领域的标杆性产品。一位业内人士对华尔街见闻表示,当前,AI视频生成赛道仍处于“技术突破期”,这也意味着,字节和快手的竞争仍处于早期阶段。
过去十年,快手和抖音相继崛起,共同开创了中国的短视频时代。如今,AI时代加速到来,这一次,快手和字节谁的胜算更大一点?
1 追赶
AI视频生成领域还处于产品应用爆发前的阶段,业内玩家都在试图通过持续的技术迭代,来实现产品的不断破圈。
进入2025年,快手和字节都开始推出重大技术迭代成果。
4月15日,快手正式发布可灵AI 2.0视频生成模型及可图2.0图像生成模型。可灵AI 2.0的最大亮点在于以技术革新重新定义AI视频生成标准:从“能生成”到“精准生成”,从“工具辅助”到“创意伙伴”。
发布会上,快手发布了AI视频生成的全新交互理念Multi-modal Visual Language(MVL),MVL由TXT(Pure Text,语义骨架)和MMW(Multi-modal-document as a Word,多模态描述子)组成,能从视频生成设定的基础方向以及精细控制这两个层面,精准实现AI创作者们的创意表达。
基于MVL,快手发布了全新的可灵AI 2.0大师版,它全面升级视频及图像创作可控生成与编辑能力,上线全新的多模态视频编辑功能,支持二次编辑和处理。
当前,图生视频约占到可灵AI视频创作量的85%,快手发布的可图2.0拥有多项核心优势,比如,强大的复杂语义理解能力、电影级的画面质感等。快手副总裁、可灵AI负责人张迪介绍,可图2.0文生图能力迎来全面升级,模型出图创意和想象力实现大幅跃升。
在快手召开发布会的次日,字节旋即披露了其文生图模型Seedream 3.0的技术白皮书。
4月16日,字节发布 Seedream 3.0 技术报告,距离字节公布Seedream 2.0技术报告仅过去一个月有余。Seedream 3.0的最大亮点包括原生2K直出,而且时间仅用3 秒,大幅提升创作效率。Seedream 3.0 目前已在即梦AI等平台全量开放。
华尔街见闻获悉,Seedream 3.0 的研发始于2024年末,通过调研设计师等群体的实际需求,Seedream 团队将图文匹配、美感等行业共识性指标纳入攻坚方向,同时,也将挑战2K 高清直出、快速图片生成等业界难题作为核心目标。
无论是可灵AI的二次编辑功能,还是即梦AI的原生2K画质,都是通往产业级应用的必经之路。事实上,也只有达到产业级应用状态,AI视频生成的价值也才有望体现。
如此紧追不舍的竞争态势背后,快手和字节过去一年持续对AI视频生成赛道进行布局。
2024年初,Open AI通过Sora正式入局视频生成领域,引发全世界关注。彼时,快手在攻克文生视频的关键技术,4个月后,快手就发布了视频生成大模型可灵,成为国内首个对标Sora的产品。
字节2023年才开始在内部会议上讨论GPT,但追赶速度较快,去年底,字节的视频生成模型和产品正式推向了市场。
去年9月,字节一举发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,正式宣告进军AI视频生成。11月,原抖音集团CEO张楠转战剪映近一年后正式亮相,即梦AI推出了“一句话P图”等能力,大幅提升了图片中文字生成的准确率。
即梦AI在字节内部的重要性显著提升。华尔街见闻获悉,即梦AI所代表的视觉化产品被看好,字节试图将即梦打造成AI时代的“抖音”。2月,原零一万物 PopAI 产品负责人曹大鹏加入即梦AI,负责移动端产品。他此前用一年时间将PopAI做到了千万用户,且投资回报率(ROI)接近收支平衡点,是一名得力干将。
如今,快手和字节再次交战,他们都在试图将模型技术带入生产级赛道。
2 押注
对于AI视频生成赛道,字节和快手无疑是国内反应最快速的科技公司。
原因也很容易理解,他们都依靠短视频起家,天然更懂视频创作。更重要的是,字节和快手都有FOMO(Fear of Missing Out)心理。当年,快手和字节因为降低了普通人制作视频的门槛,从而构建了视频生态,如今,AI会进一步降低视频生成门槛,更具颠覆性。
本质上,字节和快手想要在AI时代复制出一个新的“抖音”和“快手”,从而成功跨过新一轮AI技术周期。
就当下而言,字节和快手对AI视频赛道的策略各有侧重。
对快手来说,AI是破解公司增长曲线难题的最大抓手。除了C端订阅用户,可灵AI也面向B端商家提供API接入等服务,可灵AI已与包括小米、亚马逊云科技等企业建立了合作关系。盖坤披露,来自世界各地的超1.5万开发者,已将可灵AI的API应用于不同的行业场景中。
3月25日,快手科技创始人兼首席执行官程一笑在电话会上透露,自商业化以来截至2025年2月底,可灵AI的累计营业收入超1亿元人民币。他表示,快手将会在ROI可控的前提下,不断扩大可灵AI的用户宣传和品牌影响力。“我们有信心在2025年实现可灵AI营收规模的跨越式增长。”
对字节来说,即梦AI是整个AI战略的核心版图,也是公司通往AGI所必须攻克的难题。
年初,字节豆包大模型团队已在内部组建AGI长期研究团队,代号“Seed Edge”,鼓励项目成员探索更长周期、不确定的和大胆的AGI研究课题,Seed Edge的目标是探索AGI的新方法,鼓励跨模态、跨团队合作。
去年底,张楠曾表示,抖音,是一个“真实世界”的相机,借助GenAI技术,即梦希望成为想象力世界的相机,记录每个人的奇思妙想,帮助每个有想法的人轻松表达、自由创作。
随着快手发布全新2.0模型,业内都在期待字节的下一步动作,尤其是豆包视频生成模型1.5版何时会推出,双方之间的技术追赶还是持续进行。
不过,对于AI视频生成赛道的前景,目前仍处于探索阶段。
百亿私募和谐汇TMT软件组凌晨对华尔街见闻表示,产业界对Sora为代表的AI视频生成产品分歧点主要在于,如果把Sora当成AIGC的视频生产工具,它的价值量不会特别大,可能就颠覆一下创意软件这些工具,如果Sora是一个通用的视频武器的话,它的想象力很大,比如,跟机器人进行结合。
近日,生数科技产品副总裁、Vidu产品负责人廖谦表示,当多模态可以做到实时可控、可交互的时候,它可以是完全个性化的,届时一定会诞生出带来新体验的内容平台,这个技术将应用在社交、游戏、VR、AR等多个领域,会对所有的行业带来非常深远的影响。
整体来看,相较于大语言模型,AI视频生成赛道面临的挑战会更大,无论是Scaling law还是算力需求消耗,乃至商业模式的探索,复杂程度都在上升。
这注定是一个难度更高的赛道,字节和快手虽然具备视频平台基因,但要想跑到最后,还需要持续创新,才有可能在Veo2 、Runway、Pika等一众全球竞争对手中占有一席之地。
*本文为全天候科技原创作品,未经授权不得转载,如需转载,请在后台回复“转载”二字,获取转载格式要求。
本文来自微信公众号 “全天候科技”(ID:iawtmt),作者:刘宝丹,36氪经授权发布。