返回顶部
AiGoe.com 首页 AI快讯

苹果推出 STARFlow-V:一种颠覆传统的视频生成模型

AI快讯 2025-12-8 15:45 64人浏览 0人回复
摘要

1. STARFlow-V 使用归一化流技术,提升长视频片段生成的稳定性和效率。 2.该模型支持多种视频生成和编辑任务,展现出强大的灵活性。 3.苹果计划在未来优化计算速度和物理准确性,持续推进视频生成技术的发展。 ...

 苹果公司近期推出了其最新的视频生成模型 STARFlow-V,该模型在技术上与市场上的竞争对手如 Sora、Veo 和 Runway 存在明显差异。STARFlow-V 的设计重点在于增强长视频片段的稳定性,它采用了 “归一化流” 技术,而不是当前主流的扩散模型。

苹果公司表示,STARFlow-V 是首个在视觉质量和生成速度上能够与扩散模型相媲美的产品,尽管其输出分辨率为640×480像素,并且以每秒16帧的速度生成。与扩散模型通过多次迭代逐步去噪声的方式不同,STARFlow-V 通过学习随机噪声与复杂视频数据之间的直接数学变换,在单次训练中完成视频生成,极大提高了训练效率,减少了步骤生成时可能出现的错误。

该系统能够灵活处理多种任务,包括标准的文本转视频、图像转视频(以输入图像作为起始帧)以及视频编辑等功能。针对超过训练长度的视频,STARFlow-V 采用了滑动窗口技术,生成一个片段后保留最后几帧的上下文,并继续生成。然而,演示片段的时间变化显示出有限的多样性。

在生成长序列时,通常面临逐帧生成导致的错误累积问题。为了解决这个问题,STARFlow-V 采用了双重架构,一部分负责跨帧的时间序列管理,另一部分则专注于单帧的细节优化。为了稳定优化过程,苹果在训练时加入了一定量的噪声,尽管这可能导致视频略显颗粒,但并行的 “因果去噪网络” 会在保留运动一致性的同时去除残余噪声。

在训练过程中,苹果使用了7000万对文本 - 视频数据,结合了400万对文本 - 图像数据,利用语言模型将视频描述扩展为九种不同变体。经过几周的训练,模型的参数从30亿增加到70亿,并不断提高分辨率和视频长度。

尽管 STARFlow-V 在 VBench 基准测试中的得分为79.7,略逊于一些领先的扩散模型,但其在自回归模型中的表现依然优异,展现出在空间关系和人类表现方面的显著优势。未来,苹果将继续致力于提高计算速度、优化模型和强调物理准确性的训练数据。

本文暂无评论,快来抢沙发!

推荐阅读
热门问答
AiGoe.com 成立于2014年8月,是目前国内优秀的开源技术社区,拥有超过300万会员,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2001-2020, Tencent Cloud. |
  • | 营业执照 | |星点互联科技有限公司|鲁ICP备19001237号-21|鲁公网安备 4236902302000354号