苹果推出 STARFlow-V：一种颠覆传统的视频生成模型

AiGoe.com › 首页 › AI快讯 ›

苹果推出 STARFlow-V：一种颠覆传统的视频生成模型

AI快讯 2025-12-8 15:45 64人浏览 0人回复

删除收藏分享邀请

摘要

1. STARFlow-V 使用归一化流技术，提升长视频片段生成的稳定性和效率。 2.该模型支持多种视频生成和编辑任务，展现出强大的灵活性。 3.苹果计划在未来优化计算速度和物理准确性，持续推进视频生成技术的发展。 ...

苹果公司近期推出了其最新的视频生成模型 STARFlow-V，该模型在技术上与市场上的竞争对手如 Sora、Veo 和 Runway 存在明显差异。STARFlow-V 的设计重点在于增强长视频片段的稳定性，它采用了 “归一化流” 技术，而不是当前主流的扩散模型。

苹果公司表示，STARFlow-V 是首个在视觉质量和生成速度上能够与扩散模型相媲美的产品，尽管其输出分辨率为640×480像素，并且以每秒16帧的速度生成。与扩散模型通过多次迭代逐步去噪声的方式不同，STARFlow-V 通过学习随机噪声与复杂视频数据之间的直接数学变换，在单次训练中完成视频生成，极大提高了训练效率，减少了步骤生成时可能出现的错误。

该系统能够灵活处理多种任务，包括标准的文本转视频、图像转视频（以输入图像作为起始帧）以及视频编辑等功能。针对超过训练长度的视频，STARFlow-V 采用了滑动窗口技术，生成一个片段后保留最后几帧的上下文，并继续生成。然而，演示片段的时间变化显示出有限的多样性。

在生成长序列时，通常面临逐帧生成导致的错误累积问题。为了解决这个问题，STARFlow-V 采用了双重架构，一部分负责跨帧的时间序列管理，另一部分则专注于单帧的细节优化。为了稳定优化过程，苹果在训练时加入了一定量的噪声，尽管这可能导致视频略显颗粒，但并行的 “因果去噪网络” 会在保留运动一致性的同时去除残余噪声。

在训练过程中，苹果使用了7000万对文本 - 视频数据，结合了400万对文本 - 图像数据，利用语言模型将视频描述扩展为九种不同变体。经过几周的训练，模型的参数从30亿增加到70亿，并不断提高分辨率和视频长度。

尽管 STARFlow-V 在 VBench 基准测试中的得分为79.7，略逊于一些领先的扩散模型，但其在自回归模型中的表现依然优异，展现出在空间关系和人类表现方面的显著优势。未来，苹果将继续致力于提高计算速度、优化模型和强调物理准确性的训练数据。

上一篇：粤语数字化里程碑!广州大学发布 AI-DimSum 多模态语料库平台

下一篇：406B参数空降！腾讯混元2.0开启内测，推理性能自称“国内第一梯队” ...

本文暂无评论，快来抢沙发!

您还未登录：
登录账号
立即注册

admin 关注Ta

0 粉丝545 主题

该作者很懒，什么也没有填写

近期文章