首页 > 新车测评 > 新车测评 > 苹果联合人大发布VSSFlow模型:无声视频AI同步生成音效与配音

苹果联合人大发布VSSFlow模型:无声视频AI同步生成音效与配音

发布时间:2026-02-10 19:24:57来源: 15210273549

2 月 10 日消息,科技媒体 9to5Mac 昨日(2 月 9 日)发布博文,报道称苹果公司携手中国人民大学(简称人大),推出 VSSFlow 新型 AI 模型,突破了传统音频生成技术的瓶颈,仅需单一系统即可从无声视频中同时生成逼真的环境音效与人类语音。

该模型的核心能力在于“化静为动”,能够直接处理无声视频数据,在单一系统的框架下,同步生成与画面高度匹配的环境音效以及精准的语音对话。该成果不仅解决了过去音频生成模型功能单一的问题,更在生成质量上达到了行业领先水平。

IT之家援引博文介绍,在 VSSFlow 问世之前,行业内的模型往往存在严重的偏科现象:视频转声音模型(V2S)难以生成清晰的语音,而文本转语音模型(TTS)又无法处理复杂的环境噪音。

传统的解决方案通常是将两者分阶段训练,这不仅增加了系统的复杂性,还常因任务冲突导致性能下降。VSSFlow 则另辟蹊径,采用了 10 层架构设计并引入“流匹配”技术,让模型自主学习如何从随机噪声中,重构出目标声音信号。

研究团队在训练过程中发现了一个令人惊喜的现象:联合训练不仅没有导致任务干扰,反而产生了“互助效应”。即语音数据的训练提升了音效生成的质量,而音效数据的加入也优化了语音的表现。

团队为了实现这一效果,向模型投喂了混合数据,包括配有环境音的视频、配有字幕的说话视频以及纯文本转语音数据,并利用合成样本微调模型,让其学会同时输出背景音与人声。

在实际运行中,VSSFlow 以每秒 10 帧的频率从视频中提取视觉线索来塑造环境音效,同时依据文本脚本精确引导语音生成。

新车测评更多>>

谷歌开始大面积封禁OpenClaw用户账号! 麒麟9030+红枫四摄!华为新机曝光:3月正式发布 苹果联合人大发布VSSFlow模型:无声视频AI同步生成音效与配音 中国“英伟达”诞生!拥有100%全自研技术,国产替代即将崛起! 继续为AI雄心筹资!兜售200亿美元债后,谷歌(GOOGL.US)再发英镑与瑞郎债 NEXON游戏《潜水员戴夫》中国上线登顶付费榜 在App Store夺冠 苹果推出丙午马年新春特别企划 多元体验筑造浓浓年味 得物App推出AR试穿试戴、3D陀螺仪、寻香助手等创新功能 60秒出电影级成片!Seedance2.0引爆AI视频,机遇与争议并存 4字头的iPhone17来了!免税版国行iPhone,首次现身珠海 中国信通院:2025年国内市场手机出货量3.07亿部,同比下降2.4% 2025年全球智能手机市场微增2%,苹果三星领跑,华为国内重登榜首 单季狂赚3000亿;iPhone 17 全球卖疯了!苹果用最\"狠\"业绩回击一切质疑 从上春晚到撒15亿,腾讯、宇树们血拼春节档? 阿里加入春节红包大战,千问APP计划向用户派发上亿红包 VerseCrafter:给视频世界模型装上4D方向盘,精准运镜控物 全球首个GW级算力集群!马斯克宣布xAI旗下Colossus 2投入运行,距离开工建设不到1年! 甘肃退伍老兵,抱紧黄仁勋,狂揽上千亿 两部门:商业用房(含“商住两用房”)购房贷款最低首付款比例调整为不低于30% 股海导航_2026年1月19日_沪深股市公告与交易提示 国泰海通证券:维持优然牧业“增持”评级 大股东定增彰显信心 机器人最快千亿独角兽诞生!黄仁勋投了 技术鱼池充分证明比亚迪技术一直走在市场前面 回老家过年,男生开什么车有面?20万预算建议选这3款 “蹭热点式”布局“脑机接口”业务?亚辉龙遭监管警示 黄金、白银直线拉升!发生了什么? 安装空调更省心 小米宣布数字抽真空服务覆盖7省级行政区 衡水枣强县大营镇:AI设计皮草有了版权“护身” 荣耀X80曝光:万级电池手机、千元档位 春节前推出 荣耀Magic8 RSR保时捷设计爆料