6月24日·星期三 13:03·来源：IT之家

火山引擎发布豆包音频生成模型 1.0，支持多模态参考生成与长时音色一致性09:399评

火山引擎近日发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0）。该模型首次支持多模态参考生成，可将文本、音频等任意模态输入端到端转化为目标音频，并在长时生成场景中保持多角色音色一致性。用户可通过单条Prompt编排角色对白、情绪语气、背景音乐及环境氛围，直接产出完整音频作品，改变了传统人声、音效、音乐分开制作再合成的流程。目前，火山方舟已开启该模型API邀测，个人用户可在体验中心享有30分钟创作额度。此外，该模型即将上线剪映、即梦、番茄等产品。技术方面，模型支持2分钟音频创作，并可通过参考输入延长音频，实现音色可控；同时实现音色与风格解耦，支持“一声多角”差异化表达，降低声音创作门槛。

本文摘要由千智坊基于公开报道整理，查看完整内容：阅读原文（IT之家）→