6月24日·星期三 13:03·来源:IT之家

火山引擎发布豆包音频生成模型 1.0,支持多模态参考生成与长时音色一致性09:399评

火山引擎近日发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0)。该模型首次支持多模态参考生成,可将文本、音频等任意模态输入端到端转化为目标音频,并在长时生成场景中保持多角色音色一致性。用户可通过单条Prompt编排角色对白、情绪语气、背景音乐及环境氛围,直接产出完整音频作品,改变了传统人声、音效、音乐分开制作再合成的流程。目前,火山方舟已开启该模型API邀测,个人用户可在体验中心享有30分钟创作额度。此外,该模型即将上线剪映、即梦、番茄等产品。技术方面,模型支持2分钟音频创作,并可通过参考输入延长音频,实现音色可控;同时实现音色与风格解耦,支持“一声多角”差异化表达,降低声音创作门槛。
本文摘要由千智坊基于公开报道整理,查看完整内容:阅读原文(IT之家)→