观韬视点│AIGC生成声音的合规治理
作者:李洪江 肖媛月
摘要:
AIGC声音生成技术是人工智能生成内容(AIGC)在音频领域的重要分支,它以大语言模型为核心,突破了传统文本转语音(Text-to-Speech,TTS)技术的局限,实现了从“读文字”到“理解并生成声音”的转变。本文系统梳理了AIGC声音生成技术的演进脉络、核心运行机制与数据支撑体系,重点分析了语音tokenizer与语音大语言模型(SLM)的技术原理,并对合规风险进行了探讨。
关键词:
AIGC声音生成;语音大语言模型;语音tokenizer;零样本克隆;配音行业;声音合规
2022年谷歌提出的AudioLM模型,将“音频即语言”的思想付诸实践,开启了大模型驱动的通用声音生成时代。这一技术突破打破了传统TTS技术“文本分析前端→声学模型→音频合成模块”的架构,通过语音tokenizer将所有声音统一表示为离散的数字符号,从而将声音生成问题转化为大语言模型擅长的序列预测问题。短短三年间,AIGC声音生成技术实现了指数级迭代,从最初的语音续写发展到零样本声音克隆、跨语言合成、多模态声音生成等多个方向,成为人工智能领域最具活力的研究热点之一。本文从技术原理、训练数据、合规治理三个维度,对AIGC声音生成技术进行了全面深入的分析。
一、AIGC声音生成的技术原理
(一)技术演进:从TTS到通用声音生成
人工智能声音生成技术的发展,本质上是人类探索机器如何理解并模拟整个声音世界的过程。从早期只能合成机械语音的拼接技术,到如今大模型驱动的通用声音生成,该领域经历了三次重大范式转移,每一次都带来了音质、自然度和应用范围的革命性提升。前两个阶段主要聚焦于人类语音合成,而2022年开启的第三阶段则突破了这一限制,实现了对绝大多数常见类型声音的生成能力。
第一阶段为拼接式与统计参数TTS时代(1950s—2010s)。拼接式TTS通过预先录制大量语音单元(音素、音节、单词等),再根据输入文本按语法规则拼接生成语音,虽能生成可理解的语音,但存在明显的“机械感”和“拼接痕迹”,且只能生成预先录制过的说话人声音。统计参数TTS通过建立人类语音的统计模型,从文本预测基频、共振峰、时长等声学参数,再通过声码器转换为语音波形,解决了灵活性差的问题,但生成的语音存在明显的“电音”问题,自然度仍无法满足需求。这一阶段的技术完全不具备生成音乐、鸟叫、环境音等其他类型声音的能力。
第二阶段为端到端神经TTS时代(2010s-2022)。2017年谷歌提出的Tacotron模型实现了从文本直接到梅尔频谱的端到端映射,彻底打破了传统TTS“文本分析前端→声学模型→音频合成模块”的三阶段架构。随后,FastSpeech、VITS等模型进一步提升了语音合成的速度和质量,使端到端神经TTS逐渐成为行业主流。然而,其局限性依然明显,只能生成人类语音;需要大量高质量的文本-语音配对语料训练,难以实现零样本声音克隆;对情感和风格的建模能力有限。
第三阶段为大模型驱动的通用声音生成时代(2022至今)。2022年9月,谷歌提出的AudioLM模型首次将“音频即语言”的思想付诸实践,开启了AIGC声音生成的新纪元。这一范式将任意声音波形转为离散符号,再用大语言模型预测序列,彻底将声音生成转化为通用序列预测任务。2023年初,微软VALL-E率先在语音领域使用该技术,实现3秒音频克隆任意人声的零样本合成。此后AIGC声音生成技术实现了指数级迭代,扩散模型如Meta的MusicGen显著提升了音乐及声效的创作质量与可控性;“全能型模型”如NVIDIA UALM实现了听觉理解、推理与跨模态生成的统一;谷歌Gemini TTS 2.5等则展现了深度语义感知下的细腻情感表达。至此,AI听觉技术已全面超越传统语音合成范畴,迈入具备全类型声音生成、零样本泛化及多模态交互能力的通用听觉智能阶段。
(二)核心运行机制:语音token化+大语言模型
现代AIGC声音生成系统的核心运行机制可以概括为“语音token化+大语言模型”。与传统TTS技术“文本分析前端→声学模型→音频合成模块”的三阶段不同,AIGC声音生成系统首先通过语音tokenizer将声音统一表示为离散的数字符号,然后使用大语言模型学习这些符号的生成规律,最后通过生成解码器将符号序列还原为高保真的声音波形。这种架构实现了人类语音、音乐、音效等所有声音在大模型层面的统一表示,使得大语言模型能够像处理文本一样处理任何声音。
1. 语音tokenizer:将连续声音转化为离散语言符号
语音tokenizer是AIGC声音生成技术的基础组件,也是连接“声音世界”和“大模型世界”的核心桥梁(在声音离散化路线下)。大语言模型天生只能处理离散的文本符号,而声音是连续的模拟信号。一段1秒的声音,采样率为44.1kHz时,就包含44100个连续的浮点数,直接处理会导致计算量爆炸。语音tokenizer的作用就是将任意连续的声音波形压缩为一串离散的数字符号(token),从而将所有声音的生成问题都转化为大语言模型擅长的序列预测问题。
这也是AIGC能够生成所有类型声音的根本原因。语音tokenizer是一个通用的声音编码器,不区分人类语音、音乐、鸟叫等不同类型的声音,所有连续的声音信号都被统一转换为相同格式的离散token序列。对于大语言模型来说,生成人类语音和生成鸟叫没有本质区别。
目前主流的语音tokenizer是Meta在2022年10月提出的EnCodec神经编解码器,由编码器、残差向量量化器(RVQ)和解码器三部分组成。EnCodec采用24kHz采样率,将1秒的声音压缩为75个token,实现了数十倍的压缩率,且人耳几乎无法分辨原始声音和还原声音的区别。
现代语音tokenizer的核心设计是分层token,这是实现“零样本克隆”和“风格控制”的关键。EnCodec采用8层残差向量量化,将声音分解为8个不同层次的token,前几层主要编码语义内容,后几层主要编码声学特征。2025年BiCodec进一步优化了这一设计,将声音明确分解为语义token和全局token两类。语义token编码声音的语言内容,具备强文本-语音对齐能力;全局token编码说话人身份、音色、整体风格、情绪基调等全局静态属性。这种彻底的解耦设计,使得模型在推理阶段只要替换全局token,就能在不改变语义内容的前提下,将任意文本转换为目标说话人的语音,这是现代大模型实现推理阶段零样本声音克隆的核心技术机制。
2. 语音大语言模型(SLM):学习声音的生成规律
语音大语言模型是AIGC声音生成的核心,负责学习离散声音token的序列规律。它与传统TTS都基于Transformer,但用的是两种截然不同的Transformer架构范式:现代SLM采用GPT、Llama完全同源的Decoder-only自回归架构,实现了从“专用声学模块”到“通用序列模型”的范式跃迁。
训练范式上,SLM遵循“大规模自监督预训练+轻量微调”:先在数十万至数千万小时未标注混合声音数据上学习通用声音token的生成规律,通过统计概率预测下一个token;再用少量文本-语音配对数据建立跨模态映射,并通过指令微调执行复杂需求(如“低沉男声朗读+雨声背景”)。传统TTS则缺乏大规模自监督预训练阶段,只能在有限配对语料上从头学习固定的“文本→声学特征”映射。
架构差异直接划定了能力边界。传统TTS采用Encoder-Decoder结构,输入纯文本,输出梅尔频谱等中间特征,必须外挂独立声码器转成波形。现代SLM采用纯Decoder结构,支持文本与声音token混合输入,直接预测下一个声音token,无需外挂声码器即可生成最终音频。
因此,传统TTS是专用声学转换工具,泛化弱、无语义理解;SLM则是多模态智能体,能零样本克隆绝大多数常见音色、切换语言方言、叠加音效,单一模型即可覆盖语音合成、识别、翻译、音乐及环境音生成等任务。这正是AIGC生成各类声音的技术根基。
3. 生成解码器:将token还原为高保真波形
生成解码器是AIGC声音生成系统的最后一环,负责将上游模型输出的中间表示转换为可播放的连续声音波形,其性能直接决定了合成声音的音质与自然度。
在传统TTS架构中,生成解码器与声码器完全等价。声学模型输出梅尔频谱这类中间声学特征后,必须由声码器完成到最终波形的转换。早期声码器主要分为两类:基于自回归的WaveNet能够生成高保真波形,但推理速度较慢,无法满足实时需求;基于信号处理的Griffin-Lim推理速度快,但音质粗糙。2020年提出的HiFi-GAN结合生成对抗网络的优势,在保持高保真音质的同时将推理速度提升两个数量级,成为传统TTS时代应用最广泛的声码器之一。
进入基于离散token的现代SLM架构后,独立的声码器已被淘汰,生成解码器演变为语音tokenizer的内置组成部分。完整的语音tokenizer包含编码器、量化器与解码器三个模块,其中解码器承担了生成最终波形的功能。与传统声码器输入梅尔频谱不同,现代生成解码器的输入是SLM输出的离散声音token,无需额外的声学特征转换步骤,这也是SLM架构更简洁、推理速度更快的核心原因之一。
2025年,腾讯AI Lab联合中国科学院声学研究所、南京大学提出BridgeVo声码器,首次将薛定谔桥框架引入声码器任务,开创了“从数据到数据”的生成新范式。BridgeVoC最低仅需4步即可生成高质量波形,音质与主流扩散声码器相当,推理速度提升10倍以上,既可以作为传统声码器使用,也可适配为语音tokenizer的解码器模块,进一步推动了实时高保真声音合成的落地应用。
(三)主流技术路线与核心能力
随着AIGC声音生成技术的快速发展,目前已经形成了多条成熟的技术路线,覆盖了零样本声音克隆、跨语言语音合成、多角色长音频生成、多模态声音生成等多个核心能力。
零样本声音克隆是AIGC声音生成技术最具标志性的能力。2023年1月微软提出的VALL-E模型首次实现了仅需3秒参考音频即可克隆任何人声音的零样本语音合成能力。2024年7月阿里达摩院提出的CosyVoice模型进一步提升了零样本声音克隆的质量和自然度,支持中文、英语、日语、韩语、粤语的零样本克隆。
跨语言语音合成是指用同一个说话人的音色生成不同语言的语音。传统技术需要大量的双语或多语语料进行训练,且生成的语音往往带有明显的口音。AIGC声音生成技术通过语言无关的语义编码与特征解耦技术,实现了同一音色在不同语言间的自由迁移。2025年提出的F5-TTS模型采用流匹配与扩散变换器架构,无需音频提示文本转录即可实现跨语言语音克隆。2026年4月,小米k2-fsa团队提出的OmniVoice模型支持646种语言的零样本语音生成,实时因子低至0.025,比实时速度快40倍。
多角色长音频生成是AIGC声音生成技术的重要发展方向。传统TTS技术只能生成单角色的短音频,无法生成多角色对话和长音频。AIGC声音生成技术通过大语言模型的上下文理解能力,能够自动区分不同角色的声音,生成自然流畅的多角色对话。微软VibeVoice-Large模型支持长达45分钟的多角色对话生成,其1.5B参数版本更可支持90分钟音频生成和最多4个角色的自然对话。
多模态声音生成是指根据文本、图像、视频等多种输入生成对应的声音。传统技术只能根据文本输入生成人类语音,无法根据图像和视频生成对应的音效和环境音。AIGC声音生成技术通过多模态大语言模型,能够理解图像和视频的内容,然后生成与之匹配的声音。例如,AudioX模型能够根据文本描述生成音乐、音效和环境音,也能够根据图像生成对应的声音效果,为视频制作、游戏开发等领域提供了强大的工具。
二、AIGC声音生成的训练数据体系
尽管AIGC生成声音技术在推理阶段展现出惊艳的零样本克隆能力,但这并不意味着训练数据的重要性降低了。恰恰相反,零样本能力的涌现根植于训练阶段超大规模数据对声音通用规律的捕捉。本章将深入剖析AIGC声音生成背后的数据支撑体系,揭示模型如何从“见过数千种声音”的经验中,习得“生成任意一种声音”的本领。
(一)数据范式的转变:从“精标”到“弱标”
传统端到端神经TTS系统对训练数据有着苛刻的要求,需要高质量的文本语音配对材料。这是因为传统TTS模型参数量有限,在连续信号空间中建模时,数据中的任何“杂质”(如噪音、错误等)都会直接导致合成语音质量急剧下降。因此,传统TTS通常只能使用数十至数百小时的精选语料,泛化能力极为有限。
AIGC声音生成技术彻底改变了这一逻辑。在语音token化的架构下,连续声音信号首先被压缩为离散的token序列,再由大语言模型进行自监督学习。这一技术链条大幅降低了模型对数据质量的敏感性。大语言模型庞大的参数量使其能够从带噪声、有转录误差的大规模数据中自动学习声音的本质规律。数据的作用不再是提供“完美样本”,而是提供“足够的经验”。
(二)规模驱动能力:从LibriLight到零样本克隆
数据质量门槛的降低,打开了可用数据规模的天花板。当模型不再依赖人工精标语料,任何带有自动转录的互联网音频、播客、视频伴音均可成为训练素材。
以微软VALL-E模型为例,该模型的预训练使用了LibriLight数据集,包含60,000小时英语语音,涵盖7,000余名说话人,这一数据规模在传统TTS时代是难以想象的。值得注意的是,LibriLight的音频数据并非人工精标,而是通过自动语音识别系统转录生成的。
那么,更大的数据规模究竟带来了什么?当模型见过数千种不同音色、口音和说话风格后,就能形成对“人类声音”的抽象理解。它学会了人类发声器官的物理约束(音高范围、共振峰结构)和语音韵律的统计规律(重音模式、停顿分布)。换言之,模型并非记住了某个特定说话人的声音,而是知道了“人类可以发出怎样的声音”。
正是这种对声音通用规律的内化,使得零样本克隆成为可能。当模型已经理解了任意人类声音所处的生成空间,只需3秒参考音频,就能将目标说话人的声学特征映射到该空间中的具体位置并稳定生成。零样本克隆的本质,是大规模预训练习得的通用先验与极少样本条件下的快速适配共同作用的结果。
(三)风格维度的补全:从“朗读腔”到“鲜活感”
然而,大规模不等于高表现力。LibriLight等数据集主要来源于朗读式有声书,语料内容发音清晰、背景干净,但风格单一,缺乏真实对话中自然的“卡壳”和情绪。在此类数据上训练的模型,虽能生成流畅语音,却往往带有挥之不去的“朗读腔”,语流平滑却缺乏生命力,听感上与真实人类对话相去甚远。
为弥补这一缺陷,自然语音数据集成为近年来重要的发展方向。2025年1月发布的Emilia数据集开创性地从互联网自然对话中提取训练数据,来源包括脱口秀、访谈、辩论、播客等,覆盖六种语言、超过101,000小时。与朗读数据不同,Emilia捕捉的是未经脚本规训的原始语音,如即兴发挥的幽默、自然的打断与附和、真实的情感起伏。实验证明,在自然语音数据上训练的模型,生成的语音在自然度和人类感知的真实感上明显优于仅使用朗读数据训练的模型。
(四)控制能力的赋予:属性标注数据的价值
当模型能够生成自然、多样的语音后,下一个需求便是精细控制,即用户希望指定生成语音的性别、年龄、情感倾向、语速乃至音高范围。然而,上述大规模无标注或弱标注数据(LibriLight、Emilia),因缺失与音频对应的属性标签而无法直接提供这类信息。
这正是属性标注数据集的核心价值。2025年3月发布的VoxBox数据集代表了这一方向的系统性努力。VoxBox汇集29个开源语料库,总时长超过102,500小时,并对每一条音频进行了多维度的结构化标注。其中既包含说话人人口学属性(性别、年龄组),也涵盖副语言特征(平均音高、语速、情感类别)。这些标签将语音生成的输入空间从单一的“文本”扩展为“文本+属性条件”,使得下游应用能够按需定制输出风格。
此外,针对低资源语言和特定场景数据稀缺的问题,合成数据正成为重要补充手段。2025年9月提出的SpeechWeave管道能够生成比基线数据多样性高出10%至48%的合成语音,有效缓解了数据分布不均衡带来的模型偏差。值得注意的是,合成数据在此处的作用并非替代真实数据,而是作为数据增强策略,在真实数据覆盖不足的长尾区域提供补充样本。
三、AIGC生成声音的合规探讨
AIGC声音生成技术的指数级迭代,正在将“声音”从不可复制的生物特征,转化为可无限生成、修改与传播的数字资源。这一转变在重构有声内容生产方式的同时,也对传统法律与伦理框架提出了新的追问。从业务运营、数据使用到内容传播、权利归属,一系列问题环环相扣,形成了新的合规挑战。技术的发展速度已大大超出了规则的更新节奏,声音权益的定义、数据使用的尺度、主体责任的划分,都成为当前需要回应的命题。
(一)AIGC生成声音的数据合规困境
数据是AIGC声音生成技术的根基,也是合规风险最为集中的环节。当前主流模型的预训练,普遍依赖从互联网大规模采集的音频数据,即便多数训练依托开源数据集推进,平台是否在训练过程中使用了未获授权的非开源内容,始终处于不透明状态,也由此引发了越来越多的法律与伦理争议。
问题的敏感性在于声音本身的特殊属性。与密码、指纹不同,声音是可被远程、无感采集的生物识别信息。一个人在公开场合说话,便可能在不知情的情况下被收录进训练集。当声音数据以这种方式进入模型后,权利人是否可以主张“被遗忘权”,要求将自身声音特征从已训练完成的模型中剔除,目前尚无明确的技术方案与法律定论。与此同时,数据所衍生的价值该如何在各方主体间分配,同样是无法回避的现实问题。声音的原权利人贡献了基础语音素材,模型开发者投入了算法研发与算力成本,终端用户为最终生成的语音内容付费,可三方之间的利益划分,至今仍没有清晰的规则可循。
数据层面的权利界定模糊,会自然传导至后续的内容生成与传播环节。数据本身是否来源清晰、授权合法,在很大程度上决定了整个AIGC声音生成产业链的合规底色,也直接影响着平台面向公众开放服务时的责任边界。
(二)AIGC生成声音服务提供商的业务合规边界
当零样本声音克隆、多角色长音频生成等能力从实验室走向开放平台,技术便不再只是研究者的工具,而成为千百万普通用户触手可及的日常。但伴随这一普及趋势而来的,是一系列亟待厘清的合规难题。平台应当如何在赋能内容创作与防范技术滥用之间划定清晰边界?对于用户借助平台功能生成的虚假、侵权语音内容,服务提供商又是否需要承担相应责任?
算法本身的黑箱特性,进一步加剧了语音内容溯源与责任界定的难度,全球监管规则的碎片化格局,更让跨境语音服务的合规运营面临诸多不确定性。如何在守护技术创新活力的前提下,构建与潜在风险相适配的责任体系,已然成为所有AIGC声音服务商无法回避的命题。
(三)AIGC生成声音的用户使用与内容合规隐忧
AIGC生成声音技术的普及,正在逐渐模糊真实与虚假的边界。当任何人都可以用极低的成本克隆他人的声音时,我们如何辨别一段语音的真伪?又该如何防范这项技术被用于电信诈骗、虚假信息传播、诽谤等违法活动?
更值得深思的是,声音不仅是交流的工具,更是人格的延伸。未经授权使用他人声音进行商业代言、影视创作甚至恶搞,究竟是对声音人格权的侵犯,还是可能落入合理使用的范畴?合理使用与恶意滥用的边界在哪里?这些问题正随着技术的普及变得日益尖锐。而上述所有争议的核心症结,最终都落脚于AIGC生成声音的权属界定这一问题。
(四)AIGC生成声音的权属争议
相较于传统内容创作,AIGC声音克隆带来的权益矛盾更为特殊,核心集中在自然人声音人格利益的保护边界。声音作为兼具身份识别与人格表征的特殊标识,被AI无感知复刻并用于各类场景后,原权利人的声音利益该如何界定与保障?未经授权克隆他人声音并加以使用,即便未直接用于盈利,是否也构成对人格利益的侵害?而当声音被用于商业场景时,相关收益是否应当向原声音权利人进行分配或补偿?这类围绕声音本身的权益争议若无法形成清晰共识,不仅会引发大量纠纷,也会在长期层面制约AIGC声音技术的规范化落地与产业良性发展。
综上,AIGC生成声音的合规治理,从来不是单一环节的合规完善,而是贯穿数据采集、平台运营、用户使用、权益分配全链条的系统性命题,不存在一蹴而就的解决路径。未来,唯有政府、行业、企业与社会各方协同探索,在实践中逐步厘清声音权益的保护边界、明确各方主体的责任与利益分配规则,才能推动AIGC声音技术在合规框架内健康发展。
四、总结
以语音大语言模型(SLM)为核心的AIGC声音生成技术,凭借“语音token化+大模型”的架构,突破了传统TTS技术的局限,实现了从“读文字”到“理解并生成声音”的跨越,其规模化、低成本、跨模态的生成优势,深刻重构了有声内容的生产模式,成为数字内容产业高质量发展的重要技术底座。然而,技术的快速迭代与普及,也相伴而生一系列不可忽视的合规风险与伦理困境,给传统法律规制与行业治理带来了全新挑战。
当声音脱离生物载体,成为可被无限生成、修改甚至复刻的数据资源时,传统的权利边界变得模糊。训练数据滥用、声音侵权、生成物利益分配、个人生物信息泄露等问题,已成为行业发展必须直面的痛点。当声音脱离生物载体成为可无限生成的数据资源时,应当如何平衡技术创新与人格尊严?当语音数据被大规模采集、训练与流转使用时,又该如何严守数据合规与个人信息保护的边界?技术落地不断拓展应用边界,也让声音权益的保护尺度、数据使用的合规分寸愈发模糊,这些没有标准答案的现实命题,正是行业在发展中需要持续探索的重要课题。未来,随着算法持续优化与治理体系不断完善,AI语音生成技术必将迈向规范化、普惠化发展,在智能交互、文化传播、数字出版等领域持续释放价值。
参考文献:
[1] Z. Borsos, R. Marinier, D. Vincent, et al. “AudioLM: a Language Modeling Approach to Audio Generation.” arXiv:2209.03143, 2022.
[2] Y. Wang, R. Skerry-Ryan, D. Stanton, et al. “Tacotron: Towards End-to-End Speech Synthesis.”arXiv:1703.10135,2017
[3] 何极洋, 范晓纬, 潘俊. 《开源AI人声克隆的技术与应用研究》. DOI:10.16045/j.cnki.catvtec.20260326.001, 2026年3月27日网络首发.
[4] Z. Wu, et al. “A Survey on Neural Speech Synthesis.” arXiv:2106.15561, 2021.
[5] C. Wang, et al. “Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers.” arXiv:2301.02111, 2023.
[6]C. Wang, et al. “UALM: Unified Audio Language Model for Understanding, Generation and Reasoning.” arXiv:2301.02111,2025.
[7] “Gemini’s new voice upgrade and ‘context-aware’ pacing is blowing my mind.” Chrome Unboxed,
https://chromeunboxed.com/geminis-new-voice-upgrade-and-context-aware-pacing-is-blowing-my-mind/.
[8] D. Wang, et al. “Speech Discrete Tokens or Continuous Features? A Comparative Analysis for Spoken Language Understanding in SpeechLLMs.” arXiv:2508.17863, 2025.
[9] A. Défossez, J. Copet, G. Synnaeve, et al. “High Fidelity Neural Audio Compression.” arXiv:2210.13438, 2022.
[10] X. Wang, et al. “Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens.” arXiv:2503.01710, 2025.
[11] 科大讯飞. 《在线语音合成核心技术解析》. https://www.xfyun.cn/site/2291.html.
[12] A. van den Oord, et al. “Parallel WaveNet: Fast High-Fidelity Speech Synthesis.”arXiv:1711.10433, 2018.
[13] J. Shen, et al. “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions.”arXiv:1712.05884, 2018.
[14] 腾讯AI Lab, 中国科学院声学研究所, 南京大学. “BridgeVoC: Neural Vocoder with Schrödinger Bridge.” 2025.
[15] K. K. Lakshminarayana, et al. “Low-Resource Text-to-Speech Using Specific Data and Noise Augmentation.” arXiv:2306.10152, 2023.
[16] Coqui TTS Documentation. “What makes a good TTS dataset.” https://coqui-tts.readthedocs.io/en/latest/datasets/what_makes_a_good_dataset.html.
[17] H. He, et al. “EMILIA: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech Generation.” arXiv:2501.15907, 2025.
[18] K. Dua, et al. “SpeechWeave: Diverse Multilingual Synthetic Text & Audio Data Generation Pipeline for Training Text to Speech Models.”arXiv:2509.14270, 2025.
[19] 吴汉东、龙欣璇. 《AI生成声音侵权认定的路径选择——以肖像权的参照适用为中心》. 载《北方法学》第20卷总第115期.
[20] 北京互联网法院课题组. 《AI生成声音侵害声音权益的法律认定——以殷某某诉北京某智能科技公司等人格权侵权案为例》. 载《法律适用》2024年第9期.
[21] 张炎坤. 《AI语音合成技术在有声出版中的法律风险及其治理策略:域外经验与中国方案》. 载《出版科学》2025年第3期.
[22] 姜婧莹. 《生成式人工智能侵害声音权益的可识别性判断方案》. 载《数字法治》2025年第5期。
[23] Y. Chen, et al. “F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching.” arXiv:2410.06885, 2024.