[AI 奇技淫巧] 第十四期
— 听觉幻术:从人声分离到克隆变声的完整闭环 —
■ 前言
,各位榴友。
视觉(生图)解决了“皮囊”,连接(远程)解决了“距离”,字幕(翻译)解决了“理解”。
现在,我们来到了最后一道感官防线——声音。
在这个赛博时代,耳听也不一定为实。
* 想网恋/整蛊? 哪怕你是抠脚大汉,也能拥有让耳朵怀孕的御姐音(实时变声)。
* 想听定制剧本? 只需投喂 5 秒钟素材,就能克隆出“老师”的声音,让她在你耳边读你写的小黄文(语音生成)。
* 素材有杂音? AI 手术刀能把人声和背景音完美剥离。
今天,我们带来双 SOP 教程,手把手教你掌握这一整套听觉幻术。

一、 奇 | 无中生有:Suno 的音乐与氛围
★【看点:一句话生成神曲】
看点解析
在讲人声之前,先提一嘴最近火爆的 Suno。它不是简单的 TTS,它是音乐生成器。
玩法: 输入一段羞耻的歌词(比如描写你和 AI 女友的故事),选择 "J-Pop" 或 "Jazz" 风格,AI 瞬间生成一首带人声演唱、带伴奏的完整歌曲。
进阶玩法 (Text-to-Audio):
如果你想做 ASMR,光有人声太干了怎么办?试试 AudioLDM 或 Stable Audio。输入 "Rain falling on tent"(雨打帐篷)或 "Heavy breathing"(沉重呼吸),AI 自动生成高保真环境音效。
扯扯蛋:人声+BGM+环境音,这才是完整的听觉盛宴。以前做这些要一个团队,现在只要你一句话。

二、 技 | 听觉手术刀:UVR5 与 RVC
★【看点一:UVR5 (Ultimate Vocal Remover)】
看点解析
这是本期的隐藏核武器。
你想克隆“老师”的声音,但视频里有 BGM、有摩擦声、还有男优的叫声,直接喂给 AI 训练绝对是废的。
UVR5 是目前地表最强的人声分离软件。它能像手术刀一样,把纯净的人声从复杂的背景音里完美剥离出来。这是所有语音玩法的“前置科技”。
进阶提示: 如果剥离出来的人声底噪还是大,可以用 DeepFilterNet 或在线的 Adobe Podcast 增强一下,座机音质秒变录音棚。
★【看点二:RVC (实时变声)】
看点解析
RVC 是基于神经网络的变声技术。它不是简单的调音高,它是把你的声线“拆碎”,然后用目标模型(比如雷电将军)的声线“重组”。
特点: 延迟低至 0.3 秒,语气完全跟随你。你在笑,变出来的声音就在笑;你在喘,变出来的声音也在喘。
扯扯蛋:UVR5 是赛博世界的“强力卸妆水”,管你伴奏多大声,一键还原老师的本来面目。至于 RVC?那更是变声领结,抠脚大汉秒变雷电将军,网恋选我我超甜。对了,这玩意还能做 AI 翻唱,让老师唱《好运来》也不是梦。

三、 淫 | 完美克隆:GPT-SoVITS
★【看点:5秒零样本克隆】
看点解析
如果你不想自己说话,只想听。
GPT-SoVITS 是目前的克隆之王。
必杀技: 你不需要训练几个小时,只需要用 UVR5 提取出“老师”的一句 5秒钟干声,扔进去,立刻就能用她的声音读任何文本。
情感控制: 找一段“哭腔”或“耳边低语”作为参考音频,AI 生成的声音就会带有同样的颤抖和气声。这才是定制 ASMR 的灵魂。
扯扯蛋:网上的 ASMR 都是给大众听的,只有 AI 生成的,才是只属于你一个人的绝对领域。让她在左耳低语还是右耳喘息,全看你的剧本怎么写。

四、 巧 | 施工蓝图:双 SOP 实战教程
>>> ⚠ 硬件红线 (必读):本期内容对配置有要求! <<<
| 项目 | 最低配置 (能跑) | 推荐配置 (爽玩) | 没显卡怎么办? |
| RVC 实时变声 | NVIDIA 1060 6G+ | RTX 3060 12G+ | 放弃实时,用 CPU 模式录音后处理 |
| GPT-SoVITS | NVIDIA 6G 显存 | 8G 显存及以上 | 用 Google Colab 或在线服务 (见文末) |
* 注:A 卡和核显用户请直接跳到文末的“低配救星”,强行跑本地会卡成 PPT。
SOP A:赛博伪音 (RVC 实时变声)
目标:在微信/QQ/Discord/游戏中,把我的男声实时变成女声。
| 核心难点:虚拟声卡 | 原理图解 (必看) |
| 变声最大的坑是“路由”。 你需要一根“虚拟音频线”来连接 AI 和聊天软件。 工具: VB-Audio Cable (免费软件,搜一下官网下载安装)。 | 複製代码
|
| 步骤 | 具体操作 |
| 1. 准备 | 1. 确保第 10 期的 NVIDIA 驱动已就位。 2. 安装 VB-Audio Cable。 3. 下载 RVC-GUI (GitHub 搜 `RVC-beta` 或 `W-Okada` 版)。 4. 去 `Voice-Models.com` 下载你喜欢的模型 (如雷电将军)。 |
| 2. 设置 | 打开 RVC 软件: * 输入设备: 选你的真实麦克风。 * 输出设备: 选 CABLE Input (VB-Audio Virtual Cable)。 * F0 (音高): 男变女通常设为 +12 (升一个八度)。 * 点击 Start。 |
| 3. 伪装 | 打开 QQ/微信/Discord 设置: * 麦克风/输入设备: 选 CABLE Output (VB-Audio Virtual Cable)。 * 现在,你对着麦克风说话,对方听到的就是 AI 的声音了! |

SOP B:造物主 (GPT-SoVITS 语音生成)
目标:只需 5 秒素材,让 AI 读出任何文本。
| 步骤 | 具体操作 |
| 1. 剥离 | 1. 下载 UVR5 (GitHub 搜 Ultimate Vocal Remover)。 2. Model 选择 `VR Arch` -> `Kim_Vocal_2` (人声提取神级模型)。 3. 拖入视频,点击 Start。你会得到一个 `(Vocals)` 纯人声文件。 |
| 2. 部署 | 1. 打开第 10 期安装好的 Pinokio。 2. 在 Discover 页面搜索 `GPT-SoVITS` 并一键安装。 3. 启动后,会自动打开 WebUI 界面。 |
| 3. 生成 | 1. 上传从 UVR5 提取的干声 (截取 5-10秒)。 2. 参考文本: 手动打出那 5 秒钟它说的话(让 AI 学习发音咬字)。 3. 推理文本: 输入你想让他读的骚话。 4. 点击“合成语音”。 |

■【低配救星】/ Low Spec Salvation
没有 4090 怎么办?
本地 AI 虽然爽,但如果你的电脑跑不动,千万别强行炼丹(会炸显存)。
方案 A:借鸡生蛋 (Google Colab)
GPT-SoVITS 有官方的 Colab 笔记本。你只需要一个谷歌账号,就能免费借用谷歌的 T4 显卡在线运行。虽然每次用完环境会重置,但完全免费且不吃本地配置。
方案 B:在线白嫖 (Fish Audio)
现在的在线 TTS 服务已经很强了。Fish Audio (鱼声) 支持非常高质量的中文克隆,每天都有免费额度。虽然不如本地自由,但胜在有浏览器就能用,手机也能玩。
方案 C:微软良心 (Edge-TTS)
如果你不需要克隆,只需要一个好听的声音读小说,可以用开源的 Edge-TTS 工具,调用微软 Edge 浏览器自带的超高质量语音(晓晓/云希),完全免费,连显卡都不需要。
■【避雷针】/ Anti-Scam Guide
技术拆解:警惕“AI 拟声诈骗”
现在你学会了只要 5 秒就能克隆声音。这意味着什么?
意味着骗子打电话给你父母,听起来完全就是你的声音。
防骗指南:
* 家庭暗号: 和父母约定一个只有你们知道的“安全词”。遇到急事要钱的电话,不管声音多像,先问暗号。
* 听呼吸: 目前的 AI 变声在连续说话时,呼吸声和换气点往往很不自然。
老司机语录: 声音是灵魂的载体。善用它来制造快乐,但永远不要用它来欺骗感情(和钱)。
■ 结语
今天,我们不仅学会了如何“伪装”成另一个人,还学会了如何“复刻”那些让我们心动的声音。
现在,你的军火库里有了图、有了文、有了远程控制、有了字幕、有了声音。
但是,生成的图片总感觉还是像“抽卡”,手指画歪了?姿势不对?想要她摆出特定的高难度动作?
下一期,我们将祭出 Stable Diffusion 时代最强大的“物理外挂” —— ControlNet。
下期预告:【第 15 期】神之画笔 —— ControlNet 骨架控制与精准构图,告别抽卡,指哪打哪。
关键词索引:GitHub 搜 "RVC-beta" / "GPT-SoVITS" / "UVR5"
温馨提示:技术无罪,欲望有道。变声虽好,请勿用于电信诈骗。
站内翻阅往期(技术底座与路线):
7098897 [置顶底座] 引用 7098897:[AI 奇技淫巧][2016.01.12]从零打造你的本地化AI全能作战平台「实操向」
7101067 引用 7101067:[AI 奇技淫巧][第十三期]粉碎生肉!四种姿势打造 AI 字幕流水线
7100694 引用 7100694:[AI 奇技淫巧][第十二期]内网穿透,让 AI 随叫随到