连接本地推理引擎
本地推理引擎适合有本机 GPU、局域网推理服务器,或需要文本留在本地的场景。Neiroha 不训练模型;它负责把 UI、队列、项目和本地 API 请求转发给已经启动的 TTS 服务。
连接前检查
- 启动 TTS 后端,确认终端或日志里显示了真实监听地址。
- 在运行 Neiroha 的机器上打开后端的
/health、/v1/models或 voice 列表地址。 - 如果 Neiroha 运行在 Android 模拟器中,宿主机地址用
10.0.2.2,不能使用127.0.0.1。 - 如果 Neiroha 运行在 Android 真机中,使用电脑的局域网 IP,并放行 Windows 防火墙。
- 回到 Neiroha 的 提供商(Providers),新增或编辑提供商。
常用适配器
| 后端类 型 | Neiroha 适配器 | 基础地址示例 | 角色配置重点 |
|---|---|---|---|
| OpenAI 兼容 TTS | OpenAI TTS API Compatible | http://127.0.0.1:8880/v1 | 选模型和预设音色 |
| GPT-SoVITS | GPT-SoVITS | http://127.0.0.1:9880 | 已训练音色或参考音频克隆 |
| CosyVoice3 | CosyVoice Native | http://127.0.0.1:9880 | 提示克隆、跨语言克隆、指令控制 |
| VoxCPM2 | VoxCPM2 Native | http://127.0.0.1:8000 | 已注册音色、声音设计、克隆 |
| Windows 系统声音 | Windows System TTS | 留空 | Windows 桌面端直接枚举 SAPI voice |
CosyVoice3 和 GPT-SoVITS 当前都默认使用 9880。如果同时启动两个后端,请改其中一个 configs/server.toml 的 [api].port,或使用 launcher 自动选择的随机端口,并把日志里的实际地址填到 Neiroha。
本地后端完整教程:
Windows 便携后端包
本地后端可以直接下载便携 Release,不需要先装完整开发环境。当前 Windows 便携包按 NVIDIA GPU / CUDA 环境打包,主要面向 RTX 30 / 40 / 50 系列显卡用户。分卷包必须全部下载到同一个目录,再用 7-Zip 从 .001 解压。
| 后端 | GitHub Release | 百度网盘镜像 | 当前资产命名 |
|---|---|---|---|
| GPT-SoVITS | V1.0.0 | 网盘备用 | Neiroha-GPT-SoVITS-Portable.7z.001 到 .003 |
| VoxCPM2 | V1.0.0 | 网盘备用 | Neiroha-VoxCPM-portable.7z.001 到 .004 |
| CosyVoice3 | V1.0.0 | 网盘备用 | neiroha-cosyvoice3-portable.7z.001 到 .006 |
便携包启动后仍然在解压目录下使用 runtime/ 存放日志、输出、临时文件和语音注册表。分卷不可单独移动,也不宜解压到系统临时目录后长期使用。
后端选择速查
下表是当前 Neiroha Windows 便携后端的相对经验排序,不是统一硬件 benchmark。显存友好度星越多表示越省显存,速度星越多表示合成越快;实际结果会受显卡、驱动、文本长度、参考音频、并发和模型预加载影响。
| 后端 | 显存门槛 | 显存友好度 | 合成速度 | 适合场景 | 备注 |
|---|---|---|---|---|---|
| GPT-SoVITS v2ProPlus | 8 GB 显存更稳 | ★★★★★ | ★★★★★ | 已有训练音色、参考音频克隆、批量生成 | 三者中占用最少、速度最快;clone 需要参考文本 |
| CosyVoice3 0.5B | 建议 8 GB 显存起步 | ★★★☆☆ | ★★★☆☆ | 跨语言克隆、指令控制、多语种试听 | 能力更全面,速度和显存占用居中 |
| VoxCPM2 | 官方口径约 8 GB VRAM | ★★☆☆☆ | ★★☆☆☆ | 声音设计、多语言和方言覆盖、高保真克隆 | 三者中占用最高、速度最慢;8 GB 显存可跑,建议并发从 1 开始 |
源码环境与多后端
Neiroha 的本地后端项目使用 Pixi 管理 Python、Conda、PyPI 依赖和常用启动命令。需要在同一台机器上长期运行多个后端推理引擎时,推荐按需从源码构建各后端,并只下载实际需要的模型资产;这样比同时保留多套完整便携包更便于升级、排错和控制磁盘占用。
Pixi 底层生态会复用 rattler/Conda 包缓存和 uv/PyPI 缓存,并在可用时通过硬链接复用文件,因此多个后端之间的重复依赖通常不会按完整副本重复占用空间。模型权重、示例音色和运行输出不会自动跨项目共享,仍建议按后端和模型版本单独整理。
OpenAI 兼容服务
OpenAI 兼容是接入成本较低的本地协议,适合 Kokoro、XTTS、Orpheus、KoboldCpp 或自建的 /v1/audio/speech 服务。
- 提供商适配器选 OpenAI TTS API Compatible。
- 基础地址(
Base URL)填到 API 版本层,例如http://127.0.0.1:8880/v1。 - 本地服务没有鉴权时,接口密钥(
API Key)可以留空。 - 点 拉取全部(Fetch All)。Neiroha 会尝试
models、audio/voices、speakers等常见列表接口。 - 如果 voice 列表为空,在创建角色时手动填后端支持的 voice 名称。
- 健康检查通过后,创建一个预设音色角色并做快速测试。
GPT-SoVITS
GPT-SoVITS 适合已经有训练好的说话人音色,或需要参考音频克隆的工作流。
- 启动后端:便携包运行
start_portable.bat serve,源码环境运行pixi run serve。 - 提供商适配器选 GPT-SoVITS。
- 基础地址(
Base URL)填服务根地址,默认是http://127.0.0.1:9880。 - 点 拉取全部(Fetch All)。新后端会提供
/v1/models、/v1/audio/voices和/api/gpt-sovits/voices。 - 创建角色时选择:
- 已注册音色:选服务端已有 voice,例如
genshin-keqing。
- 已注册音色:选服务端已有 voice,例如