如果你受够了动辄几百 MB、张嘴就要 GPU 的传统 TTS,Kitten TTS 的出现简直像一股清流:模型只有 25 MB,1500 万参数,CPU 就能实时推理,还能完全离线。本文就站在人类吐槽视角,把它的身世、下载、安装、使用、优缺点一次性吐槽清楚,顺带和同类软件做个“拉踩”对比,保证看完就能上手。
一、Kitten TTS 是什么?一句话总结
Kitten TTS 是 KittenML 团队扔出来的开源文本转语音模型,主打“超轻量 + 高音质 + 零门槛”。官方定位:“让任何设备都能开口说话”——包括树莓派、旧笔记本、甚至你的破安卓平板。
关键词提炼:Kitten TTS 介绍、开源 TTS、轻量级语音合成、25MB 模型
二、官方版本 & 下载地址
目前最新预览版:kitten-tts-nano-0.2
- GitHub 主仓库:https://github.com/KittenML/KittenTTS
- 轮子直链(0.2 预览):kittentts-0.2.0-py3-none-any.whl
- 镜像站点:SourceForge 镜像
- 权重托管:Hugging Face
三、支持系统 & 逐系统安装教程
系统 | 最低要求 | 安装指令 | 吐槽点 |
---|---|---|---|
Windows 10+ | Python 3.8+ | pip install https://github.com/KittenML/KittenTTS/releases/download/0.2/kittentts-0.2.0-py3-none-any.whl |
装完别忘把 python.exe 加到 PATH,不然 cmd 会装傻。 |
macOS 12+ | Python 3.8+ | 同上 | Apple Silicon 直接用,别装 Rosetta 反而更快。 |
Linux (Ubuntu/Debian) | Python 3.8+ | 同上,再补一句 sudo apt install espeak-ng 防缺失依赖。 |
服务器没声卡也能跑,生成文件后用 aplay 试听。 |
树莓派 4B | Raspberry Pi OS 64bit | 同上,建议加 --break-system-packages 免得 pip 哔哔。 |
第一次运行会下载权重 25 MB,记得插网线,不然 2.4G Wi-Fi 等到天荒地老。 |
Android (Termux) | Termux + Python 3.8+ | pkg install python; pip install kittentts-0.2.0-py3-none-any.whl |
跑是能跑,就是耗电感人;建议插充电宝。 |
四、5 行代码快速上手 Kitten TTS
from kittentts import KittenTTS
import soundfile as sf
tts = KittenTTS("KittenML/kitten-tts-nano-0.2")
audio = tts.generate("Hello, this is Kitten TTS running on a potato PC!", voice='expr-voice-2-f')
sf.write('demo.wav', audio, 24000)
生成完直接播放 demo.wav
,音质在线,无机械感。
附:8 种预设音色一览
expr-voice-2-m / expr-voice-2-f
expr-voice-3-m / expr-voice-3-f
expr-voice-4-m / expr-voice-4-f
expr-voice-5-m / expr-voice-5-f
五、优点 & 优势(官方吹牛 + 真实体验)
- 小到离谱:25 MB 模型,U 盘即走。
- 无 GPU 也能飞:老 i5 单核跑 100 ms/句,实时无压力。
- 完全离线:一次下载,终身断网可用。
- Apache 2.0 协议:商业闭源改改也能用,不担心法务敲桌。
- 跨平台:Python 轮子通杀,想嵌入 C++ 也有 ONNX 导出。
- 音色自然:盲测 10 人 8 人以为真人,剩下两个嫌不够磁性(手动狗头)。
六、与同类软件“拉踩”对比
特性 | Kitten TTS | Piper TTS | Coqui XTTS-v2 |
---|---|---|---|
模型体积 | 25 MB | 50–100 MB/音色 | 1.5 GB+ |
硬件要求 | 纯 CPU | CPU 可跑 | 最好 RTX 3060 以上 |
零样本克隆 | ❌ | ❌ | ✅(但吃显存) |
开源协议 | Apache 2.0 | Apache 2.0 | Coqui 自有协议限制商业 |
多语言支持 | 英语(多语 Roadmap) | 20+ 语言 | 16 语言 |
总结:要最小最快选 Kitten;要多语言选 Piper;要声音克隆忍痛上 XTTS。
七、常见问题吐槽 FAQ
- Q:支持中文吗?
- A:0.2 预览版暂无中文,官方说后面会加,先拿英文顶一顶。
- Q:能商用吗?
- A:Apache 2.0 协议,随便商用,改完不开源都行,记得版权声明别删。
- Q:为什么没有 GUI?
- A:开发者说“懒”,社区已有第三方
streamlit-kitten-tts
项目,一行命令搞定网页界面。
八、结语:把语音合成卷到 25 MB,Kitten TTS 做到了
从体积到速度再到授权,Kitten TTS 把“轻量化”卷到了极致。如果你正在找一款离线可用、不挑硬件、开源免费的 TTS,Kitten TTS 值得一试。
万事屋出品,转载请注明出处
© 万事屋 · 转载请注明出处 · 本文链接:https://www.rei3.com
没有回复内容