让电子书一键变有声书 ——ebook2audiobook：颠覆阅读体验的开源神器

1年前更新45次阅读

还在为堆积如山的电子书无暇阅读而烦恼？通勤路上、健身时刻、睡前时光，想要解放双眼却离不开文字？这款开源黑科技工具——ebook2audiobook，让你一键将电子书转化为沉浸式有声书，把书架变”听书库”，随时随地开启”听觉阅读”新模式！

🔥 核心功能：重新定义”读”书方式

📚 全格式兼容：你的电子书全能转换器

支持20+主流电子书格式，包括：

常用格式：.epub（推荐，自动识别章节）、.mobi、.pdf、.txt、.html
小众格式：.fb2、.odt、.cbr、.cbz等

特别优化中文文本处理，精准识别段落与章节，告别乱码与断句错误。

🎙️ 顶级语音合成：1110+语言的”声音剧场”

搭载XTTSv2、Bark、Vits等前沿TTS引擎，支持1110+语言及方言，覆盖全球主流语种：

中文、英语、日语、韩语、法语、西班牙语、阿拉伯语等
支持方言如粤语、上海话、美式英语、英式英语等

默认语音自然流畅，更可通过自定义声音克隆（仅需6秒语音样本），用自己的声音朗读电子书，甚至实现”用中文声线读阿拉伯文书籍”的跨语言趣味体验。

⚡ 高效转换：适配所有设备的性能优化

硬件兼容：
- CPU（Intel/AMD/ARM）、GPU（NVIDIA/AMD/Intel）、苹果MPS芯片全支持
- 最低4GB内存即可运行，推荐8GB实现流畅转换
加速模式：GPU加速下可实现”近实时转换”，一本10万字的小说转换仅需10分钟

📁 智能处理：元数据与章节完美保留

自动提取电子书章节结构、标题、作者等元数据，生成带时间戳的分段音频，支持：

.m4b（audiobook专用格式）、.mp3、.flac等多种输出格式
批量处理多本书籍，自动分类存储至”audiobooks”文件夹

🧠 技术亮点：为什么选择ebook2audiobook？

维度	优势说明
语音真实度	XTTSv2支持”零样本语音克隆”，无需大量训练数据即可复刻声线，情感表达细腻
多引擎切换	可根据语言特性选择最优引擎：Bark适合创意朗读，Vits擅长抒情文本，XTTSv2支持跨语言
轻量化设计	无需复杂环境配置，Docker一键部署，新手也能轻松上手
社区支持	500+活跃开发者，持续更新模型库，定期发布优化补丁

🌍 多语言支持示例（部分）

语言	代码	应用场景
中文	zho	小说、教材、网文听书
英语	eng	外语学习、原版书听力训练
日语	ja	动漫原著、轻小说听觉化
西班牙语	es	拉美文学、旅游用语学习
阿拉伯语	ar	中东文化书籍、宗教文本转换

🚀 使用场景：让阅读突破时空限制

通勤学习：地铁上听专业书籍，碎片时间变黄金
运动陪伴：跑步时听小说，告别枯燥机械运动
视力保护：长时间阅读后切换听书模式，缓解眼疲劳
外语启蒙：用母语声线克隆朗读外语教材，提升听力语感
亲子时光：将绘本转换为有声书，父母声线陪伴孩子阅读

📌 快速上手：3步开启听书之旅

1. 安装部署（任选一种方式）

▶ 新手推荐：Docker一键启动

# 拉取镜像并运行（CPU版本）  
docker run --pull always --rm -p 7860:7860 athomasson2/ebook2audiobook  
# GPU加速（NVIDIA显卡）  
docker run --pull always --rm --gpus all -p 7860:7860 athomasson2/ebook2audiobook

▶ 本地安装（适合开发者）

# 克隆仓库  
git clone https://github.com/DrewThomasson/ebook2audiobook.git  
cd ebook2audiobook  
# 运行启动脚本  
./ebook2audiobook.sh  # Linux/Mac  
ebook2audiobook.cmd  # Windows

2. 网页端操作（访问http://localhost:7860）

拖入电子书文件 → 选择语言/语音 → 点击”Convert”
支持自定义参数：语速、音量、音频格式（如mp3/m4b）

3. 命令行高级用法（示例）

# 头less模式转换（指定中文+自定义声音） 
./ebook2audiobook.sh --headless --ebook "/path/to/book.epub" --language zho --voice "/path/to/voice.wav"

⚠️ 重要注意事项

版权声明：仅支持非DRM（无数字版权保护）的合法电子书，严禁用于侵权内容转换
声音克隆要求：
- 音频格式：.wav
- 采样率：24000Hz（主流语言）/22050Hz（其他语言）
- 时长：不超过6秒，需清晰朗读短句
文本预处理：部分电子书若章节结构混乱，建议先手动删除冗余内容（如序言、目录）

📂 项目生态与支持

开源地址：https://github.com/DrewThomasson/ebook2audiobook
社区资源：
- 500+预训练模型（Hugging Face仓库）
- 多语言优化指南（中文分词、日语假名处理）
- Docker/GPU问题排查Wiki
贡献方式：
- 参与模型训练（需提交对应语言文本数据）
- 优化UI界面（Gradio前端支持）