Athena是一个基于序列到序列的语音转文本开源引擎,在Apache 2.0开源许可下发布。该工具包适合研究人员和开发人员的端到端语音处理需求。模型可以处理的任务包括:自动语音识别(ASR)、语音合成、语音检测和关键字定位等。所有语言模型都基于TensorFlow实现,使更多开发人员可以访问该工具包。
优点:
- Athena用途广泛,从转录服务到语音合成。
- 它不依赖于Kaldi,因为它有自己的Python特征提取器。
- 该工具维护良好,并且定期更新。
- 它是开源的,免费使用,可供各种用户使用。
Cons缺点:
- 它对新用户有比较陡峭的学习曲线。
- 虽然它有一个WeChat群组来提供社区支持,但它将访问权限限制为只有那些可以访问该平台的人。
Vosk是最紧凑、最轻量级的语音转文本引擎之一。这个开源工具包可以在多种设备上离线运行,包括:Android、iOS和Raspberry Pi。它支持20多种语言或方言,包括:英语、中文、葡萄牙语、波兰语、德语等。