聚合AI导航网精选海量AI网站，为用户提供国内、国外知名AI网站、精品AI网站、宝藏AI网站的展现与查询，节约用户寻找AI站点的时间成本，降低认知成本，帮助用户快速查找心仪的AI目标网站。

语音识别

Coqui

Coqui是一个先进的深度学习工具包，非常适合培训和部署stt模型。根据Mozilla公共许可证2.0授权，您可以使用它生成多个转录本，每个转录本都有一个置信度分数。它提供了预先训练的模型以及示例音频文件，您可以使用这些文件来测试引擎并帮助进行进一步的微调。此外，它有非常详细的文档和资源，可以帮助您使用和解决任何出现的问题。

链接直达手机查看

优点：

它提供的STT模型经过高质量数据的高度训练。
模型支持多种语言。
有一个友好的支持社区，您可以在那里提出问题并获得与STT相关的任何细节。
它支持实时转录，延迟极低，以秒计。
开发人员可以根据各种用例自定义模型，从转录到充当语音助手。

缺点：

Coqui已经停止维护STT项目，专注于他们的文本到语音工具包。这意味着您可能需要自己解决任何问题。

相关导航

OpenSeq2Seq

OpenSeq2Seq正如它的名字一样，是一个开源的语音转文本工具包，可以帮助训练不同类型的序列到序列模型。该工具包由Nvidia开发，在Apache 2.0许可证下发布，这意味着它对所有人都是免费的。它训练执行转录，翻译，自动语音识别和情感分析任务的语言模型。可以根据自己的需求，使用默认预训练模型或者训练自己的模型。OpenSeq2Seq在使用多个显卡和计算机时可以达到最佳性能。它在Nvidia驱动的设备上工作得最好。

Kaldi

Kaldi是专门为语音识别的研究人员创建的语音识别工具。它是用C++编写的，并在Apache 2.0许可证下发布，这是限制最少的开源许可。与Whisper和DeepSpeech等专注于深度学习的工具不同，Kaldi主要专注于使用老式可靠工具的语音识别模型。这些模型包括隐马尔可夫模型（Hidden Markov Models）、高斯混合模型（Gaussian Mixture Models）和有限状态传感器（Finite State Transducers）。

Athena

Athena是一个基于序列到序列的语音转文本开源引擎，在Apache 2.0开源许可下发布。该工具包适合研究人员和开发人员的端到端语音处理需求。模型可以处理的任务包括：自动语音识别（ASR）、语音合成、语音检测和关键字定位等。所有语言模型都基于TensorFlow实现，使更多开发人员可以访问该工具包。

Vosk

Vosk是最紧凑、最轻量级的语音转文本引擎之一。这个开源工具包可以在多种设备上离线运行，包括：Android、iOS和Raspberry Pi。它支持20多种语言或方言，包括：英语、中文、葡萄牙语、波兰语、德语等。

PaddleSpeech

PaddleSpeech是个开源的语音转文本工具包，可以在Paddlepaddle平台上使用，该工具在Apache 2.0许可下开源。PaddleSpeech是功能最多的工具包之一，能够执行语音识别、语音到文本转换、关键字定位、翻译和音频分类。它的转录质量非常好，赢得了NAACL2022最佳演示奖。

Tensorflow ASR

Tensorflow ASR是一个使用Tensorflow 2.0作为深度学习框架来实现各种语音处理的语音转文本开源引擎。这个项目在Apache 2.0许可下发布。 Tensorflow最大优势是其准确率，作者声称它几乎是一个“最先进”的模型。它也是维护最好的工具之一，定期更新以改进其功能。例如，该工具包现在还支持在TPU（一种特殊硬件）上进行语言培训。 Tensorflow还支持使用特定的模型，如：Conformer、ContextNet、DeepSpeech2和Jasper。可以根据要处理的任务进行选择。例如，对于一般任务可以考虑DeepSpeech2，但对于精度有较高要求的则使用Conformer。