Je recherche la même chose depuis quelques jours. Jusqu'à présent, j'ai trouvé Sphinx4 et FreeTTS. Les deux sont des implémentations Java et Sphinx semble être mis à jour assez fréquemment contrairement à FreeTTS. Le seul problème que j'ai est que Sphinx a du mal à me comprendre dans un environnement de bureau et j'ai besoin d'une solution pour un environnement d'entrepôt.
Principalement Java :http://cmusphinx.sourceforge.net/html/cmusphinx.php
vous pouvez télécharger vPass (mot de passe vocal) à partir de http://www.basic-signalprocessing.com.
Les composants sont conçus pour les langages Java et .Net. La période de reconnaissance est de 5 secondes. VPass est bien testé vText n'est pas, encore nouveau, c'est pourquoi pas encore empaqueté.
le sphinx est de loin la meilleure option disponible si vous avez un budget limité. Cependant, il fait également un énorme différence quels modèles vous utilisez, comment vous les accordez et comment régler votre source audio. absolument tout doit correspondre sinon ça ne marchera pas. étant donné le problème que vous avez décrit, je suis prêt à parier une somme substantielle que vous avez mélangé vos modèles et que votre micro n'est pas correctement calibré. de plus, si vous avez un accent, cela ne fonctionnera probablement pas - ce n'est pas un problème avec le décodeur mais avec les modèles acoustiques - si personne avec une voix/un accent similaire au vôtre n'a été inclus dans les données d'entraînement, vous obtiendrez de mauvais résultats .
cela dit, avez-vous regardé leur page de modèles open source ?
http://www.speech.cs.cmu.edu/sphinx/models/
selon ce que vous essayez de faire, vous devriez pouvoir obtenir une précision d'environ 90 % sur la liberté d'expression avec les modèles WSJ 16 kHz et le gigaword LMs NVP. Je préviens cependant que l'ASR est une entreprise massive et n'a pas encore atteint le statut de marchandise.