¿Cuáles son las empresas líderes en el campo del reconocimiento de voz? ¿Cuál tiene la solución de hardware / software más madura?

Esta es una pregunta que depende totalmente de lo que estás buscando. Nuance es uno de los jugadores más grandes que definitivamente debes considerar. Si solo está hablando de voz pura a comandos de texto, está Amazon Alexa, que es “gratis” si está en el entorno de nube de AWS. Pongo comillas alrededor de “gratis” ya que te cobran por las funciones asociadas de Amazon Lambda a los comandos de voz. Existe la API de Google Voice, pero estás un poco atascado en el espacio de Android. Hay Microsoft que ofrece una opción fuera de línea que potencia su Cortana. Hay ATT Watson, IBM Watson, http://API.AI, WIT.AI que están basados ​​en la nube y son bastante precisos y flexibles. Los dos posteriores tienen un muy buen seguimiento de igual a igual. Para procesar archivos de voz y poder indexarlos y hacer que se puedan buscar, está Raytheon, que es la principal empresa que procesa todas las voces para las principales agencias gubernamentales. Hay interacciones (también conocido como ATT Watson) que maneja todas las grabaciones de call center para AT&T. Hay Speechmatics y Interactive Voice que ofrecen muy buena tecnología de voz a texto y tienen un procesamiento muy rápido. También hay una empresa emergente llamada VoiceBase que es interesante porque es una solución basada en la nube muy económica que ofrece una precisión y velocidad bastante buenas.

Esta es una pregunta bastante abierta. El reconocimiento de voz no es de talla única, por lo que la respuesta puede variar según la aplicación y el idioma que desee utilizar. Me gusta pensar que en Verbyx tenemos algunas capacidades excelentes, pero difícilmente podríamos calificarnos como maduros, ya que solo hemos existido durante 4 años. Sin embargo, la madurez no es necesariamente la consideración más importante al elegir un ASR.
La compañía líder más obvia desde una perspectiva del tamaño del mercado son las comunicaciones de Nuance. Desde un punto de vista tecnológico de vanguardia, debe incluir Google, Microsoft y más recientemente Baidu en China. Hay muchos otros jugadores más pequeños, algunos ofrecen servicios en la nube para transcripciones, otros tecnologías IVR adecuadas, Nuance ofrece Dragon para desarrolladores de aplicaciones, Verbyx ofrece búsqueda de frases clave y tecnologías ASR accesibles con API.
Si desea reducir su área de interés, con mucho gusto seré un poco más específico.

Estoy de acuerdo con Gary, depende mucho de la aplicación que esté buscando. Hay muchas, muchas pequeñas empresas alrededor que generalmente se especializan en una aplicación de nicho o han desarrollado sus servicios en torno al código abierto (CMU Sphinx, Kaldi, HTK) o Nuance con licencia y servicios en capas en la parte superior. Muchos de los grandes jugadores, como Google, Baidu, etc., también se centran en áreas específicas, por lo general en forma de expresiones cortas más parecidas al caso de uso, es decir, la interacción del teléfono móvil. Speechmatics con Tony Robinson (pionero en redes neuronales profundas en Speech) como su CTO, ha creado un fascinante sistema ASR basado en la nube que funciona increíblemente bien en una amplia gama de casos de uso y aplicaciones.