Aún faltan algunos años para que el reconocimiento de voz convierta el habla no estructurada, como videos, debates, entrevistas, en texto inteligible de manera confiable .
Los discursos políticos y de otro tipo podrían funcionar bastante bien, porque tienen un cierto patrón y generalmente son gramaticalmente correctos. Y esos micrófonos de TV o radio son de buena calidad. Las personas que usan el micrófono incorporado de su computadora portátil para grabar seminarios web son más difíciles de procesar debido a los dispositivos de entrada de audio de baja calidad y al ruido ambiental. Y esto además de los comentarios no estructurados a las diapositivas. Luego agregue varios altavoces y tendrá un verdadero desafío técnico.
Sin embargo, la empresa alemana Linguatec (Voice Pro Enterprise) ofrece un producto donde puede cargar videos o archivos de audio y transcribirlos. Puede comprar paquetes prepagos de diez horas para probarlo. Puede o no funcionar. Pero si desea reconocimiento de voz, este es actualmente el único producto disponible comercialmente que conozco.
- ¿Cómo escribimos programas de computadora antes de los días de pantallas y GUI?
- ¿Por qué los proyectos de software alcanzan un 80-90% de integridad realmente rápido y luego se ralentizan?
- ¿Cuál es el mejor software de gestión de proyectos en Apple-iOS?
- ¿Qué funcionalidad estaría en la aplicación de biblioteca de tus sueños?
- ¿Hay alguna plataforma para encontrar desarrollador de aplicaciones?
En cuanto a otras formas de recibir los bits importantes: el concepto clave es la delegación. Si la información del video es tan importante,
- encuentre algún servicio de transcripción en un país del tercer mundo y pídales que transcriban el video a inglés simple para usted. Puede ser la solución más barata. (En cuanto a la búsqueda de dichos servicios, puede buscarlos en Google, probar Mechanical Turk de Amazon o utilizar un asistente virtual que se puede encontrar en elance o en un sitio similar [no afiliado]).
- o encuentre un pasante o asistente que revise los videos y le envíe los fragmentos interesantes. Como beneficio adicional, el uso del reconocimiento de voz para volver a analizar el contenido puede ser más rápido para algunos usuarios que la transcripción manual. Un buen software de reconocimiento de voz para Mac o Windows se puede obtener en los EE. UU. Por aproximadamente $ 100 (Dragon Dictate o Dragon NaturallySpeaking Premium, respectivamente).
Compare costos y encuentre la mejor solución para usted.
Por cierto, si alguien conoce un servicio que puede convertir de manera confiable y automática la voz no estructurada en texto, hágamelo saber.