Depende del software de reconocimiento de voz. Cada paquete, y hay varios, tiene sus propias características y capacidades en comparación con otro. Obviamente hay un “estado del arte” que es un punto de intersección entre los paquetes más populares, pero hay diferencias notables.
Si está interesado en aprender más, haga una búsqueda en la web para “separación de fuente ciega”. Esta es la técnica de procesamiento de señal digital (DSP) más comúnmente involucrada en la “demuxing” o separación de múltiples voces del flujo de audio de un conjunto de micrófonos. La lectura adicional podría incluir una búsqueda del “efecto cóctel”, que describe la capacidad del cerebro para enfocarse selectiva y exitosamente en voces individuales mezcladas en un evento en el que varias personas hablan simultáneamente (como en una fiesta cóctel), mientras filtran todo otras voces y fuentes de sonido en la sala.
Estoy completamente especulando aquí, pero supongo que el dispositivo Echo de Amazon, un dispositivo doméstico orientado al consumidor que contiene una matriz de micrófonos y responde a los comandos de voz, utiliza una técnica de este tipo. He escuchado muchos informes de que puede responder de manera robusta a varias personas que hablan en la misma habitación con otras fuentes de sonido como TV, radio, etc., reproduciéndose al mismo tiempo.
- ¿Cuál es el costo y el requisito de software para construir un clon de instapage?
- ¿Cuáles son las mejores prácticas para las negociaciones de contratos de software?
- ¿Cuáles son los principios o ideas básicos sobre los que funcionan los motores de ajedrez?
- ¿Puede el software de reconocimiento facial funcionar en un dibujo?
- ¿Qué es el software de kiosco?