¿Puede el software de reconocimiento de voz determinar si varias personas están hablando?

Depende del software de reconocimiento de voz. Cada paquete, y hay varios, tiene sus propias características y capacidades en comparación con otro. Obviamente hay un “estado del arte” que es un punto de intersección entre los paquetes más populares, pero hay diferencias notables.

Si está interesado en aprender más, haga una búsqueda en la web para “separación de fuente ciega”. Esta es la técnica de procesamiento de señal digital (DSP) más comúnmente involucrada en la “demuxing” o separación de múltiples voces del flujo de audio de un conjunto de micrófonos. La lectura adicional podría incluir una búsqueda del “efecto cóctel”, que describe la capacidad del cerebro para enfocarse selectiva y exitosamente en voces individuales mezcladas en un evento en el que varias personas hablan simultáneamente (como en una fiesta cóctel), mientras filtran todo otras voces y fuentes de sonido en la sala.

Estoy completamente especulando aquí, pero supongo que el dispositivo Echo de Amazon, un dispositivo doméstico orientado al consumidor que contiene una matriz de micrófonos y responde a los comandos de voz, utiliza una técnica de este tipo. He escuchado muchos informes de que puede responder de manera robusta a varias personas que hablan en la misma habitación con otras fuentes de sonido como TV, radio, etc., reproduciéndose al mismo tiempo.

Related Content

¿Cuáles son las aplicaciones de IoT?

¿Qué ha automatizado en su vida y qué herramientas de software ha utilizado para hacerlo?

Cómo averiguar cuántos usuarios puede admitir mi aplicación sin fallar

¿Hay alguna buena aplicación para leer libros?

¿Cómo podría una empresa beneficiarse de Business Process Optimization?

En promedio, ¿de qué plataforma obtienen más ingresos los desarrolladores: Android o iPhone?

¿Sublime Text es gratis?

Koemei tiene una solución de reconocimiento de voz multiparte que tiene la capacidad de identificar y transcribir múltiples tareas de reconocimiento de voz. Verifique un producto que integra la API de koemei: http://www.dev-audio.com o http://www.koemei.com

Temitope Ola

Siguiendo la respuesta de Temitope, el producto Microcone Recorder desarrollado por nosotros en Dev-Audio puede determinar si varias personas están hablando. Distingue a las personas en función de su ubicación alrededor del dispositivo USB Microcone (utilizando la tecnología de matriz de micrófonos), y luego envía una secuencia de audio separada a través del software de reconocimiento de voz (a través de la API Koemei) para transcribir lo que dijo cada persona. Puede ver un breve video de demostración de QuickTime de la detección de actividad de voz en varias personas en esta página: http://www.dev-audio.com/product …

Temitope Ola

More Interesting

¿Cuál es la mejor aplicación Campus Connect para instituciones?

Como desarrollador web profesional, ¿está en desventaja al usar Gimp e Inkscape en lugar de Photoshop e Illustrator?

Cómo vincular Word con Excel

¿Cuál es el mejor software de salón?

¿Cuál es la mejor aplicación para chatear con chicas?

¿Qué aplicación me ayudará a obtener excelentes temas de investigación sobre literatura inglesa?

Cómo convertir video mkv a formato mp4 en mi móvil Android

¿Cuál es el mejor lenguaje de programación para crear aplicaciones? Además, ¿cuál es el mejor software para programar aplicaciones?

¿Qué proceso de desarrollo de software usa Facebook?

¿Qué libro / video conferencia debería seguir si quiero aprender el análisis de datos de basic? ¿Cuáles son los otros softwares necesarios aparte de R y matlab?