Esto se llama OCR, por “reconocimiento óptico de caracteres”.
Funciona en varios pasos:
- Primero, utiliza algoritmos que intentan limpiar la imagen (eliminar elementos gráficos y fondos, enderezar la posición si la imagen está inclinada, tratar de reducir el ruido y hacer que los personajes se destaquen más)
- Luego trata de encontrar los personajes en la imagen, o más específicamente sus cuadros delimitadores. En la imagen a continuación, estos son los contornos azules alrededor de cada personaje:
- Luego ejecutará cada subimagen a través de otro algoritmo que intenta hacer coincidir cada imagen de personaje con una enorme base de datos de imágenes etiquetadas que contienen todo tipo de fuentes, formas y tamaños. Esto se llama datos de entrenamiento, y en algún momento un humano le dijo a la computadora qué imagen es qué personaje. Como las coincidencias nunca son perfectas, se utiliza un algoritmo que puede hacer coincidencias difusas (una red neuronal artificial).
- Luego, se utiliza otro algoritmo, esta vez para realizar la corrección ortográfica en la salida de texto del último paso. La razón es que algunos caracteres estarán mal etiquetados, lo cual es fácilmente reparable con la corrección ortográfica tradicional la mayor parte del tiempo.
Aquí es donde termina el OCR tradicional. Sin embargo, el programa al que se ha vinculado puede hacer más:
- ¿Cuáles son las 5 aplicaciones móviles de Windows sin las que no puedes vivir y por qué?
- ¿Cuáles son algunas formas en que una compañía de aplicaciones móviles puede encarnar el tipo de cultura dominada por compañías de ropa como 'Supreme'?
- ¿Hay alguna manera de tener mi aplicación de mensajes de texto, en mi enlace de Android (actualmente Textra) con una aplicación de mensajes de texto en mi Mac?
- ¿Cuáles son las aplicaciones que son para la seguridad de las mujeres?
- Cómo aprovechar al máximo las aplicaciones de productividad que existen
- Puede usar, lo adivinó, otra colección de algoritmos para realizar la traducción automática de la salida de texto desde arriba.
- O también puede sintetizar la voz del texto, utilizando otro algoritmo.
En general, estos programas representan una encuesta casi completa de Inteligencia Artificial en Ciencias de la Computación: utilizan una amplia gama de técnicas para lograr su objetivo.