¿Qué necesito aprender para crear una aplicación de iOS que capture texto de fotos y luego procese esa información y se la envíe al usuario?

Considere trabajar con el aprendizaje automático. En lo que describe, está arreglando categorías para propiedades. Supone que todos los recibos provienen de un restaurante, por lo que debe conocer todos los posibles nombres de restaurantes antes de que alguien pueda escanear un recibo.

Lo que haría es trabajar con los datos espaciales del recibo y los bloques de texto que tiene. Trate de averiguar si puede encontrar una manera que sepa cuál es el nombre del restaurante, antes de compararlo con una lista de posibles restaurantes. Para los precios, puede buscar patrones comunes, como números y símbolos de moneda.

Además, tenga en cuenta que ya hay aplicaciones y productos que hacen lo que está a punto de hacer. Solo en los Países Bajos hay 2 o 3 aplicaciones que pueden reconocer recibos e insertarlos directamente en el software de contabilidad. Sin embargo, no deje que esto lo deprima, solo úselo como entrada para determinar su propuesta de valor.

Quizás necesite un escáner móvil de documentos SDK o tecnología OCR.

El reconocimiento óptico de caracteres (OCR, por sus siglas en inglés) es una tecnología que puede escanear y extraer fácilmente el texto de las imágenes del documento y luego convertirlas en archivos editables y con capacidad de búsqueda.

He usado una aplicación de escáner móvil de documentos llamada Docs Matter. Puede escanear el documento que tiene y recuperar la información de las imágenes del documento. Puede editar los resultados del reconocimiento y guardarlos en teléfonos móviles. También puede convertirlos a archivos de formato PDF, Word, Texto. Sincronícelos con la nube; compártelos con otros al instante. Busque rápidamente el documento que necesita ingresando algunas palabras clave en todo momento.

¿Crees que es lo que quieres? Tal vez pueda probar Docs Matter – Escáner móvil – Tecnología Yunmai para probarlo. La aplicación que utilicé es para Android. Pero puedes contactar a la compañía, mi amigo trabaja allí y dijo que parece que tienen una versión de iOS.

Necesita una biblioteca OCR (reconocimiento óptico de caracteres) para convertir la imagen en texto. Es posible que necesite preprocesar la imagen para obtener mejores resultados, como recortar la parte relevante, ajustar el brillo y el contraste, lo que se puede hacer con iOS SDK. También debe tener una biblioteca de restaurantes y comidas, para que pueda identificar McDonald’s como restaurante, pepitas como comida, etc.
Para OCR, Tesseract-OCR parece una buena opción.