¿Cuál es el mejor software de OCR posible para hebreo e inglés para Mac y Windows?

Hay diferentes programas de OCR disponibles, pero para resolver el problema de calidad y reconocer los archivos con precisión, es necesario un software de OCR profesional.

Si es un usuario de Mac, puede probar PDF Converter OCR, es el programa OCR que permite a los usuarios convertir PDF e imágenes escaneadas a 16 formatos, conservando la calidad del archivo original. Puede reconocer más de 200 idiomas, incluidos el hebreo y el inglés. Además, puede usar su creador de PDF incorporado para crear archivos PDF a partir de otros tipos de documentos.

Si es un usuario de Windows, puede probar Readiris, que puede convertir cualquier PDF a PDF, Word, Excel, ODT, ePub, ePub, audio e imagen. Además, puede escanear archivos en papel y digitalizarlos, luego convertirlos a formatos editables.

Lo que aprendí a través de muchos intentos con diferentes programas son estas cosas principales:

1) Todos los programas no funcionan muy bien con el reconocimiento de caracteres si el escaneo / archivo original no es de alta calidad. Escanee sus páginas al menos 300 ppp o más. Esto también significa que la página debe escanearse plana y no tener áreas grises de sombra, de lo contrario, tendrá dificultades para el reconocimiento.

2) Ninguno de los programas funcionó muy bien para mantener el diseño a menos que fuera muy simplista, así que espere pasar al menos tiempo limpiando y posiblemente volviendo a diseñar las páginas.

3) Los programas funcionaron mal con cualquier fuente compleja. Esperemos que las páginas estén escritas en una fuente simple y común.

Pruebe algunos de los sitios web de OCR gratuitos en línea con sus archivos escaneados recientemente y vea si mis consejos anteriores ayudaron. Algunos de los sitios web le dirán qué software usan en el back-end; si funciona bien, puede continuar usando el sitio web, alternativamente, puede descargar o comprar una versión de escritorio que use el mismo motor OCR. Si el sitio web en línea de OCR no funciona bien, te has ahorrado más dolores de cabeza y dinero.

i2OCR – OCR en línea gratuito
OCR en línea gratuito – Convierte JPEG, PNG, GIF, BMP, TIFF …
Convertidor de OCR en línea 100% gratuito> Extraer texto de …

ABBYY FineReader funciona bastante bien para hebreo y para documentos hebreo-inglés.

Una advertencia: no reconoce nikkud, y no puede manejar el script Rashi. (No creo que ningún software de OCR lo haga, desafortunadamente). Entonces, si lo que estás tratando de hacer es convertir cosas de http://Hebrewbooks.org o algo así, muchas de ellas no funcionarán.

Otra advertencia: hay un error extraño si estás dividiendo páginas automáticamente. Si uno de los idiomas del documento es de derecha a izquierda, se supone que el libro lo es, pero hay una opción de menú fácil para volver a colocar las imágenes en el orden correcto.

Hay algunas alternativas:

  • ABBYY FineReader
  • Prizmo
  • Readiris Pro

El problema es que, según una revisión, OmniPage Pro para Windows que se ejecuta a través de la virtualización funciona mucho mejor que esos programas.

Acrobat Pro y Abbyy hacen un gran trabajo en mac para textos en inglés. He usado ambos; Todavía tengo ambos porque la universidad donde trabajo tiene el Acrobat; y tengo el Abbyy con Devonthink. Mi experiencia es, como señaló David, si el original es una mierda, no pueden hacer nada al respecto. Pero, para una buena fuente de pdf, ambos hacen un gran trabajo. Abbyy parece ligeramente superior en algunos casos; especialmente el formato se mantiene muy bien en Abbyy. Pero, Acrobat es mucho más rápido.

No probé con Abbyy si es igualmente bueno para los textos hebreos. Creo que el software admite el hebreo; pero no estoy seguro de cuán eficiente es.

El hebreo no parece admitido en OmniPage Pro: http://supportcontent.nuance.com

No sé acerca de las Mac, pero hay un OCR nativo en el sistema operativo Windows que debería funcionar para los demás (y podría funcionar si está ejecutando Windows en la Mac).