¿Cómo reconoce Plink Art las pinturas?

La respuesta del tamaño de un doctorado está aquí:
http://www.robots.ox.ac.uk/~mjc/…
http://www.robots.ox.ac.uk/~james/

James tiene una vieja demostración que muestra algunas de las agallas:
http://www.robots.ox.ac.uk/~vgg/…
(Desplácese hacia abajo hasta las imágenes, haga clic y arrastre un cuadro para buscar. Mire la página de detalles en los resultados)

Usamos algo llamado una arquitectura de palabras visuales. Es el enfoque dominante en la academia, y lo utilizan muchas compañías de búsqueda visual (por ejemplo, SnapTell, Kooaba y otros también lo hacen, aunque hay algunas compañías que hacen las cosas de manera diferente). Primero detectamos características locales invariantes en la imagen (similar a las características de SIFT, pero utilizamos nuestro propio diseño), que puede reconocerse incluso después de la rotación, traslación, escala, algo de iluminación y cambio de perspectiva. Para bases de datos pequeñas, puede detenerse allí. Pero para buscar grandes colecciones, cuantificamos el espacio SIFT en “palabras visuales”. Entonces, las regiones de Voronoi en un espacio de características de alta dimensión se asignan a un entero discreto. Esto le permite realizar una recuperación muy rápida utilizando un índice invertido, de la misma manera que funcionan los motores de búsqueda de texto. Finalmente, la coincidencia se verifica para la consistencia geométrica utilizando una variante eficiente RANSAC.
Hay un poco de magia en refinar el sistema para que funcione bien, por ejemplo, elegir detectores y descriptores de puntos de interés, descubrir la mejor manera de agrupar y cuantificar las características, ampliar consultas, funciones de clasificación aprendidas, etc. Pero la idea básica No es demasiado complicado.