¿Qué algoritmos puedo usar para determinar el contexto de las imágenes en una página web, como Flipboard?

Heurísticamente. Puede adivinar la imagen más relevante mirando a través de la estructura HTML, o en otras palabras, dónde están las imágenes. Luego analiza los elementos a su alrededor. Por ejemplo, si una imagen está dentro de un elemento con id / clase “comentario”, entonces probablemente sea irrelevante. Si una imagen está dentro de la etiqueta de un artículo, es muy probable que sea la que desea.

Cada imagen en la página tendrá una puntuación basada en sus reglas heurísticas. Al final, la imagen con la puntuación más alta será la imagen que desee.

De la boca de un ingeniero de Flipboard:

Determinamos si una imagen está relacionada con el contenido principal por su proximidad dentro del texto del artículo principal. De lo contrario, buscamos patrones que indiquen que se trata de una “foto” o “publicación de álbum”. Las etiquetas html especiales, como la etiqueta html5

, o los identificadores y nombres de clase, como “artículo” principal o “contenedor”, también ayudan a nuestro motor. Entiende la página web.

Fuente: ¿Cómo determina Flipboard qué imágenes o videos incrustados dentro de una pieza de contenido para mostrar?