El primer paso es analizar HTML para obtener el texto. Python proporciona un analizador HTML. Eche un vistazo al ejemplo completo de la página de documentación oficial de Python.
desde HTMLParser importar HTMLParser
# crear una subclase y anular los métodos del controlador
clase MyHTMLParser (HTMLParser):
def handle_starttag (self, tag, attrs):
print “Encontró una etiqueta de inicio:”, etiqueta
- ¿Cuál sería la diferencia entre un ingeniero de software de Investran y un desarrollador estándar de .NET?
- ¿Qué estructura debe tener un sitio web de contadores?
- Cómo conseguir nuevos clientes para el desarrollo web / de software
- Cómo crear una presentación de diapositivas en HTML
- Cómo mostrar datos de múltiples modelos en una sola vista en Ruby on Rails
def handle_endtag (self, tag):
print “Encontró una etiqueta final:”, etiqueta
def handle_data (self, data):
print “Encontró algunos datos:”, datos
# instanciar el analizador y alimentarlo con HTML
analizador = MyHTMLParser ()
parser.feed (‘
‘
¡Analízame!
‘)
También puedes usar BeautifulSoup.
desde bs4 import BeautifulSoup
html_doc = “” “
” “”
sopa = BeautifulSoup (html_doc, ‘html.parser’)
print soup.div.name
El resultado sería Hello World.