Usando gsub () en R, ¿cómo deshacerse de las etiquetas HTML, por ejemplo, , en ‘ abc defg ‘?

No codifico en R, pero tiene la garantía de que necesita comprender las expresiones regulares. Muchos codificadores luchan con ellos, pero he descubierto que para todos los que trabajan con expresiones regulares, en algún momento la luz solo hace clic y luego “lo entiendes”. Las expresiones regulares / expresiones regulares son solo un nombre elegante para la coincidencia de patrones con caracteres comodín.

Las expresiones regulares existen en prácticamente todos los idiomas que he codificado desde los años 90 y a veces se llaman PCRE (expresiones regulares compatibles con Perl), pero no todos los idiomas las implementan de la misma manera. Hay docenas de sitios en línea que lo ayudarán a formatear la cadena correcta. Esta es una función php para capturar lo que hay entre las etiquetas html.

función get_from_tags ($ cadena, $ etiqueta)
{
$ regex = “# ] *> (. *?) ] *> # s”;
preg_match ($ regex, $ string, $ coincidencias);
devolver $ coincidencias [1];
}

La primera línea dentro del paréntesis contiene la expresión regular que parece un poco compleja y difícil de leer hasta que hayas trabajado un poco con ellas. Pero puede construirlos en piezas pequeñas y es mucho más fácil de lo que parece, lo difícil es anticipar todas las variables que podrían aparecer en su camino. Regex es cómo los sitios web validan los correos electrónicos y los números de teléfono. Esta es la expresión regular para un número de teléfono de 10 dígitos que acepta espacios, guiones y puntos como delimitadores.

^ (?: (?: \ +? 1 \ s * (?: [.-] \ s *)?)? (?: (\ S * ([2-9] 1 [02-9] | [2 -9] [0‌ 2-8] 1 | [2-9] [02-8] [02‌ -9]) \ s *) | ([2-9] 1‌ [02-9] | [2 -9] [02-8] 1 | ‌ [2-9] [02-8] [02-9])) \ ‌ s * (?: [.-] \ s *)?)? ([ 2-‌ 9] 1 [02-9] | [2-9] [02-9‌] 1 | [2-9] [02-9] {2}) \ s‌ * (?: [.- ] \ s *)? ([0-9] {‌ 4}) $

porque tiene muchas variables (los delimitadores) es un poco más grande de lo que cabría esperar, pero esto coincidirá con cualquiera de los siguientes

123–456–1234
123.345.2345
1234567890
123 456 7654

Y no mucho más.
Este ^ [0-9] {10,12} $ cualquier cadena de dígitos entre 10 y 12 caracteres de longitud. Si primero quita todos los caracteres no esenciales, funciona muy bien para la mayoría de los números de teléfono sin extensión.