¿Cómo detecta y oculta Airbnb las direcciones de correo electrónico y los sitios web en los mensajes?

Están utilizando expresiones regulares principalmente.

Si eres un usuario avanzado en Airbnb, debes haber sido contactado por usuarios que quieren que te comuniques directamente con ellos. La comunidad ha venido con soluciones muy creativas para sortear ese tipo de problema, soluciones que son muy difíciles de atrapar con un RegExp.

Por ejemplo:

  • john dot smith en thebiggestsearchengineintheworld dotcom
  • + uno hola $ 3 hola $ 4 hola $ 7 hola (lo obtienes)

Si he visto ese tipo de acercamiento una y otra vez. Incluso puede probar matemáticamente que, dada cualquier expresión regular utilizada para el filtrado, puede encontrar una solución que no será atrapada por el RegExp y pasar.

Si son demasiado agresivos al filtrar texto, arruinarán el contenido de inMails, lo que quieren evitar. Por lo tanto, han combinado el filtrado para evitar que el 99% de los bozos hagan tratos fuera de la plataforma, lo suficiente para que su negocio prospere 🙂

Feliz “RegExp” ing!

Las personas tienden a ofuscar este tipo de datos de muy pocas maneras. Por lo tanto, probablemente solo usan una combinación de expresiones regulares y heurísticas para encontrar grupos de palabras que se parecen a números de teléfono, sitios web o direcciones de correo electrónico (que tienen una estructura única). Podrías atacar cada uno de estos problemas por separado y con unos días de codificación elimina la mayoría de los casos de ortografía ofuscada. Podrían usar expresiones regulares simples para todas las direcciones de correo electrónico, números de teléfono y sitios web directamente enunciados. Además, podrían bloquear otras palabras en alguna “lista de competidores”, por ejemplo, “craigslist” o “vrbo”. También podrían detectar cualquier palabra que esté a una corta distancia de edición de una palabra escrita correctamente en cualquiera de estas listas (pero no aparecen t0). Finalmente, para impedir que algunas personas inteligentes escriban cosas como “cinco 1 oh”, pero permitir que las personas escriban “1 persona”, probablemente separen las oraciones en “palabras” por espacios en blanco y signos de puntuación usando cualquiera de una multitud de cajas de herramientas de tokenizadores comúnmente encontradas y busque “palabras” secuenciales que se ajusten a cierto patrón. Digamos que para los números de teléfono, en los EE. UU. 7 o 10 “palabras de números” en la “lista de números” en una fila podrían indicar un número de teléfono ofuscado, que luego podría bloquearse.

Por supuesto, ganan un montón de dinero, por lo que también podrían contratar a algunos expertos en Aprendizaje Automático para capacitar un modelo de aprendizaje discriminatorio supervisado en línea utilizando ejemplos etiquetados de texto ofuscado que desean bloquear y texto que permitirán para cada idioma. La recopilación y el etiquetado de estos datos puede ser mejor realizada por Amazon Turk, que luego podría actualizar el modelo hasta que se logre la precisión y el recuerdo suficientes.

¡El diablo está en los detalles!

usan expresiones regulares para buscar y reemplazar
Aquí hay un ejemplo que
encontrar direcciones de correo electrónico válidas formadas:
“^ [\ W- \.] [ Correo electrónico protegido] ([\ w -] + \.) + [\ W -] {2,4} $”

para más información aquí hay un tutorial Expresiones regulares

Si bien no sé la respuesta exacta, sé por experiencia que detectan palabras que terminan en .com o. Casi cualquier cosa. Lo cual es una pena porque alguien había olvidado el punto al comienzo de una oración y escribió algo como “oración.es gracioso …” en cuyo caso “oración.it fue bloqueado.

También usando espacios para ej. john @ gmail o john at gmail o webaddress dot com son fáciles de automatizar y eliminar.

Cuando alguien escribió en la línea de “puedes ver mi arte en el popular sitio de redes, mi perfil es el mismo nombre que aquí y mi apellido es Doe”.

Tienen toneladas de palabras bloqueadas. Solo piense en las toneladas de mensajes que administran cada hora. Airbnb tiene mucha información, por lo que sus “formas no obvias” probablemente sean muy obvias para ellos.

Lo mejor que puede hacer para asegurar a los clientes su alquiler de vacaciones es estar en más de 3 o 4 sitios web de alquiler de vacaciones (como Homeaway, Tripadvisor, …).

Puede sincronizar los calendarios de disponibilidad totalmente gratis con un software de alquiler de vacaciones para evitar el exceso de reservas.

Puedes usar una herramienta llamada Sync Rentals (soy el cofundador). Por favor, eche un vistazo y hágame saber sus pensamientos

Si lo piensa, su servicio es valioso y sus tarifas no serán un factor decisivo. Créeme, he probado muchas otras formas de alojamiento.

Tengo alrededor de media docena de críticas positivas como anfitrión en Airbnb y fue diseñado un “Superhost” el año pasado. Me he encontrado con la situación varias veces cuando las personas que aún no han reservado me pedirán que me llamen y me hagan preguntas y he eludido los algoritmos al deletrear los números fonéticamente con la ortografía incorrecta. Sin embargo, según mi experiencia, la mayoría de las personas que intentan eludir las reglas de Airbnb justo al comienzo del proceso (es decir, pedir su número de teléfono antes de reservar, etc.) terminaron siendo poco serias (una pérdida de tiempo) se convierten en invitados pero terminan quemando un pedazo de hierba en mi patio trasero o fumando marihuana en mi habitación sin mi consentimiento. Hay una razón por la cual Airbnb hace cumplir estas reglas y confía en mí, si es más rentable para los anfitriones que Airbnb la habría incorporado. Cuanto más dinero ganan los anfitriones, más Airbnb hace. Airbnb tiene en mente el mejor interés de los anfitriones porque aumenta el resultado final. Confía en ellos. ¡No des tu número de teléfono hasta que se publique después del pago final!

Expresiones regulares.

  • buscar cadenas para el símbolo @.
  • agarrar la longitud de la cuerda
  • busque antes del signo @ al espacio en blanco.
  • Borrar
  • busque después de @ (inclusive) y elimine también
  • inserte x cantidad de caracteres ambiguos de acuerdo con la longitud de la cadena original.

Para mayor referencia, encuentre Aprender expresiones regulares de la manera difícil.

He intercambiado números varias veces, sin ningún problema; tanto que ni siquiera sabía que ocultaban la información.

Tampoco tenía planes de eludir el sistema de reservas. ¿Quizás haya alguna base contextual para ocultar la información?

Trust & Safety es la piedra angular de Airbnb. Airbnb tiene un equipo dedicado de agentes de servicio al cliente que se enfocan únicamente en mantener a la comunidad de Airbnb lo más segura y confiable posible, y mantener las comunicaciones y transacciones en el sitio es esencial para lograrlo. Son responsables de desarrollar continuamente nuevas características y servicios que hacen que nuestra comunidad sea más segura. Los usuarios de Airbnb también pueden marcar cadenas de mensajes para alertarnos cuando las personas intentan salir del sitio.

Marca de usuario: http://www.airbnb.com/help/quest
Por qué deberías mantenerlo en Airbnb: http://www.airbnb.com/help/quest

¿Cómo detecta y oculta Airbnb las direcciones de correo electrónico y los sitios web en los mensajes?

¿Qué código o plataforma usa Airbnb? algunos pueden decirme por favor