¿Cómo funciona el software que verifica el plagio?

Así es como evitas … * tos * Quiero decir, plagio. ¡Sí! Comprobación de software. ¡Correcto!

El software de comprobación de plagio funciona buscando patrones estructurales o identificadores únicos.

Los sistemas bien construidos generalmente tienen dos o más fases:

  • Un sistema de puntuación automatizado para clasificar las posibilidades más altas.
  • Un paso de verificación humana.

El proceso automatizado es muy similar al procesamiento del lenguaje natural, la identificación visual y la correspondencia biométrica.

Todos estos tienen una base en el reconocimiento de patrones.

http://en.m.wikipedia.org/wiki/P…

En su base, busca semejanzas y asigna una puntuación. Por ejemplo:

  • “El gato en el sombrero.”
  • “Perro en el sombrero”.

Permite configurar algunas reglas básicas:

  • Carta similar, otorgar 10 puntos.
  • Carta faltante, no otorgue puntos.
  • Carta diferente, otorgar 1 punto.
  • Carta extra, restar 2 puntos.
  • Incluir espacios.

“El” (con espacio) son 4 letras adicionales que dan -8 puntos.

“gato” vs “Perro” tiene 3 letras diferentes, dando 3 puntos.

“en el sombrero”. (con el punto) son 12 letras que nos dan 120 puntos.

Entonces nuestro puntaje de similitud es de 125 puntos.

Esto está un poco simplificado, pero básicamente a cada regla concebible se le asigna una puntuación.

Las reglas y los pesos de los puntajes dependen de lo que se esté controlando por plagio.

Si se trata de un informe escrito, la estructura gramatical, los patrones retóricos (es decir, el uso de “pero”, “aunque”, “por lo tanto”, …) o la elección de palabras podrían tener algún peso de puntuación especializado.

Si se trata de una asignación de programación, los nombres de las variables, la estructura lógica o el número de funciones pueden tener un peso de puntuación específico.

Todo se compara con todo lo demás y se crean múltiples puntuaciones.

Los puntajes más altos se consideran los mejores candidatos que requieren verificación humana.

Por lo general, un sistema presentará ambos artículos al verificador humano. Se debe tomar una decisión final.

Si hay 100 artículos, entonces eso es 100 × 100 = 10000 puntajes. Los que son más probables son revisados.

Asi que….

Los hackers y los tramposos necesitan conocer los detalles más profundos para crear un diseño / solución ganadora.

Depende del tipo de artículo, pero la mejor opción es modificarlo hasta que sea irreconocible. Es importante pensar en todos los posibles criterios de puntuación integrados en el sistema de verificación.

Otro método es combinar obras. Por lo general, los algoritmos buscan tramposos obvios que solo miran 100 × 100 debido al poder de procesamiento. Se necesita una potencia de procesamiento significativamente mayor para analizar 100x100x100. Es por eso que algunos dicen que la aplicación de la ley básica solo atrapa a los criminales tontos.

Utilice fuentes más allá del conjunto de datos conocido (es decir, no sus pares). Se necesita mucha potencia de procesamiento para comparar un conjunto pequeño. Ampliar ese conjunto para incluir artículos de Internet suele ser más intenso de lo que cualquier organización académica está dispuesta a gastar. Por lo general, esto lo limita a las presentaciones anteriores de años anteriores, año actual, otros cursos, etc. Mientras más lejos vaya a adquirir una fuente, más seguro será recibir una puntuación baja.

Comprender la estructura lógica es el arma secreta de un tramposo. Si sabes que “A + B => C”. Puede reescribirlo como “C: B + A”. El objetivo es convencer a un sistema automatizado de que usted es diferente del resto.

Los errores intencionales también son importantes para evitar la detección automatizada. No trates de ser 100%, solo ve por 80%. Independientemente de quién o qué está siendo plagiado, realizar menos que aquellos de los que está engañando es simplemente ser un tramposo ético. Trabajaron duro para eso, al menos debes estar seguro de que no se marquen debido a tu mala forma de hacer trampa.

Piense en el conjunto de reglas, luego sea creativo.

Me alegra ver que James mencionó la necesidad de que un humano revise los resultados. El software de detección de plagio identifica coincidencias dentro de su base de datos, pero eso no significa que sea plagio. Una persona necesita ver esa coincidencia, ver si es un texto que es una cita, extracto u otra fuente / referencia, luego decidir si es plagio o no.

En lo que respecta a tratar de vencer al sistema, las compañías de software suelen estar a la vanguardia del juego o ponerse al día rápidamente. Por ejemplo, sustituyendo letras cirílicas que se parecen a las letras latinas, agregando espacios adicionales, o incluso agregando letras “invisibles” para diferenciar el texto. “Muchos sistemas de software de detección de plagio eliminan automáticamente las macros de los manuscritos enviados y pueden detectar fácilmente signos de puntuación y caracteres invisibles”. (Conceptos erróneos del software de detección de plagio).

La revisión humana es imprescindible, no hay plagio sin una decisión humana 🙂 Pero el plagio también podría ser uno mismo, incluso parafraseado sin mostrar una fuente de datos podría ser atrapado como contenido de plagio, incluso cuando soft era ciego.

En Europa del Este, alteraciones como reemplazar las letras cirílicas a latinas y viceversa, la traducción del texto del idioma original al local, la sinonimización del contenido de Internet son las formas más populares de plagio que no muchos sistemas pueden detectar.