Si Grammar es el conjunto de reglas estructurales, ¿por qué todavía no tenemos un software que pueda verificar los errores gramaticales con precisión automáticamente?

Sí, hay un conjunto de reglas sobre cómo estructurar correctamente una oración en inglés, y si habla inglés con fluidez , conoce la mayoría de estas reglas . Pero este conjunto es increíblemente complejo y no lo hemos documentado todo. Incluso podría decir que no sabemos cuáles son las reglas . Esto es un poco contra-intuitivo, así que tengan paciencia conmigo.

La mayor parte del procesamiento del lenguaje ocurre en una parte del cerebro que está separada de la mente consciente que todos identificamos como “yo”. Esta parte del cerebro aprende lo que actualmente está permitido gramaticalmente en un idioma a medida que se aprende, sin que tenga que ser consciente de esas reglas (aunque ser consciente de ellas puede ayudar a su mente inconsciente a aprender porque le permite practicar, y eso “carga” tu mente inconsciente). Me gustaría demostrar la diferencia comparando la gramática con las matemáticas. Imagine pedirle a una persona numerada que lea esta línea y le diga si es correcta o no:

y = ((2x – 4 ^ 2) / (x ^ 2 – 8)) Si x = 3 entonces y = 7.

La mayoría de las personas numeradas pueden leer esta línea y comprender lo que significa cada símbolo, pero no podrán decirle si es correcto sin realizar conscientemente todas las sub-ecuaciones y resolverlo conscientemente. Cualquier programador medio decente podría escribir un programa para verificar la exactitud de cualquier fórmula compuesta de paréntesis y operadores matemáticos básicos porque las reglas son muy claras. (Me doy cuenta de que esto no es exactamente análogo a la gramática, pero el mismo principio se aplica a problemas sintácticos como el correcto anidamiento de paréntesis, no siempre es fácil de ver para una persona a primera vista, pero es muy fácil de expresar algorítmicamente y programar en una computadora).

Ahora piense en casi cualquier línea pronunciada por el personaje Yoda en las películas de Star Wars. En aras de la discusión, podríamos pensar en “Detenidos deben ser; de esto todo depende”. Cualquier hablante fluido de inglés reconocerá de inmediato que esta oración es gramaticalmente incorrecta. Pregúnteles por qué, y se detendrán y dirán que las palabras están en el orden incorrecto. Pueden ofrecer una versión corregida. Pídales que expliquen por qué un orden es correcto y no el otro, y la mayoría no podrá dar una respuesta lo suficientemente rigurosa como para construir un algoritmo que un programador de computadoras pueda usar. La mayoría ni siquiera (conscientemente) sabe que las oraciones en inglés siguen la secuencia Sujeto-Verbo-Objeto (la regla que Yoda viola), aunque claramente alguna parte de su mente lo sabe. Esto se debe a que las reglas gramaticales están encerradas en la mente inconsciente del hablante, que solo puede pasar parte de esa información a la mente consciente. (Esto es a lo que te estás refiriendo cuando dices que sientes que “Dios estaba emocionado” está mal pero no sabes por qué). El extracto de Yoda es bastante simple, pero hay muchas estructuras de oración gramaticalmente correctas, algunas de las cuales son mucho más complejas.

Ha habido concursos que ofrecen premios ricos a la persona que puede ‘analizar’ correctamente la oración en inglés (proponer una fórmula que exprese todas las estructuras gramaticalmente admisibles) y esos premios ricos nunca se han reclamado. En este punto de la historia, simplemente no existe un algoritmo completo en el que basar los controles de gramática de la computadora, aunque muchas de las reglas más simples y transparentes pueden ser verificadas de manera más o menos confiable por los correctores ortográficos y de gramática de la generación actual. Incluso entonces, tanto los falsos positivos como los falsos negativos son inevitables.

Esto se complica aún más por expresiones idiomáticas. Estos son grupos de palabras que se tratan como una sola unidad de significado (es decir, varias palabras que actúan como una sola palabra). Tome la expresión “aguantar”. ¿Por qué esa combinación de palabras significa “tolerar”? Churchill una vez hizo una búsqueda humorística de la regla del viejo gramatical de que una oración no debe terminar con una preposición torciendo esta expresión idiomática en “con lo que no voy a poner”. ¿Cómo comenzarías a escribir un algoritmo de computadora para determinar cuál de esas dos estructuras es correcta? (Para el registro, creo que “Dios, estaba emocionada” es aceptable como una construcción idiomática. Parece ser una pregunta retórica que se usó con la frecuencia suficiente para convertirse en una expresión idiomática que transmite énfasis. De lo contrario, la cláusula “estaba emocionada” “sería gramaticalmente incorrecto como una declaración (no cuestionable) ya que viola la regla Sujeto-Verbo-Objeto).

Además, como se ha señalado en otras respuestas, las computadoras están en una gran desventaja porque no pueden usar señales semánticas. Joe Devney, Calais Reno y Felix Zhang han proporcionado excelentes ejemplos de oraciones cuya gramática depende de la semántica. Si estuviera editando un artículo sobre vida marina peligrosa y me encontrase con la frase “un tiburón come hombre”, lo corregiría como “un tiburón come hombre”. Si el artículo fuera una característica pictórica sobre personas que disfrutaban de varios alimentos, haría lo contrario. Este es un juicio gramatical pero requiere un contexto semántico.

Espero que mi respuesta haya agregado algo valioso a las excelentes respuestas que ya ha recibido.

No estoy familiarizado con el corrector gramatical que mencionas, pero he usado el corrector gramatical en Microsoft Word. Lo mantengo apagado porque no es útil, y algunas veces está mal.

Diría que el problema es que el lenguaje es demasiado complejo. Si está hablando de la gramática como “reglas estructurales”, probablemente se refiera a la sintaxis: las reglas para construir oraciones en términos de las partes del discurso de las palabras y su disposición en sujeto, predicado, objeto, cláusula subordinada, etc. (No llamaría a la puntuación parte de la gramática). Las reglas que aprendió en la escuela primaria o en la clase de ESL no son todas las reglas que los hablantes nativos de un idioma siguen automáticamente.

Las reglas se pueden usar para crear literalmente una infinita variedad de oraciones gramaticales. Cualquier cadena de más o menos 20 palabras que surja en una conversación es probable que nunca se haya hablado antes. Y no hay límite teórico para la longitud de una oración gramatical. El software necesitaría dividir el problema en unidades manejables. Hacer un seguimiento de las relaciones entre las unidades, como donde cambiaste los tiempos verbales, hace que el problema sea más difícil. (Probablemente por eso el software no marcó dónde cambiaste los tiempos verbales: cada cláusula, tratada individualmente, era gramaticalmente correcta).

Y teniendo en cuenta la semántica, el significado de las palabras, aún haría las cosas mucho más difíciles. Considera estas dos oraciones.

El tiempo vuela como flechas.
Las moscas de la fruta como los plátanos.

Su estructura se ve idéntica en la superficie. Parece que las frases nominales a ambos lados del verbo se han cambiado para formar la segunda oración, sin alterar la estructura sintáctica. Pero, por supuesto, un hablante de inglés tiene en cuenta la semántica e inmediatamente se da cuenta de que el verbo en la primera oración es “vuela”, y en la segunda oración es “me gusta”. Creo que dicho análisis para todas las oraciones posibles sería un problema endiabladamente difícil de resolver para el software.

(Ah, y las últimas cuatro palabras son gramaticalmente correctas. “Dios” es una interjección. “Estaba emocionada” en lugar de “estaba emocionada” es una forma de agregar énfasis).

El software solo puede adivinar mejor los componentes de las oraciones y se enredará fácilmente con estructuras complejas tratando de resolver qué se supone que está de acuerdo con qué más. Además, hay MUCHAS excepciones a prácticamente todas las reglas en inglés. Creo que el progreso realizado hasta el momento es razonable y tal vez con el tiempo se mejorarán las verificaciones gramaticales, pero no son una herramienta masivamente perfeccionada. Parte del problema es la poca aceptación de la revisión gramatical mecánica porque necesita saber lo suficiente para saber qué partes alterar cuando el software lo detecte, y sin que las personas clamen por la funcionalidad, hay pocos incentivos para mejorarla. adivinar.

Curiosamente, personalmente corregiría la segunda oración para:
Aparentemente fue su primera experiencia de película en 3D y, Dios, estaba emocionada”.

“Dios” es un sub-claus – es una exclamación, oración intermedia, que podría eliminarse fácilmente. Por eso lo puse en comas. Si se habla, creo que habría una pausa al menos ante Dios, si no después. La segunda mitad de la oración es técnicamente una pregunta, aunque retórica, por lo que, estrictamente hablando, debe terminar con un signo de interrogación en lugar de un punto final. Sin embargo, la forma en que se hablaría no sería representativa de esa parte como una pregunta. Reformular como tengo evita ese problema.

Hay muchas razones, la más obvia probablemente es que es poco probable que sea rentable aunque una empresa valga la pena el extenso trabajo que implicaría, especialmente teniendo en cuenta que el producto todavía sería bastante defectuoso.

No importa cuán complejo se haya creado un programa, sería incapaz de explicar variaciones tales como el contexto y la intención. También tenderá a fallar con los usuarios más competentes del idioma, al igual que la corrección ortográfica.

E incluso si tuviera en cuenta todos los coloquialismos, regionalismos y usos arcaicos / obsoletos aceptables, no podría decirle si esa forma de expresión era apropiada para ese uso en particular o no.

  • Decir que la gramática para, digamos, inglés es un conjunto de reglas, etc., no es lo mismo que decir que todas estas reglas se han establecido formalmente, ni que existe un conjunto de reglas formales que puede ser interpretado por una computadora , no importa cuán poderoso sea.
  • Como ha sugerido al menos otra persona que responde a esta pregunta, puede haber una motivación insuficiente, dado el nivel de ganancia involucrado frente a la dificultad, para producir mejores correctores gramaticales.
  • Una gramática natural es un objetivo en movimiento.

Estoy impresionado con la seriedad con la que se está tomando este problema. No sé nada acerca de los programas de computadora para la gramática, pero Max Lehmann ha dado una excelente respuesta a esa parte de la pregunta, y yo no podría haber escrito una respuesta mejor que la de Calais Reno. El uso idiomático es fácil de entender por los hablantes nativos en todos los idiomas, pero no es tan fácil para los hablantes no nativos, por lo que tal vez deberíamos pensar en las computadoras como hablantes no nativos y dejarlo así.

Para empezar, algunos correctores gramaticales son mejores que otros. Creo que MS Word en sus versiones más recientes detectaría varios de los errores que publicaste. Dicho esto, la gramática es un conjunto de reglas increíblemente complejo, a menudo dictado por el contexto y los matices. Considera la siguiente oración.

No pateé al perro.

¿Qué crees que transmite esta oración? Una computadora tendría poca o ninguna capacidad para discernir dónde está el énfasis en esta oración y la sílaba del estrés puede darle a esta oración más de seis significados. Del mismo modo, al escribir puede tener motivos para utilizar la gramática no convencional para transmitir un punto en particular.