Mejora tu Inglés con estas frases elegidas con IA

En este artículo exploramos la posibilidad de usar Machine Learning para mejorar nuestro inglés. La premisa es que si nos aprendemos las estructuras más comunes en inglés, mejoraremos notablemente nuestra soltura con el inglés.

Encontrando la estructura sintáctica de una frase en inglés

Para encontrar las estructuras  en un lenguaje, vamos a utilizar la librería de python spaCy. spaCy nos va a permitir hacer un análisis de las oraciones. En otras palabras, nos va a permitir descubrir qué función realiza cada palabra en una frase. spaCy soporta el análisis de varios idiomas: inglés, alemán, español, portugués, francés, italiano, holandés, etc.

Podemos pedirle a spaCy que nos de la estructura para la frase «Learn English with artificial intelligence at iartificial.net«. Este es el resultado que obtenemos:

PalabraTAGPOSDEP
LearnVBVERBROOT
EnglishNNPPROPNdobj
withINADPprep
artificialJJADJamod
intelligenceNNNOUNpobj
atINADPprep
iartificial.netADDXpobj

Este es el significado:

  • TAG es la etiqueta (por ejemplo, si es un verbo modal)
  • POS es la abreviatura de ‘Part Of Speech’ que significa ‘parte de la oración’ (por ejemplo, el verbo)
  • DEP es la dependencia sintáctica (por ejemplo, el complemento directo)

Para saber el significado de todas estructuras podemos consultar la especificación de anotaciones en spaCy.

Si concatenamos TAG_POS_DEP nos queda la siguiente equivalencia sintáctica:

  • Learn English with artificial intelligence at iartificial.net
  • VB_VERB_ROOT NNP_PROPN_dobj IN_ADP_prep JJ_ADJ_amod NN_NOUN_pobj IN_ADP_prep ADD_X_pobj

Es decir,

  • ‘Learn’ es el verbo principal
  • ‘English’ es un nombre que va haciendo de complemento directo
  • ‘with’ es un modificador preposicional que está actuando como conjunción, subordinación o preposición
  • ‘artificial’ es un adjetivo que modifica al nombre
  • ‘intelligence’ es un nombre que hace de complemento indirecto
  • ‘at’ es una preposición de conjunción, subordinación o preposición
  • ‘iartificial.net’ es algo desconocido que hace la función de complemento indirecto

Las estructuras sintácticas más comunes en inglés

Introducción a los n-grams

Para encontrar cuáles son las estructuras más comunes, vamos a utilizar n-grams en el análisis sintáctico. Los n-grams son los distintos tipos de agrupamientos posibles, de n en n. En nuestro caso, vamos a usar n=3.

Así por ejemplo, para nuestra frase «Learn English with artificial intelligence at iartificial.net» tendremos el análisis sintáctico: VB_VERB_ROOT NNP_PROPN_dobj IN_ADP_prep JJ_ADJ_amod NN_NOUN_pobj IN_ADP_prep ADD_X_pobj

Si consideramos todos los 3-grams tendremos los siguientes:

  • VB_VERB_ROOT NNP_PROPN_dobj IN_ADP_prep (Learn English with)
  • NNP_PROPN_dobj IN_ADP_prep JJ_ADJ_amod (English with artificial)
  • IN_ADP_prep JJ_ADJ_amod NN_NOUN_pobj (with artificial intelligence)
  • JJ_ADJ_amod NN_NOUN_pobj IN_ADP_prep (artificial intelligence at)
  • NN_NOUN_pobj IN_ADP_prep ADD_X_pobj (intelligence at iartificial.net)

El corpus brown de NLTK

Para encontrar las estructuras sintácticas más comunes en inglés, necesitamos muchos textos en inglés. Los textos que vamos a usar para este análisis vienen del corpus brown de la librería NLTK. Este corpus contiene textos en 15 categorías: ‘adventure’, ‘belles_lettres’, ‘editorial’, ‘fiction’, ‘government’, ‘hobbies’, ‘humor’, ‘learned’, ‘lore’, ‘mystery’, ‘news’, ‘religion’, ‘reviews’, ‘romance’, ‘science_fiction’.

Haremos el análisis con los textos de la categoría ‘news’ (noticias). Para que te hagas una idea, estas son las tres primeras frases del corpus brown para la categoría news:

  1. «The Fulton County Grand Jury said Friday an investigation of Atlanta’s recent primary election produced « no evidence » that any irregularities took place .»
  2. «The jury further said in term-end presentments that the City Executive Committee , which had over-all charge of the election , « deserves the praise and thanks of the City of Atlanta » for the manner in which the election was conducted .»
  3. «The September-October term jury had been charged by Fulton Superior Court Judge Durwood Pye to investigate reports of possible « irregularities » in the hard-fought primary which was won by Mayor-nominate Ivan Allen Jr. .»

Las estructuras sintácticas más comunes en news brown corpus

El siguiente gráfico muestra el número de veces que aparecen los 3-grams sintácticos en la sección de noticias inglesas del corpus brown de NLTK. En este gráfico sólo se muestran los top 20. Top 20 de 3-grams sintácticas más comunes en inglés para el corpus brown news

Como te habrás dado cuenta, las estructuras más comunes aparece muchas, pero que muchas más veces que las que no son tan comunes. Sigue una ley potencial que es muy común en la forma que usamos los lenguajes. Esto es mucho más evidente si en vez de visualizar los top 20, visualizamos los top 200 n-grams.

Top 200 de 3-grams sintácticas más comunes en inglés para el corpus brown news

Encontrando las mejores frases … usando palabras comunes

Si nuestro objetivo es familiarizarnos con las estructuras sintácticas más comunes, podríamos elegir al azar frases que las contuviensen. El problema de esta estrategia, es que correríamos el riesgo de que usen palabras muy raras (poco frecuentes). Por eso, además de escoger frases que tengan palabras más o menos conocidas. Sin entrar mucho en detalles, tengo en cuenta la media de los logaritmos de la frecuencia de cada palabra en una frase. De esta forma obtenemos las frases que tienen palabras conocidas y que tienen estructuras sintácticas comunes.

Las frases de inglés con las que te debes familiarizar

Estas son frases cortas, con estructuras sintácticas frecuentes y con palabras comunes del corpus brown por categorías. He usado la categoría news pero el mecanismo sería análogo para cualquier otra categoría. Las frases se ha obtenido usando los 50 3-grams más comunes. Observarás que hay menos de 50 frases porque algunas de ellas combinan varios de los 3-grams más comunes.

  1. Hatfield also is scheduled to hold a public United Nations Day reception in the state capitol on Tuesday .
  2. Registrations of new cars in Dallas County cracked the 3,000 mark in March for the first time this year .
  3. Since Election Day , Vice President Richard Nixon had virtually retired — by his own wish — from public view .
  4. J. A. W. Iglehart , chairman of the Oriole board of directors , and Public Relations Director Jack Dunn .
  5. Mr. Kennedy was convinced that insistence on the demand would make international agreements , or even negotiations , impossible .
  6. The committee for the annual Central City fashion show has been announced by Mrs. D. W. Moore , chairman .
  7. Mr. Kennedy told Moscow he would give his answer by May 20 after consultation with the Allies .
  8. Stein said he needed the money , Leavitt said , to « meet the payroll » at National Maintenance company .
  9. One house was without power for about half an hour , a Narragansett Electric Co. spokesman said .
  10. Legislators who last year opposed placing aged-care under the social security system criticized the President’s plan .
  11. Several police cars , loaded with armed officers , raced alongside , blazing away at the tires of the big jet .
  12. Within a year , without reducing wages , Underwood’s production costs were cut one third , prices were slashed .
  13. One of these men is former Fire Chief John A. Laughlin , he said .
  14. Halleck said the voluntary care plan enacted last year should be given a fair trial first .
  15. Asked Mrs. Grace O. Peck , representative from Multnomah County , of the commission chairman , Joseph E. Harvey Jr. .
  16. Barbara Borland of Tigard took top senior individual home economics honors with a demonstration called filbert hats .
  17. — A Houston teacher , now serving in the Legislature , proposed Thursday a law reducing the time spent learning « educational methods » .
  18. Mrs. Clayton Nairne , whose daughter , was among the court maids , chose a deep greenish blue lace gown .
  19. The Continental League never got off the ground , but after two years it forced the existing majors to expand .
  20. Former Vice-President Richard M. Nixon in Detroit called for a firmer and tougher policy toward the Soviet Union .
  21. And the election of President Kennedy has attracted new attention to the ethical climate of his home state .
  22. « Los Angeles has said they would send the children to their homes in case of disaster » , he said .
  23. The Senate also voted $5.2 billion to finance the government’s health , welfare , and labor activities .
  24. Mr. and Mrs. Anderson were entertained at dinner on Sunday by Mr. and Mrs. Frank Coulson , of Fairless Hills .
  25. however , the first belief stood for entire revision with a new third point added to the list .
  26. Sam Caldwell , State Highway Department public relations director , resigned Tuesday to work for Lt. Gov. Garland Byrd’s campaign .
  27. He is a native of New Orleans and attended Allen Elementary school , Fortier High school and Soule business college .
  28. Taking precedence over all other legislation on Capitol Hill last week was the military strength of the nation .
  29. The first one , two years ago , changed the routine of their home life .
  30. Assisting as chairmen of various committees are Mrs. Alvin Blum , Mrs. Leonard Malmud , Mrs. Edward Fernberger , Mrs. Robert Cushman .

Resumen

En este artículo hemos obtenido un listado mínimo de frases que maximiza el número de frases con estructuras sintácticas comunes. Las estructuras sintácticas las hemos obtenido con spaCy, con técnicas de procesado del lenguaje natural. Al requerir que el vocabulario sea común y que las frases sean cortas, nos hacemos la vida más fácil. Si te familiarizas con estas frases, su estructura y su significado, tu nivel de inglés mejorará mucho … al menos estadísticamente hablando!

Recursos

  • Librerías de Python para Machine Learning
  • NLTK: Natural Language Tool Kit para el corpus en inglés
  • spaCy: para el análisis sintáctico de una frase con técnicas de procesado del lenguaje natural

Suscríbete a IArtificial.net

1 comentario en “Mejora tu Inglés con estas frases elegidas con IA”

  1. Me ha encantado el articulo. Muy original el enfoque, ahora me pica la curiosidad por ejemplo de ver el resultado si por ejemplo se usaran conversaciones extraídas de subtítulos de películas.
    Nuevamente felicidades, gran trabajo!

    Responder

Deja un comentario