Léon-Paul Schaub
Doctorando en informática Laboratorio LiMsi Université Paris-sud, Francia

Desde mediados de los años 2000 y con la globalización del acceso a internet, el procesamiento del dato no estructurado se ha convertido en un reto importante dentro de la ciencia de la información. El dato no estructurado [1] corresponde a todo contenido, escrito u oral, que no ha sido indexado en una base de datos o en un formato específico (XML, Json…), por ejemplo comentarios sobre un producto, o en Facebook, un tweet, mensajes en un foro, articulos de periodico… Al acto de procesar tales textos se le llama “minería de texto” (text mining). La minería de texto posee varias aplicaciones como por ejemplo traducción automática [2], corrector instantáneo [3], asistente vocal [4], filtrado de sPAM [5], predicción de palabras [6]…

En 2020, usamos a diario herramientas desarrolladas por ingenieros especializados en el Procesamiento de Lenguaje Natural (PLN), como por ejemplo el traductor automático de Google, que experimentó una mejoría notable en esta última década, o siRi, el asistente inteligente de Apple. También usamos otras casi sin darnos cuenta, como el filtrador de SPAMS de nuestro correo electrónico, o el sistema de búsqueda de Google.

De la misma manera, las empresas necesitan las tecnologías PLN, tanto en lo interno (resumen de reuniones, automatización de tareas), como en la relación con sus clientes (respuesta automática a correos y llamadas, FAQ inteligente, bot conversacional (chatbot) [7]) o simplemente para ponerse al corriente de la opinión pública acerca de su actividad (e-reputación, análisis de sentimientos, busqueda de opinión [8]).

La pregunta que podemos hacer es la siguiente: ¿cómo funciona esta tecnología y en qué medida se ha convertido en una industria de primer nivel para las empresas?

En la sección 2, presentamos un breve historial del PLN y definimos los fundamentos teóricos de esta ciencia, y explicamos por qué se sitúa en el cruce de diferentes disciplinas. En la sección 3 describimos la evolución de esa tecnología en los últimos diez años, así como el progreso del mercado del PLN. En la sección 4, hablamos de la revolución del dato, y de la adaptación de la industria al Reglamento General de Protección de Datos (RGPD). En la 5, describimos brevemente el estado de la técnica en varios campos del PLN y lo que representa a nivel económico en varios países punteros. Y en la 6 proponemos algunas conclusiones.

Historia del PLN: lingüística e informática, y temas concomitantes.

Definición
Al PLN o procesamiento del lenguaje natural se le llama también lingüística computacional, que podemos definir como el estudio del lenguaje humano desde el punto de vista del informático que intenta formalizarlo para que sea interpretable por una máquina. El PLN es sin ninguna duda un campo de la lingüística.

Orígenes
Los orígenes de la lingüística computacional se encuentran en la teoría de la gramática generativa de Chomsky [9]: “Una gramática generativa, en el sentido en que Noam Chomsky utiliza el término, es un sistema de reglas formalizado con precisión matemática que, sin necesidad de información ajena al sistema, genera las oraciones gramaticales de la lengua que describe o caracteriza y asigna a cada oración una descripción estructural o análisis gramatical.” Eso significa que el lenguaje natural puede ser explicado por completo, al menos en teoría, a través de reglas matemáticas.
Unos veinte años antes de las Syntactic Structures de Chomsky, en 1936, Alan Turing había presentado la teoría de la máquina computacional, un modelo matemático supuestamente capaz de formalizar cualquier operación lógica, más conocida como la máquina de Turing [10], que aún sirve de modelo para cualquier CPU2 de ordenador de hoy en dia. En 1950, Turing publicó un artículo en el que describía el famoso Test de Turing [11]: se trata de un test al que se somete un sistema informático de interacción hombre-máquina (HMi). El sistema pasa el test si un humano que lo usa no puede
distinguir si está interactuando con una máquina o con otro humano. Es el artículo fundador de lo que hoy llamamos inteligencia artificial. Este test sirvió de evaluador para los primeros sistemas conversacionales como ELiZA [12]. Hoy en día el test de Turing sigue siendo una referencia para la evaluación de los sistemas de diálogo hombre-máquina [13]. En 2011, iBM Watson [14], una tecnología de interacción hombre-máquina, ganó el juego televisivo Jeopardy!3 contra dos humanos. Fue un acontecimiento importante puesto que Jeopardy! es un juego que requiere cultura general y agilidad intelectual, pero también sentido del humor y del uso de la lengua debido a la presencia de juegos de palabras en las preguntas del presentador.

Intersección de varias ciencias
El PLN es el campo de la lingüística que utiliza la teoría computacional para describir el lenguaje humano, llamado lenguaje natural, en oposición al lenguaje formal (matemático, programación), y al lenguaje binario (máquina de Turing, compilador). Pero según Chomsky, el estudio del lenguaje natural no se puede hacer sin entender la psicología humana a nivel individual (personal) y colectivo (sociedad). En resumen, el PLN es un campo a la vez de la lingüística, de la informática, de las matemáticas y también de las ciencias cognitivas.

Dificultad de la formalización del lenguaje.
En este artículo no tratamos de las dificultades cognitivas, sociológicas y geográficas del lenguaje, sino de las ambigüedades endógenas de la lengua humana, y por ello nos referiremos exclusivamente a la variedad del español que se ha constituido como estándar “oficial” en España para las finalidades que nos atañen. Lo haremos desde el punto de vista del informático que desarrolla un sistema de comprensión del lenguaje natural (NLU).

La lengua natural se puede dividir en cinco niveles de expresión, cada uno de los cuales usa el precedente para definirse.

  1. Fonología: es el estudio de los sonidos del lenguaje y de cómo se interpretan para que tengan sentido (fonemas). La dificultad a este nivel está en el hecho de que un mismo símbolo gráfico, una letra, se pronuncie de dos maneras diferentes y, viceversa, de que un solo fonema se pueda escribir de dos formas distintas:
    lenguaje / Gijón
    Yo/ caballo.
  2. Morfología: es el estudio de la mínima forma autónoma de la lengua: la palabra. se descompone en morfemas (la más pequeña unidad lingüística con significado), lemas (asociación genérica de morfemas que definen una palabra sin sus derivados; generalmente es una entrada en el diccionario) y paradigmas (conjunto de un lema y sus derivados (p.e. declinación, conjugación..)). La dificultad a este nivel está en el hecho de que una misma letra tenga varias funciones:
    la letra /s/ significa a la vez el plural de los sustantivos y la 2a persona del singular de los verbos.
  3. Sintaxis: es el estudio de la frase, conjunto de palabras con orden y jerarquía dictada por la reglas gramaticales de relaciones entre las palabras. Por ejemplo: el árbol conduce mejor que ayer. La frase carece de significado pero gramaticalmente es correcta. La dificultad está en el hecho que las mismas palabras tengan diferentes funciones en frases idénticas.
    Juan ve a María con el telescopio, ¿quien tiene el telescopio, Juan o María?
    Persigo al ladrón en bici, ¿quien va en bici, el ladrón o yo?
  4. Semántica: es el estudio del sentido de las palabras. La dificultad a este nivel está en el hecho que la misma palabra tenga varios significados o viceversa.
    pez / pescado
    sobre (sustantivo) / sobre (preposición).
  5. Pragmática: es el estudio de las frases en contexto. Es la mayor dificultad para un sistema automático pues necesita tener en cuenta el contexto del uso de ciertas palabras.
    pregunta:“Quieres café ?” respuesta: “Tiene cafeína…”

La cuestión es ahora averiguar cómo crear una máquina capaz de entender estas ambigüedades como lo haría un humano.

El artículo completo está disponible en el número 103 de la Revista Ábaco.
Pincha aquí para adquirir la revista.