Cómo la inteligencia artificial aprende a leer y escribir

Cuatro técnicas que ayudan a las máquinas a parecerse a los seres humanos.

Si alguna vez has manejado tecnología de la Inteligencia Artificial (IA) con la que hayas podido mantener una conversación, ya sea hablada o mediante mensaje de texto, entonces has usado indirectamente IA con capacidades de procesamiento del lenguaje natural (NLP).

La IA con capacidad para el lenguaje es diferente a otros algoritmos de aprendizaje automático por el hecho de que los datos que maneja son inherentemente más complejos. En vez de recibir datos muy estructurados, normalmente en un formato de fila/columna, las IA con capacidad para el lenguaje deben manejar texto desestructurado y complejo, diferentes tipos de escritura, tipografías, acentos, etc., para poder realizar predicciones con precisión y llevar a cabo acciones concretas.

Este artículo va dirigido a este tipo de algoritmos que trabajan con el lenguaje escrito, pero los conceptos pueden trasladarse perfectamente a la IA que trata el lenguaje hablado. Aquí proponemos cuatro importantes componentes de diseño de IA para la lectura y la escritura.

1. El contexto es el rey

Las palabras pueden significar cosas diferentes para personas distintas y en momento diferentes. Por ejemplo, la palabra “terrible” puede usarse de forma negativa o de manera neutral (por ej., “El servicio se gestionó de forma terrible”, frente a “Siento terriblemente llegar tarde”) y la propia palabra “terrible” por sí misma es ambigua.

Esto no es nada nuevo para los humanos, pero las máquinas de IA luchan contra este concepto. Se emplea un concepto clave en el NLP en los últimos años, denominado, vectores integrados de palabras, para resolver este problema. Los métodos profundos de aprendizaje como Word2vec (de Google) y GloVe (de Stanford), crean representaciones numéricas de palabras a partir del contexto con el fin de adquirir un entendimiento más profundo de las palabras que empleamos.

Un ejemplo común de esto es la simple asociación de palabras. Si yo dijera “El hombre es al rey lo que la mujer es a ___,” usted diría, “la reina”. Esta misma lógica también se aplica a los vectores de palabras.

Los modelos de IA pueden usar estas representaciones numéricas/vectores de palabras atendiendo al concepto de contexto para poder leer un texto a un nivel mucho más profundo.

2. La IA observa y actúa

La IA aprende normalmente a leer y a escribir basándose en cómo los humanos lo han hecho antes en el pasado. Para el aprendizaje de modelos de IA, el sistema se alimenta de un historial de conversaciones que enseñan a la máquina a constituir una buena o mala escritura. El uso de datos de aprendizaje para el aprendizaje y ajuste de los modelos, no es un concepto nuevo en el aprendizaje automático, y se trata de un factor enormemente restrictivo en la habilidad de procesamiento y de creación de texto de la IA. La IA es por lo general capaz de repetir lo que los humanos han dicho antes pero no pueden generar nuevas secuencias de palabras ni sucesiones de pensamientos.

Un desarrollo muy reciente en el aprendizaje profundo, llamado aprendizaje secuencia a secuencia, es capaz de ingerir y generar secuencias de datos, y ha mostrado un gran aumento en la habilidad de la IA para aprender el “estilo” de la escritura y después generar nuevas piezas de texto a partir de una entrada inicial.

3. Metadatos/Sistemas interconectados

La misma pregunta puede responderse de forma diferente dependiendo de la información que rodee al mensaje, lo cual se denomina metadatos. Si el cliente de una página de comercio online se interesa por el estado de su pedido, la IA podría preguntarle de qué pedido se trata, buscar el estado del mismo y anularlo. La IA podría dar incluso un paso más y buscar el historial de la conversación del usuario con la empresa.

Llegando incluso más lejos, la IA podría observar que este usuario en particular ha preguntado lo mismo tres veces la semana pasada y adaptar la respuesta a un estilo más empático con el usuario, “Sentimos muchísimo que haya tenido que preguntar tantas veces, etc.”. Los metadatos podrían incluir la hora del día en que entra el mensaje o el canal del mismo (si la pregunta es un tweet o un e-mail).

4. Tamaño del vocabulario

Uno de los más sencillos componentes del NLP que más predominan es que el simple tamaño de las palabras y las combinaciones de caracteres en un lenguaje humano son por lo general asombrosos y requieren tiempo y potencia para el procesamiento. Este problema es especialmente predominante cuando una máquina tiene que recordar todas las palabras posibles, las combinaciones de palabras y las tipografías de palabras comunes.

Esto significa normalmente concentrar en la memoria millones de símbolos posibles de texto. Para combatir esto, se puede emplear una técnica denominada reducción de la dimensión que extrae la estructura latente en un texto para optimizar la potencia y la velocidad computacional. Este tipo de técnica se emplea para comprender temas de alto nivel y usar estos para dar mejores respuestas.

Tecnologías como Alexa, Siri y las IA empleadas en las locuciones de los servicios de atención al cliente, ya emplean estos cuatro componentes, entre otros, para crear una IA con capacidad de lenguaje que interactúe con nosotros a diario. El procesamiento natural del lenguaje continuará presentando nuevos obstáculos e inspirando nuevas soluciones y avances en la IA y en el aprendizaje profundo.