El árbol del conocimiento digital

Carlos Hornelas

carlos.hornelas@gmail.com


A
medida que el uso de Inteligencia Artificial se hace común alrededor del mundo, todo aquello que trae consigo se empieza a “normalizar” como algo inevitable en aras del progreso, el desarrollo o cualesquiera banderas que suelen poner en un pedestal a la tecnología por encima del ser humano.

El entusiasmo provocado por la Inteligencia Artificial generativa, aquella capaz de elaborar textos, imágenes, voz sintética, video y algunos otros productos más, ha sido adoptada casi sin reservas críticas en general y como si se tratara de una tecnología objetiva y neutral.

En la actualidad puedo pedirle directamente a ChatGPT, Gemini, Claude, Llama o Perplexity, por mencionar los más populares, que elaboren un resumen de un determinado libro, una película o que reseñen una obra literaria con unos resultados bastante aceptables.

La cuestión es que, gracias a este tipo de consultas, se puede pensar que del otro lado hay un robot súper erudito que puede responder cualquier cosa, como si se tratara de un oráculo. Parece tenerlo todo, es bueno, bonito y barato. Uno ni siquiera tiene que ingresar palabras clave como en Google, ni tiene que discriminar qué leer de las opciones de las listas con letras azules, a las que nos tenía acostumbrados el buscador.

Esta IA nos responde en un lenguaje claro y diáfano sobre todo aquello que le cuestionamos, pero como ocurrió con el árbol del conocimiento, aquí hay un pecado original que se suele soslayar. ¿De dónde ha salido toda la información de que dispone y que cada tanto se incrementa como parte de su acervo? ¿Acaso este robot nació sabiéndolo todo?

Cualquier aficionado al béisbol, como explica la doctora Cathy O´Neil en su libro “Armas de destrucción matemática” puede hacer predicciones a partir de una base bastante robusta de datos que son transparentes para todos los usuarios. Cada juego se recopilan una serie de datos que engrosan la certidumbre estadística que da forma a patrones o modelos que ayudan a comprender cómo es que un bateador puede o no irse ponchado tras sus dos strikes si tiene un determinado porcentaje, si se encuentra con un lanzador zurdo, si es la séptima entrada, si se juega con un clima cálido sin humedad que hace más rápida a la bola o si se juega de noche.

Todas estas variables pueden tomarse de aquello que pasa frente a nosotros: cada uno de los juegos que se registran minuciosamente. Si alimentáramos a una IA con esta base de datos podríamos hacer uso de esta información en combinaciones que solamente tendrían como limitante a nuestra imaginación.

Pero, regresando a los modelos de IA generativa, sus bases de datos sufren de aquello que se conoce con el nombre de la parábola del árbol envenenado. Si de raíz el árbol ha sido envenenado, sus ramas y ramitas lo estarán también.

Mientras en el béisbol la fuente de datos no es opaca, sino totalmente transparente, cada uno puede tener confianza y certeza de su origen. Pero las IA generadoras han sido alimentadas de un modo totalmente opaco y secreto, que solamente puede suponer haber tomado miles de obras, artículos de periódicos, revistas, reseñas publicadas, entre otros, sin pagar los derechos correspondientes a los autores o poseedores legítimos de estas piezas informativas que sirven de insumo para poder hacer lo que ofrecen al público en general, normalizando el hecho que quien tiene una determinada tecnología, es decir, medios, se salte las cuestiones éticas en aras de distribuir una herramienta de progreso simplemente porque puede hacerlo. ¿De dónde vienen esos datos y qué tan sesgados pueden o no ser los resultados?