CARLOS HORNELAS
carlos.hornelas@gmail.com
La semana pasada, investigadores de Open AI revelaron que sus modelos “más avanzados” de lo que se ha llamado “Inteligencia Artificial Generativa”, como el célebre ChatGPT, cometen cada vez más errores de manera significativa.
Los resultados obtenidos por los modelos son cada vez menos fiables. De acuerdo con la estimación de Open AI, las llamadas alucinaciones y mentiras en los resultados de las consultas se han incrementado de manera tal que el 48% de las ocasiones ni son precisos ni verdaderos. Es decir, que, la probabilidad de obtener una respuesta aceptable es la misma que lanzar una moneda al vacío y ver qué cae.
Desde la perspectiva de los más optimistas partidarios de esta tecnología, cada nueva versión se esperaba que superaría a su antecesora y se haría más potente y precisa. Como ocurre con los francotiradores que van refinando el blanco a partir de aproximaciones sucesivas hasta conseguir el objetivo. Sin embargo, no ocurre así. Y esto también pone en duda si realmente contratar el servicio de paga, es, en última instancia, rentable.
¿Cómo puede explicarse esta situación? En primer lugar, creo que es necesario recordar que los modelos de lenguaje no piensan y su “criterio” no evoluciona, porque en última instancia son equipos inertes que funcionan a partir de la intervención humana y que no es posible su autonomía total o su “deseo” de aprender para mejorar las respuestas.
Lo que hace en todo caso, cuando se le consulta, es buscar la respuesta “más popular” estadísticamente hablando, mediante los patrones que identifica entre millones de datos: no la más razonable ni la más acertada, porque no tiene criterio propio que le ayude a discriminar entre ese mar de información. No tiene pensamiento crítico. Bueno, en realidad, para empezar, no piensa.
Parte del problema se debe a que usamos términos lingüísticos inadecuados como el de “inteligencia” y a esto debe sumarse el hecho de que tendemos a atribuir cualidades humanas, y a veces suprahumanas, a nuestros propios productos. Ni los teléfonos ni las lavadoras ni los coches ni los modelos de lenguaje son, en última instancia “inteligentes” ni están sujetos a producir resultados factibles en términos de verdad, sino de eficacia y eficiencia.
La segunda cuestión es un poco más técnica o compleja. De acuerdo con la teoría de la información, para producir un resultado aceptable, la base de datos inicial debe ser robusta, confiable y auténtica. En un principio, antes de conectarse a la red, las respuestas a la consulta se hacían desde una base de datos (dataset) que no tenía contacto ni contaminación con el mundo exterior, por llamarlo así.
En la medida en que obtenemos resultados de la IA y los publicamos o posteamos, y los modelos de lenguaje están conectados a la red, el contacto con la información original se empieza a contaminar puesto que, al aumentar el volumen, también aumenta la redundancia de lo acumulado. Como si devolviera la imagen de un espejo a otro espejo en lugar del referente, lo cual causaría una imagen deteriorada de la original.
Esto es lo que puede estar sucediendo en la actualidad. En lugar de usar la base de datos original o de filtrar y eliminar la redundancia de la información que hemos obtenido de la propia IA, estamos aumentando los datos sustitutivos del modelo, en lugar de los reales y auténticos. Por ello en cada ciclo, necesariamente devuelve más basura en lugar de mayor utilidad para el usuario.