“Preocupante”: La inteligencia artificial es cada vez menos fiable, según un estudio internacional

En el campo de la inteligencia artificial (IA), más grande no significa mejor. Los modelos de lenguaje –sistemas de aprendizaje profundo en los que se basan aplicaciones como ChatGPT– se entrenan con un volumen de datos cada vez mayor. Sin embargo, su fiabilidad ha ido empeorando, según desvela un nuevo estudio de la Universitat Politècnica de Valencia, la Universidad de Cambridge y ValgrAI publicado este miércoles en la prestigiosa revista científica Nature.

Los modelos de IA se entrenan con grandes volúmenes de datos extraídos de Internet para ser capaces de generar texto, imágenes, audio o vídeo. Ese proceso funciona mediante un cálculo probabilístico: la máquina compone frases en base a lo que ve más habitualmente en la web. Aunque impactante, esa función conversacional también comete errores, pues detrás de una explicación plausible puede esconderse una mentira. Las grandes empresas tecnológicas que están dando forma a estos chatbots de IA generativaOpenAI, Microsoft y Google, entre otras– van actualizando y perfeccionando sus modelos usando cada vez más datos para su entrenamiento. Sin embargo, esa forma parece no ser infalible.

La investigación señala que incluso los modelos más avanzados siguen generando respuestas erróneas, incluso en tareas consideradas sencillas, un fenómeno que denomina “discordancia de la dificultad”. “Los modelos pueden resolver ciertas tareas complejas de acuerdo a las habilidades humanas, pero al mismo tiempo fallan en tareas simples del mismo dominio. Por ejemplo, pueden resolver varios problemas matemáticos de nivel de doctorado, pero se pueden equivocar en una simple suma”, explica José Hernández Orallo, investigador del Instituto Universitario Valenciano de Investigación en Inteligencia Artificial (VRAIN) de la UPV y de ValgrAI.

Esa tendencia a cometer errores en tareas que los humanos consideran sencillas “significa que no hay una ‘zona segura’ en la que se pueda confiar en que los modelos funcionen a la perfección”, añade Yael Moros Daval, investigadora del VRAIN.

Tendencia “preocupante”

Otro problema es que estos modelos siempre responden a las dudas de los usuarios, aunque no tengan una respuesta clara. “Este comportamiento pretencioso, en el que dan respuesta incluso cuando son incorrectas, se puede considerar una tendencia preocupante que socava la confianza de los usuarios”, añade Andreas Kaltenbrunner, investigador líder del grupo AI and Data for Society de la UOC, en una valoración también recogida por SMC España. Por eso, la investigación destaca la importancia de desarrollar modelos de IA que reconozcan sus limitaciones y se nieguen a dar respuestas si no son precisas.

“Aunque los modelos más grandes y ajustados tienden a ser más estables y a proporcionar respuestas más correctas, también son más propensos a cometer errores graves que pasan desapercibidos, ya que evitan no responder”, resume Pablo Haya Coll, investigador del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM), en una opinión recogida por SMC España.

Estudio desactualizado

El estudio también tiene limitaciones no menores, pues solo analiza aquellos modelos lanzados antes del verano de 2023, con lo que está desactualizado. Así, compara sistemas como GPT-3 o GPT-4, de OpenAI, pero no evalúa nuevas versiones como GPT4o o o1 (conocido como strawberry), también de OpenAI, o Llama 3, de Meta. En el caso de o1, lanzado hace dos semanas, “posiblemente sea capaz de mejorar algunos de los problemas mencionados en el artículo”, valora Kaltenbrunner.

Una narrativa que beneficia a las Big Tech

Este no es el primer estudio que cuestiona la calidad de los sistemas de IA y que pone en cuarentena el tipo de pruebas con las que se mide su rendimiento.

Un informe publicado el pasado sábado –aún no revisado científicamente– refuta ese paradigma del sector que defiende que el rendimiento de la IA solo se mejora con un aumento de la escala. Según sus autores, los científicos computacionales Gaël Varoquaux, Sasha Luccioni y Meredith Whittaker (presidenta de Signal), la obsesión con el tamaño para determinar nuevos avances en la IA contribuye a disparar el presupuesto necesario para desarrollar esos sistemas, un factor beneficia a las grandes corporaciones y condena a los laboratorios universitarios a “depender cada vez más de estrechos vínculos con la industria”.

Esa narrativa que aboga por usar cada vez más datos para entrenar la IA, añaden, genera otros problemas menos visibles. La apuesta por modelos más grandes no solo no mejora su rendimiento, sino que contribuye a disparar la potencia computacional requerida para su funcionamiento, el consumo de energía y, por ende, su impacto climático.

Cortesía de El Periodico



Dejanos un comentario: