¿La Inteligencia Artificial realmente "ve" lo que dicen los datos? 🤔
![]() |
| Imagen creada con IA Copilot. |
Recientemente se realizó un experimento muy curioso para poner a prueba a los modelos de lenguaje (LLMs). La idea fue tomar conjuntos de datos clásicos utilizados en R (como el famoso mtcars) y manipularlos a propósito. 🔄 Invirtieron las relaciones entre las variables para ver si la IA era capaz de darse cuenta del cambio o si se dejaba llevar por la costumbre.
¡El resultado fue impactante! 😲 A pesar de que los gráficos mostraban datos modificados, los LLMs ignoraron la evidencia visual e interpretaron los gráficos basándose en lo que esperaban encontrar, no en lo que realmente estaba ahí. Por ejemplo, incluso si los datos sugerían algo ilógico (como que estudiar más horas bajaba las calificaciones), la IA a menudo no detectaba esta anomalía porque su "instinto" le decía lo contrario. 📉➡️📈
¿Por qué sucede esto? 🧠 La razón está en el ADN de estas herramientas. A noviembre de 2025, un LLM funciona prediciendo la siguiente palabra más probable basándose en millones de textos que ha leído previamente y no se ve en el horizonte (a corto -3 años- o mediano plazo -5 años-) que esta forma cambie. 📚
No manejan certezas absolutas.
No razonan sobre la causa real de las cosas.
Su objetivo es darte una respuesta que suene "plausible" o creíble, no necesariamente validar si los datos son ciertos. 🤖💬
Esto nos deja dos grandes reflexiones:
Nos parecemos a ellos: El sesgo humano es similar; a menudo nosotros también "vemos solo lo que queremos ver". 👀
Los humanos somos necesarios: La estadística pura y la capacidad de interpretar datos siguen siendo vitales. Por muy avanzada que sea la IA, no puede reemplazar el criterio humano. 💪
En un mundo donde los científicos de datos y otros profesionales usan cada vez más asistentes automáticos para tomar decisiones, el verdadero desafío cambia. Ya no se trata solo de pedirle a la IA que haga un gráfico bonito 📊, sino de entrenarla para que integre la evidencia real y sea capaz de alertarnos cuando algo rompe el patrón, en lugar de ocultarlo. La supervisión humana sigue siendo insustituible. 🚫🤖
Como los LLMs simplemente repiten patrones de su entrenamiento, nos surgen preguntas importantes:
⚠️ ¿Qué riesgos corremos si delegamos demasiado en la IA para entender datos complejos?
🛠️ ¿Cómo podemos enseñar a la IA a detectar anomalías basándose en la evidencia que tiene enfrente y no en sus suposiciones?
🔗 Puedes ver el experimento completo de Posit aquí 👉🏻
📖 Glosario de términos
LLMs (Large Language Models): Son "Grandes Modelos de Lenguaje". Se trata de sistemas de inteligencia artificial entrenados con inmensas cantidades de texto para entender y generar lenguaje humano. Funcionan prediciendo qué palabra viene después de otra (ejemplos: ChatGPT, Claude, Gemini, entre otros).
IA (Inteligencia Artificial): Es la simulación de procesos de inteligencia humana por parte de máquinas, especialmente sistemas informáticos. Incluye el aprendizaje, el razonamiento y la autocorrección.
R: Es un lenguaje de programación y un entorno de software libre diseñado específicamente para el análisis estadístico y la creación de gráficos. Es una herramienta fundamental para estadísticos y analistas de datos.
mtcars: Es un conjunto de datos (dataset) muy famoso que viene incluido por defecto en el lenguaje de programación R. Contiene información real extraída de la revista estadounidense Motor Trend de 1974 sobre el diseño y rendimiento de 32 automóviles (como su consumo de combustible, número de cilindros y potencia). Es el ejemplo clásico que utilizan estudiantes y profesionales para practicar y enseñar análisis estadísticos. 🚗📊
Sesgo: Es un peso desproporcionado a favor o en contra de una cosa, persona o grupo en comparación con otra, generalmente de una manera que se considera injusta o poco objetiva. En IA, ocurre cuando el modelo prefiere ciertas respuestas debido a cómo fue entrenado, ignorando la realidad objetiva.
Científico de datos: Es un profesional experto en recopilar, analizar e interpretar grandes volúmenes de datos. Su objetivo es encontrar patrones, explicar tendencias y ayudar a las organizaciones a tomar mejores decisiones basadas en evidencia. Para ello usa diversas herramientas tecnológicas, entre las cuales se destaca R y Python.
💡Cuando los datos mienten… y los LLMs creen 🤯
— Rosana Ferrero 📈📊🙌 (@RosanaFerrero) November 18, 2025
¿Pueden los LLMs realmente "ver" lo que los datos muestran? Un experimento manipuló datasets clásicos de R como mtcars para invertir relaciones entre variables y evaluar cómo interpretan los gráficos.👇🧵#stats #analytics #RStats pic.twitter.com/8dwp6WjBGk

Comentarios