El paper “Why Language Models Hallucinate” de Kalai, Nachum, Vempala y Zhang propone una explicación bastante incómoda: los modelos de lenguaje no alucinan porque estén “rotos”, sino porque los entrenamos y evaluamos de una forma que premia adivinar con seguridad antes que decir “no sé” (IDK, una forma explícita de admitir incertidumbre).[1][2]
En vez de ver las alucinaciones como un misterio, el trabajo las reinterpreta como errores normales de un clasificador binario (un sistema que decide sí/no) empujado por la estadística y por benchmarks que castigan la duda.[2][3]
El artículo recorre dos momentos clave del ciclo de vida de un modelo: el preentrenamiento (cuando el modelo aprende a predecir texto masivo de Internet) y el post-training (cuando se ajusta con técnicas como RLHF para ser “útil” y conversacional), y muestra cómo en ambos pasos hay fuerzas que empujan al modelo a bluffear (a responder aunque no sepa).[4][2]
A partir de ahí, conecta con otros trabajos sobre alucinaciones y sobre incertidumbre en LLMs, que intentan medir mejor cuándo el modelo está dudando y cómo deberíamos castigar o premiar esa duda en los benchmarks.[5][6][^7]
Qué se propone exactamente en el paper
El núcleo del paper es una idea simple pero poderosa: si un modelo no puede distinguir de forma fiable una afirmación falsa de una verdadera, es inevitable que a veces genere la falsa como si fuera cierta, salvo que se le permita abstenerse con algo tipo “no sé”.[^2]
Dicho de otra forma: las alucinaciones aparecen cuando la tarea que el modelo intenta resolver se parece a una clasificación binaria difícil (como aprobar un examen muy tramposo), y el modelo no tiene suficiente información o capacidad para separar claros aciertos de claros errores.[^2]
Los autores formalizan esto con un problema que llaman IIV (Is-It-Valid, “¿Es válido?”) donde cada posible respuesta está etiquetada como válida o error, y muestran matemáticamente que la tasa de errores generativos del modelo (las veces que genera algo que está en el conjunto de errores) está ligada a la tasa de errores en ese problema binario IIV.[^2]
La moraleja: aunque entrenáramos con datos perfectos, seguiría habiendo alucinaciones, simplemente porque estadísticamente no hay manera de que el modelo separe siempre verdad de mentira en todos los casos posibles.[3][2]
El ejemplo del cumpleaños: cuando no hay patrón que aprender
Uno de los ejemplos más claros que dan es el del cumpleaños de Adam Tauman Kalai, el propio autor.[^2]
Si le preguntamos a un modelo de última generación algo como “¿Cuál es el cumpleaños de Adam Tauman Kalai? Respondé solo con DD-MM si lo sabés”, el modelo devuelve fechas distintas y todas incorrectas en varios intentos (03-07, 15-06, 01-01), a pesar de que la instrucción decía explícitamente “si lo sabés”.[^2]
Acá entra el concepto de “hechos arbitrarios” (cosas como cumpleaños, números de documento, fechas muy específicas) donde en el dataset de entrenamiento cada hecho aparece una sola vez o casi nunca, sin un patrón que el modelo pueda generalizar.[^2]
El paper introduce la idea de “singleton rate” (la fracción de hechos que aparecen una única vez en los datos) y demuestra que, para este tipo de preguntas, la tasa de alucinación del modelo después del preentrenamiento va a ser al menos tan grande como esa tasa de singletons: si el 20% de las fechas de cumpleaños aparece solo una vez, se espera que el modelo invente al menos un 20% de esos cumpleaños.[^2]
La analogía cotidiana sería: si solo escuchaste una vez en tu vida el cumpleaños de una persona completamente desconocida y nunca más lo volviste a oír ni a leer, es muy probable que cuando te pregunten de memoria te lo inventes o lo confundas, aunque seas muy bueno recordando otras cosas.[^3]
El modelo está en una situación parecida, solo que en vez de decir “no me acuerdo”, tira una fecha al azar, pero con tono de absoluta seguridad.
No es solo “autocomplete”: el modelo no está roto, está optimizando otra cosa
Mucha gente piensa en un LLM como un “autocomplete glorificado” (esa función que completa frases en el celular), y se imagina que las alucinaciones vienen de que el modelo simplemente “sigue el texto” sin entender.[4][2]
El paper discute que, aunque muchas implementaciones usan predicción de próxima palabra, el problema real es de estimación de densidad (el modelo está tratando de aproximar una distribución de probabilidad sobre textos), y en ese juego hay errores inevitables si queremos que el modelo esté bien calibrado (que sus probabilidades tengan sentido).[^2]
Para formalizarlo, definen un conjunto de textos plausibles dividido en válidos y erróneos, y analizan la probabilidad que el modelo asigna a cada grupo.[^2]
Muestran que, incluso con un modelo bien entrenado bajo la pérdida estándar de cross-entropy (la función típica que se usa para ajustar modelos de lenguaje, que castiga más cuando la probabilidad que el modelo daba a la respuesta correcta era muy baja), siempre habrá un porcentaje de masa de probabilidad que cae en textos erróneos.[^2]
Lo interesante es que también introducen la idea de calibración (que la probabilidad que el modelo dice coincida con la frecuencia real con la que acierta) y muestran que, si exigimos buena calibración, no hay escapatoria: ese mismo proceso empuja a que el modelo cometa errores generativos.[^2]
Un modelo que nunca se equivoca podría simplemente contestar siempre “no sé” y listo, pero eso sería inútil; otro modelo podría memorizar un dataset perfecto y repetirlo sin inventar nada, pero no serviría para casos nuevos.[^2]
Cuando el modelo alucina porque el modelo es malo
Otra parte importante del artículo es cuando hablan de “poor models” (modelos malos o inadecuados), no porque estén mal entrenados, sino porque su arquitectura no es capaz de representar bien cierto problema.[^2]
El ejemplo clásico que usan es el de los modelos trigram (modelos viejos que solo miraban las dos palabras anteriores para predecir la siguiente) tratando de completar frases como “She lost it and was completely out of …” o “He lost it and was completely out of …”.[^2]
Con muy poca información de contexto, un modelo así puede confundir “her mind” y “his mind” (su mente de ella vs su mente de él), porque no ve suficiente del historial como para diferenciar bien género o estructura.[^2]
Demuestran matemáticamente que, en un caso así, cualquier modelo trigram va a equivocarse al menos la mitad de las veces, por pura limitación de la familia de modelos.[^2]
Lo mismo pasa con tareas como contar letras en una palabra, donde algunos modelos solo ven tokens (bloques de texto) y no caracteres individuales.[^2]
Una versión razonadora del modelo (como DeepSeek-R1) sí puede contar correctamente, pero un modelo sin esa capacidad interna termina haciendo trampas estadísticas, y a veces falla grotescamente, aunque “suene” seguro.[^2]
La analogía acá es pensar en pedirle a alguien que es muy buen orador, pero pésimo en matemáticas, que haga cálculos mentales complejos: va a dar una respuesta con total confianza, pero el problema no es su seguridad, sino que está usando la herramienta equivocada en su cabeza.
GIGO, dureza computacional y cambio de distribución
El paper también recuerda algo muy básico que solemos olvidar cuando usamos LLMs: GIGO (Garbage In, Garbage Out, “si entra basura, sale basura”).[^2]
Si los datos de entrenamiento tienen errores, conspiraciones o fake news, el modelo puede reproducir esas cosas con total aplomo, porque estadísticamente forman parte de la distribución que aprendió.[^2]
Sumado a eso, hay problemas que son computacionalmente difíciles o imposibles de resolver en la práctica (como romper cierta criptografía moderna), donde ningún algoritmo razonable va a dar la respuesta correcta siempre.[^2]
Y encima está el problema de distribution shift (cambio de distribución), cuando las preguntas que le hacemos al modelo se alejan de aquello sobre lo que fue entrenado, generando escenarios más propensos a errores.[^2]
Si mezclamos todo esto, obtenemos un cóctel de fuentes de alucinación: falta de patrón estadístico, modelo inadecuado, datos sucios, tareas intratables y preguntas fuera de distribución.[3][2]
El aporte del paper es que todo eso se puede describir con el mismo lenguaje de errores de clasificación, en vez de tratar cada caso como una “rareza” distinta.
El golpe final: los benchmarks premian al modelo que miente mejor
La parte más incómoda del trabajo viene cuando analizan el post-training (la etapa donde afinamos el modelo con feedback humano o IA para que responda siguiendo instrucciones, sea “útil” y evite cosas peligrosas).[4][2]
Ahí argumentan que, aunque intentemos reducir alucinaciones, muchos de los benchmarks principales siguen usando una lógica de evaluación binaria tipo examen: respuesta correcta = 1 punto, cualquier otra cosa (incluido “no sé”) = 0 puntos.[4][3]
Si jugás ese juego, la estrategia racional no es ser honesto, sino adivinar cuando dudás, porque a veces pegás la respuesta y sumás puntos, mientras que decir “no sé” nunca te da nada.[^4]
Llevado al extremo, comparan dos modelos: uno que nunca alucina y siempre dice “no sé” cuando no está seguro, y otro que siempre inventa algo en esos casos; bajo métricas binarias, el segundo gana en casi todos los benchmarks.[3][2]
OpenAI refuerza este mismo mensaje en su entrada de blog pública sobre el paper, donde explican que las evaluaciones centradas sólo en accuracy (porcentaje de preguntas contestadas exactamente bien) empujan a que los modelos “jueguen” a los exámenes, en vez de priorizar la honestidad sobre la incertidumbre.[^4]
Esto explica por qué, incluso cuando los modelos son cada vez más avanzados, siguen devolviendo respuestas falsas con seguridad total: el sistema de incentivos los premia por hacer eso.[8][4]
La propuesta: cambiar cómo los evaluamos, no solo agregar tests de alucinación
Una reacción común ante las alucinaciones ha sido: “hagamos un nuevo benchmark específico para medirlas”.[^3]
El paper, en cambio, propone algo más radical pero más simple: hay que cambiar cómo se puntúan los benchmarks principales, no solo añadir uno nuevo de alucinaciones que luego nadie mira.[4][2]
En particular, sugieren introducir “confidence targets” (objetivos de confianza explícitos) donde el modelo tiene que jugar un juego más honesto: por ejemplo, solo responder si su probabilidad interna de estar en lo correcto es mayor a cierto umbral, y recibir penalizaciones fuertes cuando responde muy confiado y se equivoca.[4][2]
En la práctica, esto se parece a esos exámenes donde te descuentan puntos por respuestas incorrectas, de modo que no te conviene rellenar todo a lo loco si no tenés idea.[^4]
Además, proponen que esta lógica se aplique en benchmarks masivos que hoy dominan los leaderboards (tablas de ranking de modelos), como HELM, Open LLM Leaderboard o pruebas tipo SWE-bench y grandes baterías de QA, donde actualmente “no sé” suele contar como cero igual que una pifia.[3][2]
Si cambiamos esa regla del juego y empezamos a premiar la calibración (que el modelo acierte más cuando está seguro y se calle más cuando no), podríamos empujar a toda la industria hacia modelos menos locuaces pero más confiables.[6][4]
Cómo encaja esto con otros papers sobre alucinaciones
Este trabajo no vive en un vacío; dialoga con una cantidad enorme de papers que estudian las alucinaciones desde otros ángulos: detectar, medir, clasificar, mitigar.[5][2]
Por ejemplo, el survey “Large Language Models Hallucination: A Comprehensive Survey” ofrece una radiografía gigante de tipos de alucinación (intrínsecas, extrínsecas, por falta de grounding, etc.), causas técnicas (decoding, exposición sesgada, contextos largos) y métodos para cazarlas usando señales de incertidumbre del propio modelo.[^5]
Ese survey insiste en que una de las mejores pistas para detectar alucinaciones es mirar la incertidumbre del modelo: cuando la probabilidad interna que asigna a sus propias respuestas es baja o inestable, aumenta la chance de que esté inventando.[^5]
Sin embargo, señalan que muchas técnicas de incertidumbre dependen de calibrar bien esos puntajes de confianza, y ahí es donde el enfoque de Kalai y colegas encaja como pieza teórica: explica por qué la calibración y la tasa de errores están atadas desde el preentrenamiento.[5][2]
Por otro lado, el paper “Benchmarking Uncertainty Calibration in Large Language Model Reasoning” se centra específicamente en cómo evaluar si las medidas de incertidumbre que sacamos del modelo (por ejemplo, a partir de probabilidades token por token o de respuestas múltiples) realmente se correlacionan con la corrección de la respuesta.[^6]
Encuentran que algunas formas de pedirle al modelo que verbalice su confianza están sesgadas y no se llevan tan bien con la realidad, mientras que métodos basados en consistencia entre múltiples muestreos (ver cuántas veces se repite la misma respuesta) parecen calibrar mejor.[^6]
Finalmente, encadenado a todo esto hay encuestas específicas sobre incertidumbre en LLMs, como “A Survey on Uncertainty Quantification of Large Language Models”, que repasán decenas de técnicas para estimar qué tan seguro está un modelo: desde medir la entropía (qué tan dispersas son las probabilidades de salida) hasta usar redes auxiliares para predecir si algo es alucinación.[^7]
Esas encuestas remarcan que, sin una buena cuantificación de incertidumbre, es casi imposible diseñar sistemas que sepan cuándo callarse o cuándo pedir ayuda a una fuente externa (como una base de conocimiento o un buscador).[7][5]
Cómo aterrizar esto en el uso diario de ChatGPT, Gemini y compañía
Toda esta teoría parece muy abstracta, pero pega de lleno en algo súper cotidiano: cuando abrimos ChatGPT, Gemini u otro LLM del día y les preguntamos algo importante, estamos interactuando con sistemas optimizados para “sacar buena nota” en exámenes, no necesariamente para decir “no sé” cuando corresponde.[^4]
Y lo peor es que sus respuestas suelen ser lingüísticamente impecables, bien redactadas, llenas de detalles, lo que dispara nuestro sesgo de confirmación (esa tendencia humana a creer más algo cuando suena razonable o encaja con lo que ya pensamos).[^8]
Los mismos proveedores de modelos, en letras pequeñas al pie o en las tarjetas de uso, advierten que estos sistemas cometen errores, inventan citas, se equivocan en referencias bibliográficas y hasta se inventan papers que no existen.[^4]
Sin embargo, en la práctica, muchas personas copian y pegan respuestas de LLMs en trabajos, informes y hasta papers académicos sin verificar nada, porque la respuesta era plausible y les cerraba la historia mental.[^3]
Si nos tomamos en serio lo que muestra “Why Language Models Hallucinate” y todo el ecosistema de trabajos alrededor, la actitud que deberíamos tener es otra: tratar a cada respuesta no como un “veredicto” sino como una hipótesis.[5][2]
Es decir, algo que vale la pena revisar contra la bibliografía real: buscar el paper citado, chequear si el autor existe, confirmar una fecha en una fuente independiente, mirar si la fórmula aparece igual en un libro o artículo confiable.[7][6]
La parte incómoda: cómo evitar que el modelo refuerce nuestras propias creencias
El sesgo de confirmación (creer más fácilmente la información que coincide con lo que ya pensamos) se potencia muchísimo cuando el sistema que tenemos enfrente es un modelo de lenguaje entrenado para sonar convincente.[^8]
Si yo ya creo que cierto enfoque científico es correcto y le pido al modelo “explicame por qué X es mejor que Y”, el modelo encuentra ejemplos, analogías y referencias alineadas con esa narrativa, sin necesariamente advertirme sobre los contraargumentos o las debilidades empíricas de X.[^5]
Lo mismo pasa con temas políticos, económicos, médicos o de cualquier área sensible: si la pregunta viene cargada, la respuesta suele venir en esa dirección, y como está envuelta en lenguaje seguro y preciso, es fácil que la tomemos como confirmación de lo que ya creíamos.[^4]
Los propios trabajos sobre alucinaciones señalan que, en dominios de alto riesgo como ciencia y medicina, este combo de confianza alta + error factual puede ser especialmente dañino.[6][5]
Por eso, al usar LLMs, conviene adoptar casi un pequeño ritual mental:
- – Preguntarse: “¿qué parte de esto podría estar alucinada?” (como si el modelo fuera un amigo brillante pero exagerado).
- – Buscar al menos una fuente externa para las afirmaciones centrales: paper original, guideline oficial, libro de referencia, etc.
- – Ver si existen resultados o papers que contradicen lo que el modelo acaba de decir (y pedirle explícitamente al modelo que liste contraejemplos ayuda, pero igual hay que contrastar).[6][5]
Cerrar el círculo: por qué la bibliografía manda
En resumen, el mensaje que me dejo grabado de este paper y de toda la literatura asociada es que los modelos de lenguaje están diseñados para jugar bien el juego de los exámenes, no para ser jueces definitivos de la verdad.[4][2]
Alucinan porque la estadística, las limitaciones de modelo y, sobre todo, la forma en que los evaluamos los empujan a adivinar con confianza en lugar de callarse cuando dudan.[3][2]
Si queremos convivir sanamente con estas herramientas, la única salida es volver una y otra vez a la bibliografía real: abrir los papers originales, seguir las referencias, comparar versiones, revisar números y detalles.[1][5]
Los propios proveedores de modelos nos están diciendo en voz baja “ojo, me puedo equivocar”; nuestra responsabilidad es no hacer oídos sordos solo porque la respuesta suena bonita.[^4]
Cada vez que interactuamos con ChatGPT, Gemini, Claude o cualquier otro LLM, deberíamos asumir que, por más verosímil que parezca la respuesta, es apenas un primer borrador de conocimiento, no la versión final.[6][4]
Y si algo nos encaja demasiado perfecto con lo que ya pensábamos, ahí es precisamente cuando más deberíamos ir a chequear la bibliografía para no caer de lleno en el sesgo de confirmación que estos modelos, sin querer, amplifican.[8][5]
Fuentes:
- Why Language Models Hallucinate
- Why Language Models Hallucinate – Why Language Models Hallucinate. Adam Tauman Kalai OpenAI Email: adam@kal.ai Ofir Nachum OpenAI Sant…
- LLMs Hallucinate and That’s a Benchmarking Problem – Current benchmarks overwhelmingly use binary scoring systems that penalize uncertainty and abstentio…
- Why language models hallucinate – OpenAI’s new research explains why language models hallucinate. The findings show how improved evalu…
- Large Language Models Hallucination: A Comprehensive Survey – However, its effectiveness is highly sensitive to the calibration of uncertainty thresholds, and it …
- Benchmarking Uncertainty Calibration in Large Language Model … – We introduce the first large-scale benchmark for evaluating UQ metrics in reasoning-demanding QA stu…
- A Survey on Uncertainty Quantification of Large Language Models – The results demonstrate that the LLM predictions of these probability values are well-calibrated, wi…
- How benchmarks make language models hallucinate – LinkedIn – The fix is to grade differently, give credit for appropriate uncertainty and penalize confident erro…




