La dualidad de una mente digital: un análisis técnico de las capacidades, alucinaciones y el camino hacia la fiabilidad de los LLM

Introducción

Los recientes y ampliamente publicitados errores de la funcionalidad AI Overviews de Google, que llegó a recomendar el consumo de piedras o la aplicación de pegamento en la pizza, no son “fallos” aislados, sino fenómenos emergentes arraigados en el diseño fundamental de los actuales Modelos de Lenguaje Grandes (LLM, por sus siglas en inglés).¹ Este informe proporciona un análisis técnico detallado de esta dualidad. Exploraremos la sofisticada arquitectura que permite a estos modelos generar textos notablemente correctos y creativos, mientras examinamos simultáneamente las debilidades inherentes que conducen a las “alucinaciones” que erosionan la confianza del usuario.² A continuación, detallaremos las estrategias de mitigación de vanguardia que se están implementando y concluiremos con un marco para que los usuarios evalúen críticamente el contenido generado por la IA, pasando de una confianza implícita a una verificación activa.⁴

Sección 1: la arquitectura de la coherencia: ¿cómo los LLM generan respuestas correctas?

Esta sección deconstruye la tecnología central que permite a los LLM producir texto coherente, contextualmente relevante y, a menudo, fácticamente correcto. Nos moveremos desde la base de datos hasta las innovaciones arquitectónicas que definen el procesamiento del lenguaje natural (NLP) moderno.

1.1 La fundación: preentrenamiento sobre el conocimiento mundial

El viaje de un LLM comienza con un proceso conocido como “preentrenamiento”, durante el cual se expone a conjuntos de datos masivos, a escala de petabytes, de texto y código extraídos de Internet.² Este proceso no consiste en una memorización de la información, sino en el aprendizaje de patrones estadísticos, gramática, sintaxis, relaciones semánticas y asociaciones fácticas presentes en el lenguaje humano. Esta vasta exposición permite al modelo construir una comprensión generalizada y completa del lenguaje, que sirve como base para todas las tareas posteriores.⁶ El objetivo fundamental que el modelo aprende a optimizar es simple en su concepción pero profundo en sus implicaciones: predecir la siguiente palabra más probable en una secuencia de texto. A gran escala, este objetivo aparentemente sencillo da lugar a capacidades lingüísticas complejas y sofisticadas.⁸

1.2 El motor: la arquitectura transformer

La arquitectura revolucionaria que sustenta a los LLM modernos como GPT (utilizado por OpenAI) y Gemini (utilizado por Google) es el Transformer, presentado en 2017. Esta arquitectura consta de dos componentes principales: un codificador y un decodificador.⁷

El codificador tiene la tarea de procesar el texto de entrada (el prompt del usuario). Su función es leer la secuencia de palabras y crear una representación numérica rica y multidimensional, conocida como embedding. Este embedding no es solo una lista de palabras, sino una representación que captura el significado contextual de la entrada en su totalidad.⁸

El decodificador, por su parte, toma esta representación numérica y la utiliza para generar el texto de salida. Lo hace de forma secuencial, palabra por palabra (o, más técnicamente, “token por token”), prediciendo en cada paso cuál es el siguiente elemento más lógico para continuar la secuencia.⁸ Esta arquitectura de codificador-decodificador ha demostrado ser extraordinariamente eficaz para una amplia gama de tareas de NLP, incluyendo la traducción automática, la redacción de resúmenes y la respuesta a preguntas complejas.⁷

1.3 El mecanismo central: autoatención y contextualización

La innovación clave que distingue a la arquitectura Transformer es el mecanismo de autoatención (self-attention).⁷ A diferencia de los modelos anteriores, como las redes neuronales recurrentes (RNN), que procesaban las palabras de forma secuencial y luchaban por mantener el contexto en textos largos, el mecanismo de autoatención permite al modelo ponderar la importancia de cada palabra en la entrada en relación con todas las demás palabras de forma simultánea.

Para ilustrar su poder, consideremos la frase: “El robot cogió la pelota porque esta era ligera”. Para un humano, es obvio que “esta” se refiere a “la pelota”. El mecanismo de autoatención permite al modelo aprender esta misma asociación. Al procesar la frase, puede asignar una “puntuación de atención” más alta entre el pronombre “esta” y el sustantivo “pelota” que entre “esta” y “robot”.⁸ Esta capacidad de comprender dinámicamente las relaciones gramaticales y semánticas y de resolver ambigüedades es lo que confiere a los LLM su profunda comprensión del contexto, un factor crítico para generar respuestas que no solo son gramaticalmente correctas, sino también relevantes y precisas.⁷

1.4 La naturaleza probabilística de la generación de lenguaje

Es fundamental comprender que un LLM es, en su núcleo, un motor probabilístico sofisticado. No “piensa”, “razona” ni “sabe” en el sentido humano. Genera respuestas calculando la distribución de probabilidad de la siguiente palabra o “token” más lógico, basándose enteramente en los patrones que ha aprendido durante su entrenamiento masivo.²

Una respuesta “correcta” se produce cuando la secuencia de tokens con la probabilidad más alta, generada por el modelo, se alinea con la realidad fáctica y la intención del usuario. Este proceso es tan eficaz que ha dado lugar a una vasta gama de aplicaciones, desde la escritura de código de software y el resumen de documentos de investigación hasta la alimentación de chatbots conversacionales avanzados.⁹ En esencia, el modelo actúa como una herramienta de autocompletado extraordinariamente avanzada, capaz de completar no solo una palabra, sino párrafos y ensayos enteros.⁸

Las capacidades de los LLM no se deben únicamente a una arquitectura inteligente, sino que son una propiedad emergente de la escala. La investigación demuestra consistentemente que el aumento del número de parámetros (el “tamaño” del modelo) y el volumen de los datos de entrenamiento se correlacionan directamente con un mejor rendimiento y la aparición de nuevas habilidades.⁸ Un modelo pequeño podría aprender gramática básica. Un modelo más grande aprende sintaxis y semántica. Un modelo masivo, como GPT-4 o Gemini, entrenado con una fracción significativa de la información de Internet, comienza a aprender patrones tan complejos que imitan el razonamiento, la recuperación de conocimientos e incluso la creatividad.⁸ Muchas de las conductas “inteligentes” del modelo no fueron programadas explícitamente, sino que surgieron del proceso de aprendizaje estadístico a una escala sin precedentes. Esto también implica que los comportamientos indeseables, como las alucinaciones, son igualmente propiedades emergentes de este mismo proceso.

Sección 2: el fantasma en la máquina: una deconstrucción técnica de las alucinaciones de la IA

Esta sección disecciona los modos de fallo de los LLM. Analizaremos las razones técnicas específicas por las que los mismos sistemas que pueden producir textos brillantes también pueden “delirar” y generar sinsentidos peligrosos, como se vio en el artículo sobre la IA de Google.¹

2.1 Definiendo la alucinación: una taxonomía de errores

El término “alucinación” es una abreviatura técnica adoptada por la comunidad de la IA para describir un fenómeno específico.¹¹ Se refiere a las salidas que son absurdas, fácticamente incorrectas o que no son fieles a los datos de origen proporcionados.¹² Es importante distinguir entre diferentes tipos de errores para un análisis preciso.

Tipo de Error	Definición Técnica	Causa(s) Común(es)	Ejemplo
Error Fáctico	Proporcionar información que es verificablemente falsa debido a un conocimiento obsoleto.	Corte de conocimiento: Los datos de entrenamiento del modelo no están actualizados.	“El Premio Nobel de Física 2023 aún no ha sido concedido.” ¹⁴
Amplificación de Sesgos	Reproducir y reforzar estereotipos dañinos o perspectivas sesgadas.	Datos de entrenamiento sesgados: Los datos reflejan sesgos sociales o de muestreo.	Generar texto que asocia a las enfermeras principalmente con mujeres y a los ingenieros con hombres. ⁴
Fabricación	Generar información, citas o detalles sin base en la realidad.	Datos insuficientes, sobregeneralización, complejidad del prompt.	Un abogado que presenta un escrito legal con citas de casos judiciales que no existen. ¹⁴
Salida Absurda	Generar texto que es gramaticalmente correcto pero lógicamente incoherente o absurdo.	Naturaleza probabilística, incapacidad para comprender las restricciones del mundo real.	Recomendar comer una pequeña piedra al día por su contenido mineral. ¹

2.2 Las raíces del error en los datos de entrenamiento: “Basura entra, basura sale”

La causa principal de muchas alucinaciones son los datos con los que se entrenó el modelo.² El modelo es un reflejo de su entrada, un principio conocido en informática como “basura entra, basura sale”.

Información Incorrecta e Incoherente: Internet contiene errores, sátira, ficción y contradicciones. El modelo aprende de todo ello sin un filtro de verdad inherente. La recomendación de “poner pegamento en la pizza” ¹ es un ejemplo paradigmático de cómo la IA ingiere una broma de un foro de Reddit y la trata como una instrucción fáctica porque carece del contexto humano del humor y la sátira.¹
Sesgo de los Datos: Si los datos de entrenamiento no son diversos y están bien equilibrados, el modelo aprenderá y perpetuará esos sesgos.¹⁷ Esto puede manifestarse de formas sutiles, como asociar ciertas profesiones con géneros específicos ⁴, o de formas más problemáticas, como reflejar los sesgos culturales de los anotadores de datos humanos que participaron en el proceso de curación.¹⁹
Datos Insuficientes: Para “consultas poco comunes” o temas de nicho, es posible que el modelo no disponga de suficiente información relevante y de alta calidad. En estos casos, puede intentar “rellenar los huecos” generando contenido que suena plausible pero que es completamente inventado, en un esfuerzo por proporcionar una respuesta útil.¹

2.3 Modos de fallo basados en el modelo: los puntos ciegos de la arquitectura

Más allá de los datos, la propia arquitectura y el proceso de entrenamiento pueden introducir errores.

Sobreajuste y Sobregeneralización: El sobreajuste (overfitting) ocurre cuando un modelo aprende sus datos de entrenamiento demasiado bien, incluyendo su ruido e idiosincrasias. Como resultado, no logra generalizar a datos nuevos y no vistos, lo que puede llevar a salidas extrañas.¹² La sobregeneralización es la otra cara de la moneda, donde el modelo aplica un patrón aprendido de forma demasiado amplia, lo que conduce a extrapolaciones que parecen plausibles pero son incorrectas.²
El Dilema del “Loro Estocástico”: Este influyente concepto postula que los LLM son expertos imitadores de patrones lingüísticos (“loros”) pero no tienen una verdadera comprensión de la realidad que el lenguaje describe.¹² Unen palabras basándose en la probabilidad estadística, no en la comprensión. Esto explica por qué un modelo puede generar una frase gramaticalmente perfecta pero lógicamente absurda.¹² El modelo está optimizado para “sonar bien”, un objetivo que puede entrar en conflicto directo con el de ser fácticamente preciso.²¹
Errores en la Codificación/Decodificación: Fallos en el proceso técnico de convertir texto en representaciones numéricas y viceversa pueden introducir salidas sin sentido.¹²
Influencia de las Instrucciones: La forma en que se formula un prompt puede afectar significativamente la probabilidad de una alucinación. Investigaciones han demostrado que instruir a un modelo para que sea “breve” o “conciso” puede aumentar la tasa de alucinaciones hasta en un 20%, ya que el modelo prioriza la brevedad sobre la precisión.²¹

El conflicto técnico fundamental es que la función objetivo principal de un LLM es minimizar el error de predicción (es decir, maximizar la fluidez lingüística), no maximizar la precisión fáctica. Estos dos objetivos no siempre están alineados. Cuando un usuario hace una pregunta compleja para la que el modelo tiene datos conflictivos o insuficientes ², el modelo se enfrenta a una elección. Para satisfacer su objetivo de producir una respuesta fluida y segura, podría inventar un hecho que suene plausible. Desde la perspectiva estadística del modelo, esta puede ser una “mejor” solución que negarse a responder o proporcionar una respuesta vacilante y fragmentada. Este comportamiento se ve exacerbado por los métodos de entrenamiento que optimizan para “complacer al usuario” ²¹, ya que una respuesta segura pero incorrecta a veces puede ser percibida como más útil que ninguna respuesta. Por lo tanto, la alucinación no es solo un fallo, sino una consecuencia natural y predecible de un sistema optimizado para la coherencia lingüística por encima de la verdad fundamentada. Esto ha tenido graves consecuencias en el mundo real, incluyendo pérdidas financieras masivas para empresas y sanciones legales para profesionales que confiaron ciegamente en los resultados.¹⁶

Sección 3: forjando la fiabilidad: estrategias actuales y futuras para mitigar las alucinaciones

Esta sección pasa del análisis del problema a las soluciones, detallando las principales estrategias técnicas que se están implementando para hacer que los LLM sean más seguros y fiables.

3.1 Enfoques centrados en los datos: la primera línea de defensa

La estrategia más fundamental es mejorar la calidad de los datos de entrenamiento. Esto implica una curación meticulosa para eliminar contenido incorrecto, sesgado o tóxico.³ Además, para dominios con datos escasos, se pueden utilizar técnicas de aumento de datos para expandir artificialmente el conjunto de datos, lo que reduce la posibilidad de sobreajuste y mejora la capacidad de generalización del modelo.¹²

3.2 Anclaje en los hechos: Generación Aumentada por Recuperación (RAG)

La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) es un marco potente que ancla las respuestas de los LLM en un conocimiento externo y verificable.²³ Cambia fundamentalmente el proceso de generación de respuestas.

El funcionamiento de RAG se puede desglosar en tres pasos:

Recuperar: Cuando un usuario hace una pregunta, el sistema primero busca y recupera información relevante de una base de conocimientos fiable y actualizada (por ejemplo, los documentos internos de una empresa, una base de datos médica o un conjunto curado de páginas web).²⁴ Esta búsqueda se realiza a menudo utilizando búsqueda vectorial para encontrar fragmentos de texto semánticamente similares a la consulta del usuario.²⁴
Aumentar: La información recuperada se añade al prompt original del usuario. Esto proporciona al LLM un contexto específico y fáctico con el que trabajar.
Generar: El LLM genera una respuesta basándose principalmente en el contexto proporcionado y la consulta original, lo que reduce significativamente su capacidad para “alucinar” o inventar hechos.²³

Los beneficios de RAG son claros: hace que los resultados sean más precisos, rastreables (ya que las fuentes pueden ser citadas) y actualizados, abordando directamente el problema del corte de conocimiento.²² La función AI Overviews de Google, mencionada en el artículo inicial, es una forma de RAG. Sin embargo, sus fallos ponen de manifiesto la importancia crítica de la calidad de la información recuperada; si el sistema recupera una broma de Reddit, la respuesta final seguirá siendo errónea.¹

3.3 Alineación con los valores humanos: aprendizaje por Refuerzo con Retroalimentación Humana (RLHF)

El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) es una técnica crucial utilizada para afinar un modelo preentrenado con el fin de alinear mejor su comportamiento con las preferencias e instrucciones humanas.²⁸ Es lo que hace que modelos como ChatGPT se sientan útiles, inofensivos y conversacionales.

El proceso de RLHF consta de tres fases principales:

Ajuste Fino Supervisado (SFT): En primer lugar, el modelo preentrenado se ajusta con un conjunto de datos más pequeño y de alta calidad de pares de prompt-respuesta creados por etiquetadores humanos. Esto enseña al modelo el formato de salida deseado (por ejemplo, cómo responder a una pregunta de forma directa).³¹
Entrenamiento de un Modelo de Recompensa: A continuación, los humanos clasifican múltiples respuestas del modelo al mismo prompt, indicando cuál prefieren. Se entrena un “modelo de recompensa” separado con estos datos de preferencia para que aprenda a predecir qué constituye una respuesta “buena” o “mala” desde una perspectiva humana.²⁸
Aprendizaje por Refuerzo: Finalmente, el LLM se optimiza aún más utilizando aprendizaje por refuerzo (específicamente, algoritmos como la Optimización de Políticas Proximales o PPO). El LLM genera respuestas, el modelo de recompensa las puntúa, y esta puntuación se utiliza como una señal para actualizar los parámetros del LLM, “recompensándolo” eficazmente por producir resultados preferidos por los humanos.³²

RLHF es una técnica poderosa para capturar cualidades subjetivas como la amabilidad, el tono y la seguridad, y para enseñar al modelo a rechazar peticiones inapropiadas.²⁸

3.4 Otras técnicas de mitigación

Además de RAG y RLHF, existen otras estrategias importantes:

Ajuste de Parámetros de Inferencia: Reducir el parámetro de “temperatura” durante la generación hace que la salida del modelo sea más determinista y menos aleatoria, disminuyendo la probabilidad de respuestas creativas (y potencialmente incorrectas).¹⁴
Ingeniería de Prompts: Elaborar cuidadosamente los prompts para que sean específicos e inequívocos puede guiar al modelo hacia respuestas más precisas.¹⁴
Humano en el Bucle (Human-in-the-Loop): Para aplicaciones críticas (médicas, legales, financieras), implementar un sistema donde un experto humano revisa y valida la salida de la IA antes de que llegue al usuario final es una medida de seguridad vital.¹⁷
Entrenar Modelos para “Abstenerse”: Un enfoque más reciente consiste en entrenar a los modelos para que reconozcan cuándo carecen de información suficiente y declaren explícitamente que no pueden responder a la pregunta, en lugar de inventar una respuesta.³

3.5 La sinergia de la mitigación

RAG y RLHF no son soluciones contrapuestas, sino complementarias que abordan diferentes facetas del problema de la alucinación. RAG aborda la brecha de conocimiento (lo que el modelo sabe), mientras que RLHF aborda la brecha de comportamiento (cómo actúa el modelo). Un LLM base es un generador de lenguaje potente pero no alineado; sabe mucho, pero no sabe cómo comportarse. Se aplica RAG para anclar su conocimiento. Ahora, cuando se le pregunta sobre un producto específico, puede recuperar el manual más reciente en lugar de depender de sus datos de entrenamiento potencialmente obsoletos.²² Esto resuelve el problema del “qué”. Sin embargo, incluso con los hechos correctos, el modelo podría presentarlos de una manera confusa, poco útil o insegura. A continuación, se aplica RLHF para alinear su estilo conversacional. Aprende a ser útil, a estructurar sus respuestas con claridad y a evitar un lenguaje perjudicial, utilizando los hechos proporcionados por RAG.²⁸ Esto resuelve el problema del “cómo”. Por lo tanto, un sistema de IA de vanguardia y fiable no es el resultado de una única solución mágica, sino de un sistema de defensa en capas que combina la calidad de los datos, el anclaje en el conocimiento externo (RAG) y la alineación del comportamiento (RLHF).

Característica	Generación Aumentada por Recuperación (RAG)	Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF)
Objetivo Principal	Mejorar la precisión fáctica y proporcionar información actualizada.	Alinear el comportamiento del modelo con las preferencias humanas (utilidad, inocuidad).
Mecanismo	Recupera información de una base de conocimientos externa para aumentar el prompt.	Utiliza respuestas clasificadas por humanos para entrenar un modelo de recompensa, que luego optimiza el LLM.
Resuelve el Problema de…	Cortes de conocimiento, fabricaciones, falta de conocimiento de dominio específico.	Tono poco útil, respuestas inseguras, mal seguimiento de instrucciones.
Fortaleza Clave	Los resultados se basan en fuentes verificables; el conocimiento se puede actualizar fácilmente.	Captura valores humanos matizados y subjetivos que son difíciles de definir explícitamente.
Limitación Clave	La eficacia depende totalmente de la calidad y relevancia de la base de conocimientos.	Es costoso y lento recopilar la retroalimentación humana; puede heredar los sesgos de los calificadores humanos.
Analogía	Un examen con “libro abierto”. El modelo puede consultar las respuestas.	Un estudiante que recibe entrenamiento sobre cómo comunicarse de manera efectiva y educada.

Sección 4: guía del usuario para navegar las respuestas de la IA: un marco para la evaluación crítica

Esta sección final proporciona una guía práctica para el usuario, capacitándolo para convertirse en un consumidor exigente de contenido generado por IA.

4.1 Desarrollando la “Alfabetización en IA”: de la confianza implícita a la verificación activa

El cambio fundamental necesario es tratar los resultados de la IA no como respuestas definitivas, sino como sugerencias sofisticadas que requieren verificación.⁴ El usuario debe pasar de ser un receptor pasivo a un evaluador activo y crítico. Es crucial recordar que la IA es una herramienta para asistir, no para reemplazar, el juicio humano.⁴ No se debe delegar el pensamiento crítico a la máquina.¹⁶

4.2 La lista de verificación de evaluación crítica: cómo detectar una respuesta defectuosa

Verificar la especificidad y las fuentes: Las respuestas vagas, genéricas o llenas de clichés son una señal de alerta.³³ Las respuestas fiables suelen ser específicas y, en los sistemas avanzados, pueden citar sus fuentes (una característica de las buenas implementaciones de RAG).²⁷
Aplicar la prueba del “sentido común”: Evaluar la respuesta frente a la lógica del mundo real. ¿Recomienda algo absurdo o peligroso, como comer piedras o cruzar el Canal de la Mancha a pie?.¹ Si una respuesta parece incorrecta, hay que cuestionarla.⁴
Buscar tics lingüísticos: El texto generado por IA a menudo tiene un estilo revelador:

Tono uniforme: La escritura puede ser excesivamente consistente, careciendo de la variación natural en el tono y la estructura de las frases de un escritor humano.³³
Falta de voz personal: El texto puede sentirse impersonal, formal o distante, sin frases únicas ni profundidad emocional.³³
Fraseo repetitivo: El modelo puede abusar de ciertas frases o comienzos de oración.

Contrastar con fuentes fiables: Este es el paso más crucial. Para cualquier información importante (médica, legal, financiera, académica), siempre hay que validarla con múltiples fuentes independientes y autorizadas.² No se debe utilizar un LLM como única fuente para decisiones críticas.¹¹
Cuestionar la lógica: Examinar el razonamiento presentado. ¿La conclusión se sigue lógicamente de las premisas? ¿El argumento está respaldado por pruebas?.⁴

En el paradigma actual, cada usuario final es una capa informal y final del sistema de seguridad “humano en el bucle”. Los esfuerzos de los desarrolladores para mitigar las alucinaciones solo pueden llegar hasta cierto punto; la verificación final de la sensatez y la precisión recae en la persona que lee la respuesta. Los sistemas de mitigación tienen sus propias limitaciones; por ejemplo, una base de conocimientos defectuosa para RAG o calificadores sesgados para RLHF.¹⁶ Por lo tanto, es inevitable que algunas salidas incorrectas lleguen al usuario.¹³ La evaluación crítica del usuario ⁴ actúa como la última línea de defensa, detectando errores que los sistemas automatizados no pudieron captar. Esto implica que promover la “alfabetización en IA” no es solo una cuestión de educación del usuario, sino un componente crucial del ecosistema general de seguridad y fiabilidad de la IA. La responsabilidad es compartida entre los creadores y los consumidores de la tecnología.

Conclusión: el camino hacia una IA digna de confianza

El “delirio” de la IA de Google no es una anomalía, sino un síntoma de las limitaciones inherentes de los LLM de la generación actual. Su naturaleza probabilística, que los convierte en potentes generadores de lenguaje, es también la fuente de su falta de fiabilidad. Aunque un rendimiento 100% libre de errores sigue siendo un problema de investigación sin resolver ¹, el camino a seguir es claro. La aplicación sinérgica de innovaciones arquitectónicas como la Generación Aumentada por Recuperación (RAG) para anclar los modelos en los hechos, técnicas de alineación sofisticadas como el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) para inculcar valores humanos, y una evaluación vigilante y crítica por parte de los usuarios finales están forjando colectivamente un nuevo estándar de fiabilidad de la IA. El viaje es de mejora continua, donde las soluciones tecnológicas y la supervisión humana trabajan en tándem para construir sistemas de IA que no solo sean capaces, sino verdaderamente dignos de confianza.

Works cited

El delirio de la IA de Google: por qué recomendó comer piedras o …, accessed June 28, 2025, https://tn.com.ar/tecno/novedades/2024/06/16/la-ia-de-google-deliro-y-recomendo-comer-piedras-o-ponerle-pegamento-a-la-pizza-los-motivos/
Límites del LLM: alucinaciones y anotación de datos – Innovatiana, accessed June 28, 2025, https://es.innovatiana.com/post/llm-hallucination-and-datasets
Las alucinaciones en modelos de inteligencia artificial: causas y efectos – AMASEME, accessed June 28, 2025, https://www.amaseme.com/es/noticias/las-alucinaciones-en-modelos-de-inteligencia-artificial-causas-y-efectos
Evaluación de Resultados | Uso Responsable de la IA | Toolkit, accessed June 28, 2025, https://responsibleai.founderz.com/es/toolkit/evaluacion-resultados
www.mongodb.com, accessed June 28, 2025, https://www.mongodb.com/es/resources/basics/artificial-intelligence/large-language-models#:~:text=Los%20modelos%20de%20lenguaje%20grandes%20funcionan%20utilizando%20t%C3%A9cnicas%20de%20deep,texto%20y%20c%C3%B3digo%20de%20Internet.
Los modelos de lenguaje grandes (LLM) en el mundo de la inteligencia artificial – MongoDB, accessed June 28, 2025, https://www.mongodb.com/es/resources/basics/artificial-intelligence/large-language-models
Large Language Models (LLMs): Que son y relevancia en la IA | OpenWebinars, accessed June 28, 2025, https://openwebinars.net/blog/large-language-models-llms/
LLM: ¿Cuál es un modelo grande de lenguaje? | Machine Learning …, accessed June 28, 2025, https://developers.google.com/machine-learning/crash-course/llm/transformers?hl=es-419
¿Qué son los grandes modelos de lenguaje (LLM)? – IBM, accessed June 28, 2025, https://www.ibm.com/es-es/think/topics/large-language-models
¿Qué es un LLM (modelo de lenguaje de gran tamaño)? – AWS, accessed June 28, 2025, https://aws.amazon.com/es/what-is/large-language-model/
¿Puedes detectar qué es real y qué es hecho por la IA? – AARP, accessed June 28, 2025, https://www.aarp.org/espanol/hogar-familia/tecnologia/info-2024/trivia-inteligencia-artificial.html
¿Qué son las alucinaciones LLM? Causas, preocupaciones éticas y …, accessed June 28, 2025, https://www.unite.ai/es/qu%C3%A9-son-las-alucinaciones-llm-causas-preocupaci%C3%B3n-%C3%A9tica-prevenci%C3%B3n/
Información errónea de la IA | IBM, accessed June 28, 2025, https://www.ibm.com/mx-es/think/insights/ai-misinformation
Alucinación LLM: Causas, riesgos y mitigación | Ultralytics, accessed June 28, 2025, https://www.ultralytics.com/es/glossary/hallucination-in-llms
¿Existen errores en las respuestas de una IA? – IA: prompt, errores y sesgos, accessed June 28, 2025, https://bibliotecas.duoc.cl/introduccion-ia/errores-respuestas
Alucinaciones en LLMs: qué son, por qué ocurren y cómo mitigarlas en producción, accessed June 28, 2025, https://www.nerds.ai/blog/alucinaciones-en-llms-que-son-por-que-ocurren-y-como-mitigarlas-en-produccion
¿Qué son las alucinaciones de IA? | IBM, accessed June 28, 2025, https://www.ibm.com/es-es/think/topics/ai-hallucinations
www.cloudflare.com, accessed June 28, 2025, https://www.cloudflare.com/es-es/the-net/building-cyber-resilience/ai-generated-misinformation/#:~:text=Cuando%20los%20modelos%20de%20IA,y%20no%20hayan%20sido%20manipuladas.
Cómo identificar y corregir errores de datos de entrenamiento de IA – Shaip, accessed June 28, 2025, https://es.shaip.com/blog/identify-and-fix-ai-training-data-errors/
Alucinación AI: Una guía con ejemplos – DataCamp, accessed June 28, 2025, https://www.datacamp.com/es/blog/ai-hallucination
Buenas respuestas, poca veracidad: las alucinaciones en los modelos de lenguaje, accessed June 28, 2025, https://www.itnow.connectab2b.com/post/buenas-respuestas-mala-veracidad-las-alucinaciones-en-los-modelos-de-lenguaje
Cómo prevenir eficazmente las alucinaciones en LLMs – NeuralTrust, accessed June 28, 2025, https://neuraltrust.ai/es/blog/how-to-effectively-prevent-hallucinations-in-large-language-models
La generación aumentada de recuperación (RAG) proporciona conocimiento de LLM., accessed June 28, 2025, https://learn.microsoft.com/es-es/dotnet/ai/conceptual/rag
¿Qué es RAG?: explicación de la IA de generación aumentada por …, accessed June 28, 2025, https://aws.amazon.com/es/what-is/retrieval-augmented-generation/
¿Qué es la generación aumentada de recuperación (RAG)? | Una guía completa de RAG, accessed June 28, 2025, https://www.elastic.co/es/what-is/retrieval-augmented-generation
¿Qué es la Generación Aumentada de Recuperación (GRA)? – DataCamp, accessed June 28, 2025, https://www.datacamp.com/es/blog/what-is-retrieval-augmented-generation-rag
Técnicas RAG: cómo funcionan y ejemplos de casos de uso – Datos.gob.es, accessed June 28, 2025, https://datos.gob.es/es/blog/tecnicas-rag-como-funcionan-y-ejemplos-de-casos-de-uso
Aprendizaje RLHF para LLM y otros modelos – Innovatiana, accessed June 28, 2025, https://es.innovatiana.com/post/rlhf-our-detailed-guide
¿Qué es el aprendizaje por refuerzo a partir de la retroalimentación humana? – DataCamp, accessed June 28, 2025, https://www.datacamp.com/es/blog/what-is-reinforcement-learning-from-human-feedback
¿Qué es el RLHF?: Aprendizaje por refuerzo a partir de la retroalimentación humana – AWS, accessed June 28, 2025, https://aws.amazon.com/es/what-is/reinforcement-learning-from-human-feedback/
¿Qué es RLHF (aprendizaje reforzado a partir de la retroalimentación humana)? – IBM, accessed June 28, 2025, https://www.ibm.com/mx-es/think/topics/rlhf
¿Qué es el aprendizaje por refuerzo a partir de la retroalimentación …, accessed June 28, 2025, https://www.ibm.com/es-es/think/topics/rlhf

Cómo comprobar si un informe fue escrito por IA [+Consejos] – PageOn.ai, accessed June 28, 2025, https://www.pageon.ai/es/blog/how-to-check-if-a-report-is-ai-generated