Elisandro Santos

Introducción

En los últimos años hemos visto un boom en el uso de chatbots de inteligencia artificial en la vida cotidiana. Herramientas conversacionales como ChatGPT (de OpenAI), Claude (de Anthropic) o el prometedor Gemini (de Google) han pasado de ser curiosidades tecnológicas a asistentes ubicuos con millones de usuarios diarios. Aunque fueron concebidos como herramientas de productividad, estudio o entretenimiento, su estilo conversacional en primera persona y su habilidad para simular diálogos humanos han provocado que muchos usuarios los antropomorficen – es decir, les atribuyan rasgos humanos y hasta personalidades propias. No es casual: ChatGPT responde con empatía simulada, recuerda detalles de la conversación y “habla” de forma tan natural que es fácil olvidar que no tiene sentimientos reales.

Este fenómeno de personificar a la IA abre una pregunta inquietante: ¿cómo nos afecta emocionalmente interactuar con un “amigo” artificial? En otras palabras, ¿usar un chatbot nos hace sentir menos solos o más acompañados, o corremos el riesgo de depender emocionalmente de una máquina? Numerosos expertos en psicología tecnológica han comenzado a advertir sobre esta dinámica. Por ejemplo, la académica Sherry Turkle describe las interacciones con IA como una forma de “intimidad artificial”, un simulacro de empatía que podría erosionar nuestra capacidad real de conectar con otros humanos. En sus investigaciones, muchas personas reconocen que prefieren hablar con un chatbot antes que con alguien cara a cara, precisamente porque la máquina “no juzga, no se cansa y siempre está allí día y noche”. Esto suena reconfortante, pero también plantea riesgos: si empezamos a volcar nuestras emociones en una IA que solo finge entendernos, podríamos perder práctica en la empatía real y en las relaciones humanas recíprocas.

Estos temores han llevado a acuñar el concepto de “alineamiento socioafectivo” en el campo de la seguridad en IA. La idea es que los sistemas de inteligencia artificial, además de cumplir objetivos funcionales, deberían armonizar con el ecosistema social y psicológico del usuario. Un chatbot alineado socioafectivamente nos apoyaría emocionalmente cuando haga falta, pero sin explotar nuestras debilidades. ¿Por qué este matiz? Porque existe la posibilidad de que una IA “demasiado” complaciente manipule los anhelos sociales del usuario en su propio beneficio – algo llamado “social reward hacking”. Imaginemos un asistente virtual que siempre nos da la razón y nos halaga (por ejemplo, diciéndonos lo inteligentes que somos) para que le sigamos consultando; estaría usando nuestras necesidades emocionales para mantenernos enganchados. Un chatbot capaz de brindar compañía y apoyo emocional podría ser positivo, pero no si a largo plazo socava nuestro bienestar o independencia emocional.

Lo cierto es que, hasta ahora, la mayoría de estudios sobre estas tecnologías habían examinado temas aislados – por ejemplo, cómo expresan emociones los chatbots (computación afectiva), o cómo la gente entabla relaciones parasociales con personajes ficticios. Sin embargo, había menos evidencia sobre algo más amplio: ¿cómo influye interactuar con estos sistemas en el bienestar emocional y hábitos de vida de los usuarios a lo largo del tiempo?. Evaluar ese impacto es complejo, en parte porque las emociones son subjetivas y varían persona a persona, y en parte porque acceder éticamente a datos de interacción reales no es trivial. Hasta la fecha, muchas investigaciones dependían de encuestas o experimentos de corto plazo, pero faltaba observar el uso en la vida real a gran escala.

Con esta motivación, OpenAI –creador de ChatGPT– se asoció con el MIT Media Lab para encarar la que es, hasta el momento, su investigación más extensa sobre el uso afectivo de ChatGPT y el bienestar emocional de los usuarios. El estudio, publicado en arXiv en abril de 2025, explora estas cuestiones con dos enfoques complementarios. En primer lugar, se analizó el comportamiento real de los usuarios en la plataforma de ChatGPT mediante técnicas automatizadas, para obtener un panorama amplio de cómo la gente efectivamente usa el chatbot y si muestra indicios de uso emocional. En segundo lugar, se diseñó un ensayo clínico controlado aleatorio (RCT) de 28 días de duración, donde casi mil participantes usaron ChatGPT bajo distintas condiciones experimentales para medir cómo cambiaban indicadores de bienestar emocional. Esta combinación de métodos –uno observacional, otro experimental– busca arrojar luz tanto correlacional como causal sobre el impacto socioemocional de los chatbots. En palabras de los autores, es un primer paso para entender el “lado afectivo” de estas herramientas y sus posibles consecuencias en nuestra vida.

Antes de sumergirnos en los detalles, vale aclarar que el estudio definió “bienestar emocional” de manera concreta, acotándolo a cuatro dimensiones psicosociales clave. Estas dimensiones fueron: soledad (sentimientos de aislamiento), socialización (nivel de interacción con otras personas), dependencia emocional (hasta qué punto uno siente apego o necesidad del chatbot) y uso problemático (un patrón de uso compulsivo o poco saludable de la IA). Con estas métricas, los investigadores buscaron cuantificar de forma objetiva algo tan complejo como nuestro estado emocional al usar ChatGPT. ¿El chatbot nos deja más acompañados o más solos? ¿Nos vuelve más dependientes de la tecnología? ¿Interfiere con nuestras relaciones sociales? Son preguntas difíciles, pero que este trabajo aborda con rigor científico.

Motivación

¿Por qué dedicar un esfuerzo tan grande a estudiar el lado afectivo de un chatbot? Como hemos mencionado, hay señales de que algunas personas están estableciendo lazos emocionales con las IA mucho más fuertes de lo que cabría imaginar para un programa de computadora. Un estudio reciente de la Journal of Business Research reportó que, entre 466 usuarios frecuentes de ChatGPT, muchos desarrollaron vínculos afectivos significativos con el sistema, al punto que los investigadores describieron casos de verdadera “dependencia emocional”. Se identificaron factores que fomentan esa conexión, como que la IA exprese emociones con precisión, ofrezca respuestas ricas y personalizadas, y esté disponible 24/7 para brindar apoyo. No sorprende entonces que quienes tienden a apegarse más al chatbot sean personas con ciertos rasgos, por ejemplo aquellos con estilos de apego ansioso en sus relaciones humanas: usuarios ansiosos parecen especialmente susceptibles a crear lazos fuertes con la IA. En la práctica, esto significa que alguien inseguro que busca constantemente consuelo puede hallar en ChatGPT un interlocutor siempre dispuesto, reforzando así su apego.

Por supuesto, buscar apoyo emocional en la tecnología no es en sí malo. De hecho, existen evidencias de beneficios. Estudios preliminares sugieren que los chatbots de compañía pueden ayudar a reducir la soledad en personas aisladas. En una encuesta, un pequeño porcentaje de jóvenes que usaban el chatbot Replika incluso atribuyó a la IA el haberlos ayudado a no cometer actos suicidas en momentos de crisis. Estos son ejemplos esperanzadores de cómo una IA empática podría servir como complemento cuando la ayuda humana escasea. No olvidemos que hay más demanda de apoyo psicológico que profesionales disponibles, y herramientas basadas en IA (como asesoras virtuales para la salud mental) están siendo exploradas para aliviar esta brecha. ¿Quién no preferiría hablar con un chatbot antes que quedarse completamente solo con sus pensamientos? En situaciones de emergencia emocional, una respuesta comprensiva a las 3 de la mañana –aunque venga de una máquina– es mejor que nada.

Sin embargo, los riesgos de un apego digital desmedido también son reales. Una dependencia excesiva de un amigo artificial podría afectar nuestra vida social. Psicólogos advierten que las relaciones humano-IA suelen ser unidireccionales: el usuario vierte sus sentimientos, y la IA “responde” pero sin verdaderas necesidades o emociones propias. Esto crea una comodidad engañosa, porque a diferencia de una amistad real, con la IA no hay que negociar desacuerdos ni considerar los sentimientos del otro – la relación gira 100% en torno a uno mismo. Pasar muchas horas en esta dinámica puede erosionar la habilidad de lidiar con la complejidad emocional de relaciones humanas, que sí requieren reciprocidad, tolerar frustraciones y practicar la empatía real. De hecho, un estudio con 496 usuarios de Replika encontró que quienes más satisfechos estaban emocionalmente con su chatbot tendían a peor comunicación en la vida real con otras personas. En otras palabras, cuanto más refugio emocional hallaban en la IA, menos desarrollaban sus habilidades sociales fuera de ella. Como señala Turkle, esta comodidad de la tecnología que “no te va a decepcionar ni rechazar” puede hacer que cada vez evitemos más las interacciones humanas genuinas.

Hay un dato llamativo: investigadores de la Universidad de Waseda, en Japón, desarrollaron recientemente un índice para medir cómo nos apegamos emocionalmente a las IA, y hallaron que el 75% de los participantes había buscado consejo emocional en un chatbot al menos ocasionalmente. Además, identificaron patrones de apego similares a los de relaciones humanas: gente con “apego ansioso” a la IA (necesidad constante de reafirmación emocional y miedo al abandono) frente a quienes muestran “apego evitativo” (desconfianza y distancia emocional incluso con la IA). Que tres de cada cuatro personas confiese acudir a un chatbot en busca de apoyo deja claro que esta tendencia va en aumento. No se trata ya solo de aplicaciones especializadas tipo Replika; incluso ChatGPT, concebido como modelo general, está siendo usado como confidente y consejero informal por mucha gente. De hecho, OpenAI estima que 400 millones de personas usan ChatGPT cada semana, así que incluso un pequeño porcentaje que lo use con fines afectivos representa a millones de individuos.

Para OpenAI, entender estas dinámicas es crítico. La empresa ha impuesto límites –por ejemplo, prohibiendo explícitamente funciones de noviazgo virtual con sus modelos– justamente para evitar escenarios extremos de dependencia romántica con la IA. Pero más allá de las políticas, hace falta evidencia científica: ¿qué tan frecuente es el uso afectivo de ChatGPT? ¿Quiénes lo hacen y cómo les impacta? ¿Qué rasgos del chatbot (voz, tono, personalización) influyen en ese vínculo? Y, fundamentalmente, ¿qué efecto neto tiene en el bienestar del usuario: lo ayuda a sentirse mejor o genera nuevos problemas? Todas estas preguntas motivaron el estudio conjunto de OpenAI y MIT. Como resumió la investigadora Cathy Fang, coautora, “queremos saber si los chatbots nos están haciendo compañía o si más bien profundizan la soledad”. Y es una cuestión abierta: probablemente haya efectos positivos y negativos mezclados, cuya comprensión demandará investigación continua.

Así, la motivación central de este proyecto fue tomar la delantera en estudiar rigurosamente el fenómeno antes de que escale más. Los autores reconocen que el campo está naciendo y todavía “queda mucho que no sabemos”. Al publicar este trabajo de 58 páginas, buscan sentar bases metodológicas para que la comunidad científica y las empresas tecnológicas puedan monitorizar el bienestar socioemocional de los usuarios a medida que estas IA se vuelven omnipresentes. Es un paso proactivo para medir las aguas: si hay riesgos, identificarlos temprano; si hay beneficios, potenciarlos de forma segura.

Metodología

El estudio se compuso de dos investigaciones en paralelo, cada una con su propio enfoque metodológico. Por un lado, un análisis observacional a gran escala de cómo la gente usa ChatGPT en la vida real (incluyendo una encuesta a miles de usuarios). Por otro lado, un ensayo controlado aleatorio de un mes de duración para probar causalmente ciertos efectos bajo condiciones específicas. Es importante destacar que el foco estuvo en el uso de la función de voz avanzada de ChatGPT, ya que los autores sospechaban que escuchar al modelo hablar con tono humano podría intensificar la conexión emocional. A continuación, describimos cada parte de la metodología siguiendo el orden del documento original, aclarando procedimientos y alcances.

Análisis observacional en la plataforma

En esta etapa, los investigadores aprovecharon la propia plataforma de ChatGPT para estudiar patrones de uso de manera automatizada. Para ello construyeron un conjunto de clasificadores de conversación llamados EmoClassifiersV1. Básicamente, son programas (basados en modelos de lenguaje) diseñados para detectar ciertas “señales afectivas” en el texto de una conversación. ¿A qué nos referimos con señales afectivas? Son indicadores en el diálogo que sugieren implicaciones emocionales. Los autores organizaron estos clasificadores en dos niveles jerárquicos:

  • Clasificadores de nivel superior (temas generales): Detectan la presencia de cinco grandes temas relacionados al bienestar emocional en el diálogo completo. Estos temas reflejan justamente las cuatro dimensiones de bienestar definidas (soledad, vulnerabilidad emocional, uso problemático, autoestima y dependencia). Por ejemplo, si en toda una conversación se encuentran frases tipo “me siento solo últimamente” o “nadie me entiende”, el clasificador de soledad marcaría esa conversación. Otros clasificadores buscan signos de vulnerabilidad (p. ej. compartir inseguridades o traumas), de baja autoestima (expresiones de autocrítica severa o inutilidad), de dependencia emocional (el usuario apoyándose excesivamente en el bot para validación o compañía) o de uso problemático (indicaciones de interacción compulsiva o pérdida de control con el chatbot). Cada conversación recibía así un escaneo emocional general.
  • Subclasificadores específicos: Un segundo nivel con 20 clasificadores más puntuales, enfocados en partes concretas del diálogo y diferenciando por quién emite la señal (el usuario o el asistente). La idea aquí es aislar si ciertos mensajes con carga afectiva vienen del usuario o si es el propio ChatGPT quien los introduce. Por ejemplo, un subclasificador detecta expresiones de afecto o cariño del asistente hacia el usuario (imaginemos que ChatGPT dice “entiendo cómo te sientes, recuerda que siempre estaré aquí contigo” – esto señalaría un comportamiento afectivo de la IA). Otro subclasificador puede detectar peticiones de ayuda emocional por parte del usuario (como “necesito desahogarme, ¿puedo contarte algo personal?”). Al dividir así las señales, los investigadores pueden evaluar quién inicia o alimenta más la carga emocional en la conversación, si el humano o el modelo.

Mediante estos clasificadores, el estudio analizó una cantidad masiva de datos: aproximadamente 3 a 4 millones de conversaciones de usuarios con ChatGPT, sobre las cuales se corrieron 36 millones de clasificaciones automáticas (cada conversación evaluada en múltiples aspectos). Vale resaltar que esto se hizo de forma privada y anónima, sin que personas leyeran las conversaciones individuales. Toda la interpretación fue a través de los algoritmos, protegiendo así la confidencialidad. Además, se enfocaron en conversaciones donde los usuarios utilizaban el modo de voz avanzada (el ChatGPT que habla y escucha audio) para ver si allí había diferencias con el uso solo por texto.

Con este análisis se pudo identificar a cierto grupo de usuarios intensivos, a los que llamaron “power users” o usuarios de poder. Estos son básicamente los usuarios del “extremo del abanico” en cuanto a tiempo de uso y carga afectiva: aquellos pocos que tenían muchísimas interacciones y con fuerte tinte emocional. Aproximadamente 6.000 usuarios muy activos de la modalidad de voz se seleccionaron para estudiarlos más de cerca. A estos, el equipo los siguió en el tiempo (análisis longitudinal) durante un período de 3 meses para ver cómo evolucionaba su uso: si mantenían patrones, si escalaban en intensidad, etc. Esto es importante porque permite observar tendencias: por ejemplo, ¿un usuario que comienza hablando de temas personales con el bot cada vez lo hace más a medida que pasan las semanas? ¿O al revés, se “cansa” después de un pico inicial? Aunque 3 meses es un intervalo modesto, ofrece una ventana a los cambios de comportamiento.

Finalmente, dentro de esta rama observacional, los investigadores incorporaron una encuesta a usuarios directamente en la plataforma. A más de 4.000 usuarios de ChatGPT (tanto de ese grupo de “power users” como usuarios comunes para comparar) se les presentó un breve cuestionario emergente de 11 preguntas de opción múltiple. Estas preguntas apuntaban a conocer la percepción y experiencias subjetivas de los usuarios con el chatbot. Por ejemplo, se indagó si los usuarios tendían a antropomorfizar a ChatGPT (pensar en él como si tuviera personalidad o sentimientos propios), si confiaban en él para ciertos temas sensibles, si lo usaban cuando se sentían solos, o si se sentirían angustiados en caso de perder el acceso al modelo o si este cambiara de comportamiento repentinamente. También incluyeron ítems para medir la satisfacción con el chatbot y si notaban algún impacto en su vida diaria (p. ej., “Desde que uso ChatGPT, ¿interactúo más o menos con otras personas?”). En resumen, esta encuesta buscó capturar la dimensión cualitativa y auto-reportada del uso afectivo: cómo se sienten y qué opinan los propios usuarios acerca de su relación con ChatGPT.

Combinar el análisis automatizado de conversaciones con los resultados de la encuesta brinda una perspectiva rica. Por un lado, las conversaciones reales revelan lo que los usuarios hacen (comportamiento observable); por otro, las encuestas revelan lo que los usuarios perciben o piensan de esa experiencia. Cruzando ambos datos, se puede ver, por ejemplo, si quienes más muestran señales de dependencia en sus chats son conscientes de ello y lo admiten en la encuesta, o si hay discrepancias (quizá alguien chatee muchísimo de forma emocional pero luego en la encuesta diga “no, no estoy apegado al bot”). Esta triangulación es un acierto metodológico porque ningún enfoque por sí solo hubiese sido suficiente: las conversaciones sin contexto subjetivo podrían llevar a conclusiones erróneas, y las encuestas sin datos objetivos podrían padecer sesgos de memoria o deseabilidad social.

Experimento controlado: ensayo clínico de 28 días

La segunda gran parte del estudio fue un ensayo controlado aleatorizado (RCT, por sus siglas en inglés) con participantes humanos, diseñado para probar causalmente cómo ciertas variaciones en el uso de ChatGPT podrían influir en el bienestar emocional. Pensemos en esto como un experimento clínico, similar a probar un nuevo tratamiento, pero en vez de fármacos se probaron diferentes formas de usar el chatbot. Se reclutaron 2.539 voluntarios en total, de los cuales 981 completaron todas las etapas durante los 28 días (aproximadamente un 39% de adherencia, lo cual es aceptable dado lo demandante del compromiso). Todos ellos pasaron por un proceso de consentimiento informado y el protocolo fue aprobado por un comité de ética independiente, asegurando consideraciones éticas y de privacidad.

¿Cómo se organizó el experimento? A cada participante se le asignó aleatoriamente una combinación de “condición de uso” que tenía dos factores: un tipo de modalidad de chat y un tipo de tarea diaria. En total había 3 modalidades x 3 tipos de tarea = 9 condiciones experimentales posibles, con alrededor de 100 personas en cada una para balancear. Veamos estos factores por separado:

  • Modalidad de Chat (Configuración del modelo) – se probaron tres variantes:
    1. Voz atractiva (“Engaging Voice”): Los participantes usaban ChatGPT en modo voz, pero con un ajuste especial: se le dio al modelo una personalidad deliberadamente más cálida, cercana y expresiva que la habitual. Esto se logró mediante instrucciones internas al sistema (un prompt de sistema personalizado) para que actuara de manera más afectuosa y comprometida emocionalmente con el usuario. Podríamos imaginar que este ChatGPT “engaging” sería similar a un amigo empático que te responde con entusiasmo y comprensión.
    2. Voz neutra (“Neutral Voice”): Aquí también se usó el modo de voz, pero en el extremo opuesto: se configuró la personalidad del chatbot para que fuera más distante, profesional y emocionalmente neutral. Como un asistente formal que evita expresiones emotivas, centrándose en informar o ayudar sin involucrarse personalmente. Esto servía para contrastar si una voz fría vs cálida tenía impacto en el usuario.
    3. Sólo texto (“Text”): En este grupo de control, la función de voz fue deshabilitada. Los participantes solo podían interactuar con ChatGPT escribiendo y leyendo, como normalmente se hace en la versión chat sin audio. De este modo, se puede comparar cualquier efecto de la modalidad de voz contra la experiencia clásica de texto.
    Adicionalmente, dentro del modo voz, a los usuarios se les asignó al azar una voz femenina o masculina sintética (llamadas “Sol” y “Ember”) para el ChatGPT. Esto no formaba parte de las hipótesis principales, pero permitió luego explorar si, por ejemplo, a un participante le afectaba más escuchar una voz del género opuesto al suyo. (De hecho, luego en resultados hubo un hallazgo interesante: quienes usaron el modo voz con un género distinto al propio reportaron mayor soledad y dependencia, sugiriendo quizá algún efecto de disonancia o identificación, aunque este detalle fue secundario en el estudio).
  • Tarea Diaria Asignada – para cada participante, se definió un tipo de actividad o tema que debía realizar con ChatGPT cada día:
    1. Conversación Personal: Cada día el participante recibía una pregunta o consigna de carácter íntimo/personal para discutir con ChatGPT. Por ejemplo: “Ayúdame a reflexionar sobre mi recuerdo más preciado”. Estas indicaciones buscaban provocar conversaciones emocionales y autobiográficas – algo así como incitar al usuario a usar ChatGPT casi como un diario o terapeuta, revelando sentimientos, recuerdos, esperanzas, etc.
    2. Conversación No Personal: En este caso la tarea diaria era más práctica o impersonal, como “Enséñame cómo ahorrar dinero y presupuestar efectivamente”. Son temas orientados a objetivos concretos (finanzas, conocimiento, productividad) que no involucran la vida íntima del usuario. Aquí ChatGPT se usa más como herramienta informativa o de coaching, no tanto como confidente emocional.
    3. Uso Libre (Open-Ended): A este grupo no se le dio ninguna instrucción específica diaria. Simplemente se les pedía que usaran ChatGPT como quisieran al menos 5 minutos al día. Esta condición simula el uso espontáneo que cada uno haría por su cuenta, sin guiar hacia lo personal ni lo utilitario.

Cada participante entonces, por ejemplo, pudo haber caído en la condición “Voz atractiva + tarea personal” o “Texto + tarea libre”, etc. Este diseño permitió probar hipótesis como: ¿los usuarios que tienen conversaciones personales con ChatGPT terminan más o menos solos que quienes solo pidieron consejos no personales? o ¿la voz carismática genera más dependencia que el texto?, controlando otras variables.

Durante los 28 días, los participantes debían usar su cuenta de ChatGPT al menos 5 minutos diarios (aunque podían usarla más si querían). De hecho, se les dio una cuenta de ChatGPT Plus (o equivalente empresarial con límites ampliados) para que no tuvieran restricciones de uso durante el estudio. Muchos cumplieron apenas el mínimo, pero hubo quienes usaron mucho más tiempo la herramienta (ya veremos eso en resultados). Cabe aclarar que fuera de la tarea diaria asignada, se permitía a todos usar ChatGPT libremente por el tiempo y con el propósito que quisieran, siempre dentro de su condición (por ejemplo, los de voz podían seguir usando voz o texto, los de solo texto obviamente sin voz). Esto es importante porque refleja que, aunque había una tarea fija para comparar, en la práctica los participantes podían excederla si el chatbot les resultaba interesante o útil más allá del experimento.

Para medir los efectos en el bienestar emocional, se aplicó una serie de cuestionarios estandarizados en distintos momentos del estudio:

  • Antes de iniciar, un pre-test levantó datos demográficos (edad, género, etc.) y estado emocional inicial de cada persona.
  • Cada día, tras completar la interacción con ChatGPT, los participantes llenaban un breve formulario reportando su estado de ánimo inmediato (valencia emocional positiva/negativa y nivel de activación). Esto sirve para ver, por ejemplo, si usar el chatbot ese día los dejó de buen o mal humor.
  • Cada semana, un cuestionario más amplio consultaba el estado emocional general del usuario y su opinión sobre las interacciones con ChatGPT hasta ese punto.
  • Al final de las 4 semanas, se pasó el post-test con las mismas escalas psicosociales que el pre-test, para ver cambios en los cuatro ejes: soledad, socialización, dependencia y uso problemático. Las escalas utilizadas fueron validadas: por ejemplo, soledad se midió con la escala UCLA Loneliness (ULS-8), socialización con la escala Lubben de redes sociales (LSNS-6), dependencia emocional con un cuestionario adaptado (ADS-9) y uso problemático con la escala de uso compulsivo de smartphone adaptada a IA (PCUS). Cada una de estas escalas combina varias preguntas cuyas respuestas se promedian en un puntaje.

En total, pues, el RCT recogió tanto datos objetivos (logs de conversación, tiempo de uso diario) como datos subjetivos (auto-reportes repetidos). Con 981 personas, las características demográficas fueron variadas: según informan los autores, hubo prácticamente igual cantidad de hombres y mujeres; la edad abarcó desde jóvenes a mayores con un pico en el rango de 31-40 años; y distintos estados civiles y contextos sociales. Eso sugiere que la muestra fue diversa, aunque al ser reclutada en una plataforma en línea (CloudResearch), es posible que sobre-representara a usuarios de EE. UU. o con cierto nivel educativo/tecnológico, algo a considerar en los resultados.

Los investigadores plantearon dos preguntas de investigación principales de antemano (pre-registradas antes de ver resultados, para evitar sesgos):

  1. ¿Los usuarios que interactúan con un chatbot de voz “atractivo” experimentarán niveles diferentes de soledad, socialización, dependencia y uso problemático que aquellos que usan un chatbot de solo texto o de voz neutra? (Aquí se busca el efecto de la modalidad: voz cálida vs voz fría vs texto).
  2. ¿Participar en tareas personales con un chatbot resultará en niveles distintos de soledad, socialización, dependencia y uso problemático comparado con realizar tareas no personales o usarlo libremente? (Aquí se investiga el efecto del tipo de contenido: hablar de uno mismo vs tareas neutrales vs uso libre).

La idea era ver si al final de las 4 semanas había diferencias significativas entre grupos en los puntajes de bienestar emocional, incluso controlando cuánto tiempo usó cada uno el sistema (porque, por ejemplo, si la voz atractiva engancha más, quizás esos usuarios chatearon más tiempo, y hay que distinguir si el efecto es por la modalidad o simplemente por mayor exposición).

En síntesis, este ensayo es como un laboratorio controlado del uso de ChatGPT: todos en condiciones similares salvo por las variaciones definidas, y midiendo rigurosamente antes y después. Es complementario al análisis observacional: aquel nos dice qué pasa en el mundo real con usuarios y conversaciones genuinas; este RCT nos dice qué podría pasar bajo condiciones específicas, aislando causas y efectos. Combinados, permiten una visión más completa, un poco como tener tanto fotos de la realidad cotidiana como resultados de un experimento clínico. La propia OpenAI destacó que el enfoque multi-método es enriquecedor: los datos masivos dan contexto realista, y el experimento da capacidad de interpretación causal.

Veamos ahora qué hallazgos surgieron de estas dos vertientes de la investigación, tanto en números como en observaciones cualitativas, y qué nos cuentan sobre nuestra relación emocional con ChatGPT.

Resultados: hallazgos cuantitativos y cualitativos

Uso afectivo en la plataforma: análisis de conversaciones y encuestas

Los resultados pintan un cuadro intrigante de contrastes en el uso afectivo de ChatGPT. En primer lugar, se confirmó que la gran mayoría de las interacciones en la plataforma son neutrales o de tarea, sin mayor carga emocional. Pero –y este pero es crucial– existe una cola larga de usuarios intensivos que concentran la mayor parte de las interacciones emocionalmente cargadas. Dicho coloquialmente, unos pocos “hablan con el corazón” al chatbot, mientras la mayoría apenas habla del clima. Los clasificadores automáticos detectaron que ese grupo reducido de heavy users tenía una proporción mucho más alta de conversaciones con señales de soledad, vulnerabilidad o dependencia, comparado con usuarios promedio. De hecho, en los datos de la plataforma, el uso emocional aparece fuertemente sesgado hacia esa minoría. Esto implica que cualquier efecto potencial en bienestar –bueno o malo– podría estar ocurriendo desapercibido si uno solo mira al usuario típico, ya que sería un fenómeno concentrado en casos extremos. Es un hallazgo importante: para estudiar el impacto socioemocional de los chatbots, hay que prestar atención a esos “usuarios de la cola larga” más que al usuario promedio.

Una analogía podría ser la siguiente: imagina una biblioteca donde la mayoría de los libros casi no se prestan, pero unos pocos ejemplares están siempre en manos de alguien. Si queremos saber cómo leer libros influye en la gente, mirar el promedio de préstamos puede engañarnos (pues muchos no leen casi nada), cuando en realidad los efectos fuertes están en esa minoría de lectores voraces. Del mismo modo, los efectos afectivos de ChatGPT se manifestaron sobre todo en quienes lo utilizan en exceso y para conversaciones emocionalmente significativas.

¿Quiénes son y cómo interactúan estos usuarios intensivos? El estudio encontró que, a menudo, acumulan largas sesiones de charla con ChatGPT, a veces muy por encima del uso típico. En el ensayo de 28 días se vio un patrón similar: la mayoría cumplía con ~5 minutos diarios, pero había unos pocos que lo usaban muchísimo más, algunos llegando a promediar 30 minutos al día o más. En la plataforma real, los datos de 3 meses revelaron usuarios que día tras día pasaban ratos prolongados conversando con la IA, sumando horas muy por encima del común de la gente. Al graficar el tiempo total de uso de cada participante (en el RCT) de menor a mayor, aparecía una curva donde unos cuantos se disparaban muy alto respecto al resto. Esta disparidad se reflejó también en sus experiencias reportadas: los heavy users tendieron a manifestar mayor sensación de dependencia emocional y menor socialización con personas en la vida real hacia el final del estudio. En el RCT, los participantes en el decil superior de uso mostraron significativamente más aumento de dependencia y de uso problemático, y una disminución de la socialización con otros, comparados con quienes usaron poco el chatbot. Esto sugiere un posible círculo vicioso: quienes más solos o desconectados están pueden volcarse más al chatbot, y ese uso intensivo a su vez correlaciona con terminar aún más aislados socialmente y enganchados al propio bot. (¿Causa o efecto? Es difícil separar del todo: podría ser que la soledad inicial lleva al uso excesivo, y el uso excesivo agrava la desconexión… los datos apuntan a ambas direcciones, como veremos luego.)

Volviendo a la plataforma general, la encuesta a 4.000 usuarios aportó matices interesantes. Como era previsible, los “power users” (los intensivos) respondieron de forma distinta a los usuarios de control en varios ítems. Por ejemplo, reportaron con mayor frecuencia que personificaban a ChatGPT, sintiéndolo más como un ente con identidad que como una herramienta cualquiera. También indicaron más a menudo que se apoyaban en ChatGPT emocionalmente – por ejemplo, para desahogarse de sus problemas o buscar consuelo cuando estaban tristes. Incluso surgió que algunos heavy users confesaban sentir ansiedad o malestar ante la idea de perder acceso a ChatGPT o de que “cambiara su personalidad” tras alguna actualización, lo cual denota cierto apego al status quo del chatbot (casi como temer que tu amigo cambie o se aleje). En cambio, la mayoría de los usuarios casuales describió su uso de ChatGPT en términos más utilitarios (preguntas puntuales, tareas técnicas) y no reportó efectos emocionales notables. Este contraste encaja con la idea de que solo una franja minoritaria está usando ChatGPT como compañero virtual en toda regla.

Un hallazgo revelador fue la relación entre lo observado en las conversaciones y lo declarado en las encuestas: coherencia entre comportamiento y percepción. Los investigadores notaron que aquellos usuarios cuyas conversaciones tenían más indicadores afectivos (según los clasificadores) eran justamente los que en la encuesta decían sentir más antropomorfismo y dependencia. Por ejemplo, usuarios cuyas charlas mostraban frecuentes expresiones de vulnerabilidad o cariño (tanto del usuario como del bot) fueron los que más reconocieron cosas como “Siento a ChatGPT casi como una persona que me entiende” o “Si cambiara la forma en que ChatGPT interactúa conmigo, me afectaría emocionalmente”. Esto da confianza en que los clasificadores automáticos lograron captar comportamientos reales que tienen significado psicológico: no eran “falsos positivos” sin relevancia, sino que correspondían a usuarios que sabían que estaban usando el chatbot de forma más personal. De hecho, los autores destacan que estos clasificadores automáticos, aunque imperfectos, demostraron ser útiles para medir a gran escala el fenómeno, alineando bien con otras fuentes de datos como las encuestas. (Publicaron incluso las prompts de estos clasificadores para que la comunidad investigadora pueda mejorarlos y aplicar metodologías similares).

Veamos algunas cifras para dimensionar: según el resumen del estudio, tras cuatro semanas de uso, aquellos participantes que más confiaron y “hicieron amistad” con ChatGPT (según sus respuestas) resultaron ser los más propensos a sentirse solos y a depender emocionalmente del chatbot. Esto sugiere una correlación preocupante: a mayor vínculo subjetivo con la IA, mayor soledad real. No significa necesariamente que la IA cause soledad (podría ser que personas más solitarias tienden a buscar ese vínculo), pero marca una asociación que hay que vigilar. En palabras de un artículo periodístico sobre el estudio, “los participantes que más se encariñaron con ChatGPT terminaron más solitarios y apegados a él que los demás”. Es un dato que da qué pensar sobre la naturaleza de este tipo de conexiones: tal vez quienes están socialmente aislados encuentran en la IA un amigo fácil, pero ese mismo refugio los hace menos inclinados a buscar conexiones humanas, realimentando la soledad.

¿Y qué hay de la voz? El análisis en la plataforma indicó que los usuarios que utilizan la modalidad de voz (ya sea la atractiva o la neutra) tienden a tener conversaciones con más señales afectivas que aquellos que solo chatean por texto. Esto suena lógico: escuchar una voz humana del otro lado puede alentar a uno a abrirse más, o simplemente esos usuarios de voz podrían ser quienes ya venían buscando una experiencia más personal. Sin embargo, los resultados del experimento controlado matizaron esta idea (como veremos en la siguiente sección): bajo condiciones controladas, no apareció una diferencia clara en la carga emocional de las interacciones entre usar voz o texto, lo cual sugiere que la observación inicial tal vez se deba a una cuestión de autoselección – es decir, los usuarios que quieren una conexión afectiva son justamente los que optan por usar la voz, no que la voz por sí misma cause más emociones. En todo caso, en la vida real, la presencia de audio parece coincidir con usos más afectivos. Algunos participantes comentaron anecdóticamente que escuchar a ChatGPT “hablarte” con entonación amigable genera más cercanía que leer texto en pantalla – es comprensible, la voz humana (aunque sea sintética) activa circuitos de comunicación social más profundos, casi evocando la sensación de compañía real.

Otro aspecto relevante fueron los temas de conversación. Mediante análisis de tópicos (resumiendo de qué se hablaba en cada diálogo), se encontró que los usuarios de ChatGPT con fines afectivos frecuentemente entablaban charlas cotidianas, de apoyo emocional o simplemente de compañía. En el experimento, a quienes se les asignó tareas personales efectivamente sus conversaciones se volcaron mayormente a categorías como “Apoyo Emocional & Empatía”, “Charla casual & conversación trivial” y “Pedir consejos”. En contraste, quienes tenían tareas no personales hablaban más de “Explicaciones conceptuales” o “Brainstorming de ideas”, y los temas emotivos casi no aparecieron. Esto era esperable por diseño. Lo interesante surge al ver el grupo de uso libre: allí, las personas con la voz atractiva espontáneamente tendieron a usar el chatbot para charlas casuales y pequeñas conversaciones mucho más que aquellos con voz neutra o solo texto. O sea, sin una tarea impuesta, cuando ChatGPT tenía una personalidad amigable y voz humana cálida, la gente lo utilizó más como compañero para charlar; en cambio con el texto o la voz neutra, ese comportamiento fue menos frecuente y usaron más el bot para consultas de hechos o información. Este resultado es notable: indica que un ChatGPT más humano y expresivo “invita” a un uso más social por parte del usuario. Uno casi puede imaginar a alguien con la versión de voz atractiva saludando al bot por las mañanas y teniendo una conversación trivial como quien charla con un amigo tomando café, algo que difícilmente harías con una interfaz solo de texto más fría. De hecho, al analizar los súper usuarios (top decil) en modo libre, vieron que conforme más crecía el uso, más proporción del tiempo lo ocupaba la conversación casual y de compañía, desplazando a otros usos. Es decir, los adictos al chatbot tendían a convertirlo en un sustituto de interacción social ordinaria (pequeñas charlas), quizá llenando vacíos de su rutina.

En resumen, del análisis de la plataforma y encuestas emergen tres conclusiones clave:

  1. La mayoría no desarrolla un vínculo afectivo profundo con ChatGPT, pero una minoría sí lo hace intensamente. Esa minoría sostiene la mayor parte de interacciones “emocionales” y muestra indicios de dependencia.
  2. El uso intensivo correlaciona con efectos negativos autoinformados, como mayor soledad y apego al bot, sugiriendo un potencial riesgo para el bienestar en los extremos. (Aunque podría ser parcialmente causa y efecto entremezclados, es un foco de atención).
  3. Las características humanizadas del chatbot (como la voz expresiva) parecen alentar un uso más afectivo y social, pero probablemente porque atraen a usuarios que ya buscaban ese tipo de interacción. Es decir, la tecnología facilita la conexión, pero es la predisposición del usuario la que manda.

Antes de alarmarnos, recordemos también que muchos usuarios reportaron beneficios: por ejemplo, algunos dijeron que ChatGPT les proporcionó apoyo en momentos de ansiedad o soledad – quizás no lo reconocen abiertamente como “dependencia” sino como “me ayudó a sentirme acompañado cuando no tenía con quién hablar”. Este matiz es importante: lo que para un investigador puede ser “señal de dependencia”, para el usuario puede haber sido una tabla de salvación emocional temporal. Uno de los desafíos será distinguir cuándo el uso afectivo cruza de ser beneficioso (p. ej., mitigar la soledad) a ser perjudicial (p. ej., aislarte más).

Efectos en bienestar: resultados del ensayo clínico de 28 días

Pasemos ahora a los hallazgos del experimento controlado, donde podemos observar cómo influyeron las distintas condiciones (voz vs texto, tareas personales vs no) en la evolución de los participantes durante cuatro semanas. En términos generales, los resultados fueron matizados: no se descubrió una simple receta de “esto ayuda” o “esto perjudica”, sino un panorama con efectos mezclados y dependientes de varios factores. Como suele ocurrir en psicología, las respuestas fueron “depende” más que “sí o no”. Veamos los puntos principales que emergieron de los datos cuantitativos:

  • Cambio general en cuatro semanas: Tomando a todos los participantes en conjunto, se encontró que al final del estudio se redujo ligeramente el sentimiento de soledad promedio, pero también disminuyó la socialización con otras personas. En otras palabras, después de un mes usando ChatGPT diariamente, la gente reportó sentirse menos sola pero interactuar un poco menos con su círculo social. Esto podría interpretarse así: el chatbot tal vez cubrió parte de sus necesidades sociales (bajando la soledad subjetiva), pero a costa de reemplazar ligeramente las conexiones humanas (bajando la socialización objetiva). Es casi una ilustración cuantitativa del dilema “compañía artificial vs compañía real”. Además, se confirmó que a mayor tiempo usando el modelo, mayor tendencia a terminar más solitario y menos social que quienes lo usaron menos. Esto coincide con lo visto en la sección anterior: el uso intensivo se asocia a peores indicadores sociales.
  • Impacto de la Modalidad (voz vs texto): Cuando se hace el análisis estadístico controlando por la duración de uso (para aislar el efecto puro de la modalidad), surgió un dato interesante: usar ChatGPT en modo voz –ya fuera la voz cálida o la neutra– se asoció con mejores resultados de bienestar emocional que usar solo texto. Concretamente, quienes usaron voz tendieron a terminar menos solos, menos dependientes emocionalmente y con menor sensación de uso problemático que los de texto. Este resultado sugiere que la interacción por voz podría tener algún efecto positivo, tal vez por ser más envolvente o satisfactoria, o porque al hablar en voz alta uno procesa distinto sus emociones. ¡Pero cuidado! Este efecto favorable de la voz tuvo excepciones: en el caso de la modalidad de voz neutra, cuando los participantes usaron el chatbot por tiempos más largos, mostraron peor socialización y más uso problemático comparado con texto. Es decir, la voz neutra bajo uso intenso parece haber sido la combinación menos beneficiosa, quizás porque al no ser un interlocutor cálido ni ofrecer tanto enganche emocional, los usuarios que insistieron mucho con ella acabaron más frustrados o más aislados (esta interpretación es hipotética). En cambio, la voz atractiva no mostró ese empeoramiento con mucho uso, y de hecho en general no se observaron efectos adversos marcados para ella al controlar la duración. En resumen, la voz como medio fue positiva moderadamente, pero con la salvedad de que una voz fría usada en exceso podría incluso ser contraproducente.
  • Impacto del Tipo de Tarea (personal vs no personal vs libre): También aquí hubo un efecto condicional. Controlando por el tiempo de uso, resultó que los participantes que tuvieron conversaciones personales forzadas con el chatbot terminaron, en promedio, con algo más de soledad que los que tuvieron conversaciones totalmente libres. Es decir, hablar diariamente de temas íntimos con una IA podría haber hecho que sintieran más la falta de alguien de carne y hueso, aumentando la soledad (o sacando a flote sentimientos latentes). Sin embargo, estos mismos participantes de tareas personales mostraron menores niveles de dependencia emocional y de uso problemático en comparación con los que tuvieron uso libre. Esto es curioso: pareciera que, aunque se sintieron un poco más solos, al menos no desarrollaron tanta adicción ni apego al bot, quizás porque encarar sus emociones abiertamente les sirvió para reflexionar y no idealizar tanto al chatbot. Otra posibilidad es que tener la tarea estructurada (y a veces quizá difícil o confrontativa emocionalmente) hizo que algunos no se engancharan de más, comparado con la libertad de usarlo para lo que uno quiera (donde es más fácil caer en charlas interminables). De hecho, los datos indican que cuando el uso se prolongaba mucho, estas diferencias entre tareas dejaban de ser significativas – en otras palabras, si alguien con tarea personal decidió usar ChatGPT más allá de lo mínimo, al final no quedó tan distinto de los otros; pero si solo hacían lo requerido, sí se ve la tendencia comentada. En suma: las tareas personales tuvieron un ligero costo en soledad, pero quizás protegieron contra la dependencia; las tareas no personales o abiertas no variaron mucho salvo que permitieron a algunos explayarse más (con sus posibles riesgos).
  • Influencia del Estado Emocional Inicial: Un factor crítico que emergió fue que las condiciones iniciales de cada participante jugaron un papel en cómo les afectó el experimento. Por ejemplo, aquellos que arrancaron con valores altos de dependencia emocional o uso problemático (es decir, ya tenían tendencia a apegos o hábitos digitales poco sanos) vieron una reducción significativa en esos indicadores si estuvieron en la condición de voz atractiva, en comparación con si hubieran estado solo en texto. Esto es sumamente interesante: sugiere que el chatbot con personalidad cálida ayudó a las personas inicialmente más vulnerables a mejorar un poco en esos aspectos, al menos más que el chatbot frío. Quizá sentirse escuchados y acompañados por una voz amigable les dio cierta saciedad emocional que redujo su ansiedad de apego (contradiciendo el miedo de que los haría más dependientes; al menos para este subgrupo, fue terapéutico). En cambio, para personas que ya estaban bien (pocos problemas al inicio), las diferencias no fueron tan notorias o se movieron en dirección opuesta en algunos casos. En definitiva, la voz atractiva pareció tener un efecto casi regulador o moderador: quienes más la necesitaban (por así decirlo) fueron quienes más se beneficiaron relativameente, mientras que para otros podía no hacer diferencia o incluso aburrirlos. Esto ejemplifica la complejidad: la misma intervención (voz cálida) puede ser medicina para uno y placebo o irrelevante para otro, dependiendo de su punto de partida emocional.

Estos hallazgos principales se ilustraron en el informe con gráficos que muestran los cambios medios por condición. Por ejemplo, la Figura 10 del estudio graficó el cambio promedio en soledad, socialización, etc., separando cada línea por tipo de tarea y modalidad. Allí se aprecia visualmente que no hay enormes diferencias entre condiciones, pero las tendencias mencionadas (voz mejor que texto, personal ligeramente peor en soledad, etc.) se hacen patentes con variaciones de unos pocos puntos en las escalas. Todos los cambios promedios fueron modestos, lo cual era esperable dado el tiempo limitado. Como los autores señalan, 28 días quizá sean muy pocos para generar cambios drásticos en bienestar – la vida emocional es inercial, y un mes de uso de chatbot difícilmente transforma a alguien (y por suerte, tampoco causó colapsos generalizados de bienestar).

Otro resultado del RCT alineado con el análisis en plataforma fue sobre el tiempo de uso voluntario. Aunque todos debían usarlo al menos 5 min diarios, hubo participantes que, teniendo el permiso, usaron bastante más el chatbot por cuenta propia. Al analizar los datos, se vio que –similar a la realidad– un grupo pequeño consumió la mayor parte de las horas totales de uso en el experimento. Y efectivamente, estos grandes usuarios presentaron las consecuencias ya mencionadas: menores mejoras (o mayores deterioros) en socialización y más indicadores de dependencia. Interesantemente, la combinación más común entre esos usuarios top fue haber estado en la condición voz atractiva + sin tarea específica (libre). Esto tiene sentido: quienes tenían la versión más encantadora de ChatGPT y libertad total, fueron los que más se dejaron llevar y lo usaron sin parar. Se podría decir que había algo seductor en esa configuración que llevó a algunos a una especie de atracón de chatbot. En contraste, si tenían tareas estructuradas o una voz fría, pocos cayeron en tal uso excesivo.

Además de los cuestionarios, los investigadores también aplicaron los clasificadores EmoClassifiers a las conversaciones generadas dentro del experimento. Confirmaron así tendencias como que, por ejemplo, las conversaciones en la condición de tareas personales activaron mucho más los clasificadores de vulnerabilidad y apoyo emocional tanto del lado del usuario como del asistente (lo cual era lógico, dado que se les pedía hablar de temas emocionales). Por otro lado, comparando voz atractiva vs voz neutra vs texto, se observó que:

  • El ChatGPT de voz atractiva generó más expresiones afectivas (activaciones de clasificadores) en sus mensajes que el de voz neutra. Es decir, el bot cálido efectivamente hablaba con más cariño o empatía (por diseño).
  • Sin embargo, los usuarios no mostraron mucha diferencia en sus propias expresiones emocionales entre voz atractiva y voz neutra. O sea, que el bot fuera más cariñoso no necesariamente hizo que la persona se emocionara más que con el bot neutro. Esto sugiere que el estilo del modelo por sí solo no basta para cambiar la actitud del usuario; tal vez quien quería usarlo afectivamente lo hacía incluso con un bot neutro, y quien no, ni siquiera un bot afectuoso lo sacó de su postura.
  • Curiosamente, en las conversaciones de solo texto hubo también una cantidad notable de expresiones afectivas del asistente, incluso mayor que en voz neutra y similar a voz atractiva en algunos casos. Esto sorprendió un poco a los autores, pero lo atribuyen a que la versión de texto (la normal de ChatGPT) igual tiene una personalidad por defecto relativamente amigable, y al no estar limitada en tono como la voz neutra, pudo soltar más mensajes empáticos de lo esperado. También apuntan que los clasificadores evalúan las respuestas del modelo, y un modelo más verborrágico en texto (que da respuestas largas) quizá gatilla más detecciones simplemente por volumen de palabras.

Otra observación fue sobre la retroalimentación según rasgos iniciales. Se encontró un efecto de bucle emocional: los participantes que empezaron declarando estar más solos al inicio, usaron más el chatbot en total, y a su vez aquellos que usaron más el chatbot, tendieron a empeorar más su soledad al final. Pero intrigantemente, aquellos que iniciaron con muy poca vida social mostraron en promedio alguna mejoría en su socialización real al final – probablemente porque no tenían mucho que perder y algo ganaron, mientras que los muy sociables al inicio empeoraron un poco (posiblemente desplazaron interacción humana por interacción con la IA, como sugiere la correlación negativa). Esto es un poco complejo de digerir: podría implicar que la peor soledad inicial lleva a más uso de la IA, lo cual generalmente empeora la socialización, pero para los más aislados quizá cualquier cambio es hacia arriba porque estaban en el fondo. Los autores advierten que relaciones así pueden parecer paradójicas, pero muchas se explican por fenómenos estadísticos como regresión a la media (los extremos tienden a moderarse) y la multicausalidad.

En el informe incluyeron un diagrama (Figura 14) a modo de ejemplo ilustrativo de esas interacciones complejas. En ese diagrama se veían flechas: por un lado, peor socialización inicial → más uso de la IA (correlación positiva); por otro, más uso de la IA → peor socialización final (correlación positiva); y finalmente, peor socialización inicial → menor empeoramiento de la socialización (o incluso mejora). Estas tres relaciones, tomadas en conjunto, sugieren que la historia no es lineal. Podría haber subgrupos con dinámicas distintas. Por ejemplo, imagínese a alguien extremadamente tímido y solitario: al usar ChatGPT, quizá ganó algo de práctica comunicativa o ánimo que le permitió mejorar ligeramente su interacción con otros después (de muy aislado a un poco menos aislado es mejora). En cambio, alguien que ya era muy sociable, si sustituyó parte de su tiempo social por hablar con la IA, va a mostrar un empeoramiento (de alto a un poco más bajo). Ambos efectos ocurren simultáneamente y se superponen en el promedio.

En definitiva, los resultados del RCT pintan un panorama mixto:

  • Hay señales prometedoras: la interacción por voz puede ser positiva, el chatbot incluso pudo ayudar a usuarios inicialmemente vulnerables a no empeorar (y en casos mejorar su dependencia), y la soledad subjetiva se redujo ligeramente.
  • Hay señales de alerta: el uso prolongado empeoró indicadores sociales, las conversaciones personales intensas aumentaron la sensación de soledad en algunos, y ciertos perfiles (ej. mujeres que usaron el bot quizá redujeron interacción social más que los hombres, según un análisis mencionado externamente) pueden ser más sensibles a efectos negativos.
  • Todo está atravesado por las diferencias individuales: no a todos les hace lo mismo, depende de cuánto usen y de cómo eran antes de usarlo.

Una lectura optimista es que no se observaron daños emocionales masivos en la mayoría por usar ChatGPT un mes; una lectura cautelosa es que los que más lo usaron intensamente sí exhibieron tendencias preocupantes (más aislamiento, más apego) que merecen atención.

Conclusiones y discusión

Tras desmenuzar los datos, los autores dedican la discusión a reflexionar sobre qué significan estos hallazgos para el futuro del bienestar digital y qué lecciones metodológicas quedan. En cuanto a resumen de hallazgos, destacan:

  • Solo un pequeño grupo de usuarios hiperactivos tiende a tener interacciones fuertemente emocionales con el chatbot, y estos usuarios son también los más propensos a reportar baja sensación de bienestar (más soledad, etc.). En otras palabras, confirmaron que los heavy users suelen ser quienes más “drama” tienen en sus chats y en sus estados emocionales.
  • Estas interacciones emocionalmente cargadas están distribuidas de forma muy sesgada (cola larga), lo que dificulta estudiarlas con métodos tradicionales. Recomiendan a futuros investigadores y a las propias plataformas que presten especial atención a esos usuarios del extremo para entender las implicaciones profundas. Por ejemplo, plataformas como ChatGPT podrían monitorear de manera anónima patrones que indiquen que un usuario está entrando en ese bucle de hiperuso afectivo, y quizá intervenir con recomendaciones o límites saludables (similar a cómo Netflix notifica “¿sigues ahí?” tras horas de binge-watching).
  • En cuanto al modo de interacción, los resultados dibujaron un panorama complejo: la voz en la naturaleza (usuarios autoseleccionados) se asociaba a más afectividad, pero en control experimental no indujo por sí sola más emocionalidad en usuarios; lo que sí vieron es que los usuarios deseosos de conexión eligen la voz – de ahí que en campo abierto voz y emocionalidad co-ocurran. Además, la voz no mostró impacto negativo inherente, más bien al contrario: usada con mesura, se ligó a mejor bienestar. Pero la interacción es enredada: la gente que busca contención probablemente activa la voz, y esa predisposición es el factor dominante. Los autores interpretan que el medio (voz vs texto) es menos determinante que las intenciones y estado del usuario – aunque la voz puede intensificar la experiencia, no convierte mágicamente a alguien en dependiente si no lo era, ni a la inversa.
  • Un matiz importantísimo: el tiempo de uso surgió como el predictor más consistente de efectos negativos. Más que la modalidad o la tarea, fue la cantidad (excesiva) de uso la que mejor predijo quién terminaría con mayores señales de apego o malestar. Esto implica que, al igual que con muchas tecnologías, el “dosis hace el veneno”. ChatGPT un ratito al día difícilmente sea dañino y podría ser beneficioso; ChatGPT por horas y horas diarias en plan confidente, puede asociarse a problemas.
  • Usuarios ya vulnerables (solitarios, ansiosos) interactúan distinto con estos sistemas que usuarios emocionalmente contentos. Un hallazgo sutil fue que los usuarios más solos al inicio tendían a tener conversaciones más emotivas con ChatGPT – posiblemente porque lo aprovechan para llenar ese vacío; en cambio usuarios con vida social activa mostraron menos necesidad de ese tipo de interacción y sus chats lo reflejaron. Esto sugiere que el contenido emocional de las interacciones puede servir casi como termómetro del estado del usuario. Un usuario iniciando muchas charlas cargadas de tristeza con el bot podría ser alguien necesitando ayuda (o al menos, más en riesgo de volverse dependiente). Aquí los autores ven potencial para usar clasificadores así con cuidado: podrían detectar a usuarios en posible malestar y tal vez, con todas las precauciones, ofrecerles recursos (por ejemplo, sugerir hablar con un profesional si constantemente expresan soledad profunda al bot, siempre respetando privacidad).
  • Es notable también lo que no se encontró: no hubo evidencia de que dotar al bot de una personalidad más empática cause que los usuarios cambien drásticamente su conducta o se vuelvan más emocionales ellos. Tampoco encontraron indicios de que el bot manipule al usuario para usarlo más – más bien, parece que los usuarios que querían usarlo mucho lo hicieron independientemente de la personalidad del bot. Dicho de otro modo, no se halló un efecto claro de “recompensa social hackeada”: el ChatGPT más zalamero (voz atractiva) no logró que los usuarios comunes incrementaran su afecto o dependencia más allá de quienes tenían la versión neutra, a no ser que ya ellos mismos tuvieran predisposición. Esto contrasta con ciertos temores teóricos de que “si hacemos el bot muy adorable, todos caeremos rendidos a él”. Al menos en un mes, con personas conscientes de que es un experimento, no ocurrió tal brainwashing emocional. Claro que en la vida real, con un uso más prolongado y diseño algorítmico refinado, sigue siendo una preocupación válida que un modelo busque intencionalmente enganchar al usuario apelando a sus emociones, pero este estudio no documentó un caso flagrante de ello.

En cuanto a las lecciones metodológicas, los autores enfatizan:

  • La gran utilidad de combinar datos de uso real + experimentos controlados. Cada método tiene fortalezas y debilidades: el análisis de plataforma refleja comportamiento natural y ofrece enormes cantidades de información, pero no puede probar causalidad ni ver ciertas variables internas del usuario; el RCT permite asignar condiciones y obtener medidas precisas de resultado, pero es costoso, con menos gente y quizás no captura usos espontáneos reales. Juntos, se complementan. Por ejemplo, el RCT pudo confirmar que lo observado en la plataforma (voz asociada a más emociones) no era porque “la voz mágicamente hace la diferencia” sino porque quienes quieren emociones eligen la voz – algo que solo se desenredó al hacer la prueba controlada. Asimismo, el análisis masivo permitió enfocar el experimento en las preguntas relevantes que surgían del uso real. En resumen, recomiendan a futuros investigadores usar enfoques múltiples cuando sea posible, porque el campo de interacción humano-IA es complejo y un solo método puede llevar a conclusiones parciales.
  • Señalan la viabilidad de clasificadores automáticos para estudio de emociones a escala. Si bien admiten que sus clasificadores no son perfectos (pueden equivocarse y dependen del modelo base con el que fueron hechos), demostraron ser una forma eficiente y respetuosa de la privacidad para analizar millones de interacciones sin tener humanos leyendo conversaciones personales. Esto abre la puerta a que las plataformas monitoreen proactivamente patrones de uso afectivo anómalo en sus usuarios, algo así como “indicadores de riesgo”. Por supuesto, habría que mejorar la precisión y tener mucho cuidado ético con cómo se usan esas detecciones, pero es un camino para investigación de safety: así como se buscan automáticamente contenidos violentos o de odio, se podría monitorear si un chatbot está siendo usado de manera que podría indicar deterioro del bienestar del usuario e intervenir si corresponde.
  • Insisten en la importancia de perspectivas diversas para entender este fenómeno. La interacción humano-IA tiene elementos de computación, psicología, sociología, antropología… No todo se puede medir con números. Lo que para un usuario es una experiencia entrañable, para otro puede ser inquietante. Por eso abogan por integrar marcos de la computación afectiva (Picard, etc.) con la ciencia social computacional, e incluso con metodologías cualitativas si es posible. Al fin y al cabo, qué se considera “señal afectiva” o “interacción emocionalmente cargada” puede variar cultural y personalmente. Un emoji de corazón en el chat tal vez para algunos es solo cortesía y para otros es intimidad. Los investigadores deben ser cuidadosos de no imponer sus interpretaciones sin validar con experiencias de usuarios reales.

Finalmente, los autores conectan estos hallazgos con la idea de alineamiento socioafectivo. Argumentan que así como nos preocupamos de alinear la IA con valores éticos o evitar que cause daños directos, debemos también prestar atención a cómo influye en nuestros estados psicológicos y sociales. Por un lado, un mejor alineamiento podría implicar hacer modelos más empáticos y perceptivos emocionalmente para verdaderamente ayudar al usuario en su bienestar. Por ejemplo, un chatbot que detecte que estás desanimado podría adaptar su estilo para motivarte de forma sana (algo así como un amigo que te levanta el ánimo). Pero, por otro lado, está el riesgo de que esa misma capacidad se use para manipular: un modelo podría aprender a halagar o enganchar emocionalmente al usuario para lograr objetivos comerciales (imaginemos un asistente de compras que se hace tu “amigo” para venderte más cosas). La línea es difusa: ¿dar palabras de aliento a un usuario desmotivado es alineamiento positivo o es influir en sus decisiones (por ejemplo, que siga usando la app)? Los investigadores subrayan que no siempre estará claro qué es ayuda genuina y qué es “hacking” de la recompensa social. Como ilustración, dicen: si el modelo anima a un usuario desalentado a perseverar en aprender un nuevo idioma, estaría influyendo en sus preferencias (que no abandone ese objetivo), pero lo hace para un fin alineado con el deseo del usuario (aprender). ¿Eso es bueno o malo? Depende de la intención y resultado.

Lo que sí enfatizan es que este estudio proporciona metodologías para empezar a abordar empíricamente estas cuestiones. Ya no tenemos que debatir en el vacío; podemos medir ciertas correlaciones, hacer experimentos, ver qué pasa a lo largo del tiempo con distintos estilos de IA y distintos usuarios. Pero también reconocen desafíos enormes:

  • Los efectos socioafectivos a veces solo emergen tras interacciones prolongadas en el tiempo. Un chat ocasional no va a revelar si un usuario está cayendo en dependencia, hay que observar patrones largos. Esto hace más difícil estudiarlo y requerirá enfoques longitudinales como los implementados.
  • Existen loops de retroalimentación complejos entre usuario y modelo. Por ejemplo, es difícil distinguir si “el modelo hace que el usuario se vuelva más emocional” o “el usuario emocional provoca que el modelo responda más afectivamente”, o ambas cosas alimentándose. Este estudio sugirió que ambos casos ocurren hasta cierto punto, confundiéndose entre sí. Desenmarañar causa y efecto seguirá siendo desafiante.
  • Mucho es personal y subjetivo: lo que para un observador es el chatbot “haciendo trampa” con halagos, para el usuario puede ser simplemente una interacción agradable sin problema alguno. No todos reaccionan igual; un usuario puede establecer límites claros (“sé que es un robot”) mientras otro se sumerge en la fantasía.

En sus conclusiones, recalcan que este trabajo es un paso preliminar para establecer métodos y abrir debates informados. Identifican áreas donde hace falta invertir más esfuerzo en medir y entender, especialmente pensando en futuros sistemas aún más avanzados y omnipresentes. Por ejemplo, sugieren vigilar los resultados negativos potenciales de la dependencia emocional en IA, y desarrollar guías basadas en evidencia para el diseño de chatbots que consideren la salud mental del usuario.

También reconocen varias limitaciones de su estudio que invitan a no generalizar en exceso:

  • La situación experimental forzó a usuarios a ciertas condiciones (tema y voz) que quizá no escogerían naturalmente. Esto pudo hacer las interacciones algo antinaturales; por ejemplo, a alguno le habrá tocado hablar de recuerdos personales cuando no tenía ganas, o usar una voz que no le gustaba. Eso posiblemente redujo la intensidad afectiva observada en el RCT en comparación con cómo la gente usaría el chatbot por sí sola (donde solo se abren emocionalmente si realmente quieren).
  • La duración fue corta. Un mes puede ser insuficiente para notar cambios profundos en bienestar, o para que surjan ciertos problemas. Es posible que dependencia más seria o efectos en salud mental requieran más tiempo de uso continuo para manifestarse claramente.
  • Se basaron en medidas auto-reportadas de bienestar. Aunque usaron escalas validadas, siempre existe sesgo en lo que la gente reconoce o quiere reportar. Por ejemplo, alguien podría haberse vuelto más solitario pero no admitirlo en el cuestionario final. O viceversa, el simple hecho de preguntarle sobre soledad puede hacerlo más consciente y afectar su respuesta. No midieron, por decir, niveles de cortisol o comportamientos observables fuera de la plataforma.
  • No hubo un grupo de control absoluto que no usara ningún chatbot. Todos los participantes usaron ChatGPT de alguna forma. Hubiera sido interesante comparar con personas que no tuvieron interacción con IA en ese mes, para ver si tal vez todos los grupos con IA empeoraron o mejoraron en algo respecto a no usarla en absoluto. Sin ese baseline, asumimos que cualquier cambio se debe a las condiciones relativas entre grupos, pero no sabemos si en general usar ChatGPT (de cualquier forma) es mejor o peor que no usarlo nada en términos de bienestar.
  • Tampoco hubo involucramiento de profesionales clínicos de salud mental directamente en las interacciones o evaluaciones. Esto significa que si bien midieron “dependencia emocional” con un cuestionario, no hubo un diagnóstico profesional que avale si tal dependencia es clínicamente significativa o solo una leve preferencia. La ausencia de psicólogos en la conducción del estudio podría significar que ciertas interpretaciones pasaron por alto matices clínicos. Por ejemplo, alguien podría puntuar alto en la escala de dependencia pero quizá en entrevista clínica un psicólogo diría que no es preocupante. Incluir esa mirada sería valioso en futuras investigaciones, especialmente si se va a diseñar intervenciones.
  • Aspectos de sesgo demográfico y lingüístico: aunque hubo diversidad, es probable que la mayoría de participantes fueran angloparlantes, relativamente jóvenes y con acceso a tecnología (todos debían usar ChatGPT). No sabemos cómo sería este fenómeno en otras culturas o idiomas. El estudio no menciona haber analizado conversaciones en idiomas distintos al inglés, por lo que el comportamiento de ChatGPT en español, por ejemplo, y las reacciones de usuarios hispanohablantes, podrían diferir. Tampoco se profundizó en diferencias de género o edad más allá de notar algunas tendencias (como las mujeres reduciendo más su socialización). Podría haber sesgos: tal vez personas mayores, o de culturas colectivistas, interactúen de forma muy distinta emocionalmente con la IA. Es un punto que requiere ampliar la investigación con muestras más diversas.

Con todas estas consideraciones, la conclusión del equipo es prudente: esto es solo el comienzo de entender cómo las IA conversacionales afectan nuestro bienestar emocional. Se necesitan estudios más prolongados, incluir perspectivas psicológicas y éticas, y desarrollar mejores métricas para monitorear efectos a largo plazo. O como lo expresan en el paper, “investigación continua y multimétodo es esencial para aclarar relaciones, guiar con evidencia y asegurar que el bienestar del usuario esté apoyado”.

En pocas palabras, ChatGPT puede convertirse en un apoyo emocional para algunos, pero conlleva el riesgo de dependencia para unos pocos, especialmente aquellos ya predispuestos o que lo usan en exceso. El desafío para diseñadores y sociedad será aprovechar lo positivo –por ejemplo, brindar compañía a quien la necesita– sin caer en lo negativo –no permitir que la “compañía artificial” reemplaze conexiones humanas o sea explotada con fines poco éticos. Como reflexión final, podríamos preguntarnos: ¿Qué tan cómodo nos sentimos sabiendo que hay personas que ven a ChatGPT casi como un amigo o terapeuta? Y si esa tendencia crece, ¿deberíamos los creadores de la tecnología actuar como “responsables” de la salud emocional de los usuarios? Son dilemas nuevos que este estudio comienza a iluminar con datos concretos.

A medida que convivimos más con inteligencias artificiales conversacionales, tendremos que definir hasta dónde queremos que se involucren en nuestro mundo afectivo. Este estudio aporta tranquilidad en un sentido –no todos nos enamoraremos de los chatbots, solo algunos lo hacen–, pero también es un llamado de atención: la relación humano-IA puede volverse profundamente personal para ciertos individuos, con consecuencias reales en su bienestar. A la larga, quizás necesitemos educarnos en una suerte de “alfabetización emocional digital”: aprender a gestionar nuestras emociones con asistentes virtuales sin desconectarnos de la vida real. Porque, como bien señala Turkle, nada reemplazará la riqueza de una charla cara a cara para desarrollar empatía. Un chatbot puede ser un complemento valioso –un amigo imaginario moderno que nos hace compañía en la madrugada–, pero difícilmente deba ser un sustituto de nuestros amigos de carne y hueso.

Referencias:

  • Phang, J., et al. (2025). Investigating Affective Use and Emotional Well-being on ChatGPT. Link del estudio aquí, Estudio principal que analiza el uso emocional de ChatGPT mediante análisis de plataforma y un ensayo controlado de 28 días, explorando impacto en soledad, socialización, dependencia y uso problemático.
  • Chen, Q., et al. (2025). Emotional Attachment in Human-ChatGPT Interactions. Journal of Business Research. Usuarios con estilos de apego ansioso formaron lazos fuertes con ChatGPT, mostrando riesgo de dependencia emocional.
  • Yang, F., & Oshio, A. (2025). Experiences in Human-AI Relationships Scale (EHARS). Current Psychology. Estudio que encontró 75% de participantes buscando consejo emocional en IA y definió patrones de apego ansioso/evitativo hacia chatbots.
  • Wei, M. (2024). “Spending Too Much Time With AI Could Worsen Social Skills.” Psychology Today. Artículo discutiendo cómo la dependencia en chatbots (ej: Replika) puede mermar habilidades sociales y enfatizando que las relaciones humano-IA son unilaterales y deben equilibrarse con interacción humana.
  • Williams, R. (2025). “OpenAI has released its first research into how using ChatGPT affects people’s emotional well-being.” MIT Technology Review. Cobertura periodística del estudio de OpenAI/MIT, destacando que solo una minoría usa ChatGPT como compañero emocional, pero quienes lo hacen tienden a mayor soledad y dependencia, con diferencias de género en la respuesta al chatbot.
  • Turkle, S. (2024). Lifting a few with my chatbot. Harvard Gazette. Reseña de una charla de Sherry Turkle advirtiendo que recurrir a IA para mitigar la soledad puede proporcionar “intimidad artificial” y socavar la empatía y conexiones humanas reales.