Sí. Te lo dejo igual de fondo, pero limpio, sacando toda mención al hash y dejando la propuesta centrada en lo que vos querés: ID único, trazabilidad del contenido, estados de validación e integración práctica con CMS y APIs.
la internet necesita un id universal para el contenido antes de que la ia siga aprendiendo basura
Hace tiempo que vengo pensando algo que para mí ya dejó de ser una rareza técnica y pasó a convertirse en un problema estructural: si los modelos de lenguaje consumen información de internet, y una parte de esa internet es falsa, confusa, manipulada, desactualizada o directamente inventada, entonces tarde o temprano esa basura entra en la cadena de respuesta. A veces entra en entrenamiento, a veces entra por browsing, a veces entra por sistemas RAG, y a veces entra por simples patrones estadísticos que hacen que el modelo complete con seguridad algo que jamás fue verificado. El resultado lo conocemos todos: alucinaciones. Es decir, contenido falso dicho con tono de verdad. Reuters explicó este fenómeno como información fabricada por una herramienta de IA en respuesta a un prompt, y el problema ya se volvió visible en ámbitos delicados como el legal, el académico y el corporativo. (Reuters)
El problema no es solo que una IA se equivoque. El verdadero problema aparece cuando después nadie puede reconstruir con precisión de dónde salió el error, por qué camino se propagó y qué piezas hay que invalidar para evitar que vuelva a aparecer. Hoy, en muchos casos, la discusión queda reducida a “la IA alucinó”, como si fuera magia negra. Y no. En muchísimos escenarios la IA alucina porque consume, remezcla, interpreta mal o pondera mal información que ya estaba contaminada, o porque genera una salida plausible sin una capa seria de verificación. Por eso creo que hace falta un estándar internacional nuevo: un identificador universal de contenido, gratuito, rápido y masivo, que no sirva para identificar personas, sino para identificar piezas de contenido. Nada más y nada menos. Un DNI del artículo, no del autor.
Los ejemplos de por qué esto hace falta ya sobran. En 2023, dos abogados de Nueva York fueron sancionados después de presentar un escrito con casos judiciales falsos generados por ChatGPT; Reuters informó que las citas eran ficticias y que el tribunal impuso sanciones. Ese episodio no fue un meme ni una anécdota menor: mostró que una salida inventada por IA puede terminar metida dentro de un proceso formal con consecuencias reales. (Reuters)
El tema ya no queda encerrado en lo jurídico. En Canadá, el caso de Air Canada mostró que un chatbot de la empresa dio información incorrecta sobre una política de reembolso por duelo, y el tribunal determinó que la compañía seguía siendo responsable por lo que decía su sistema. O sea: no hizo falta que el chatbot inventara un paper inexistente; alcanzó con que dijera una política errónea con seguridad para producir un perjuicio concreto. Ese caso es importante porque baja la discusión a tierra: cuando una IA da una respuesta falsa, no estamos ante un error simpático, sino ante una falla de información con impacto real. (The Guardian)
En ciencia y academia la cosa tampoco está mejor. Nature publicó en abril de 2026 que investigadores inventaron una enfermedad falsa llamada “bixonimania” y que chatbots la presentaron como si fuera real. Ese experimento fue brutal porque mostró que incluso información absurda, si entra al circuito digital y es remezclada por sistemas automáticos, puede terminar con apariencia de legitimidad. Eso es exactamente el tipo de contaminación que después se mete en respuestas, resúmenes, recomendaciones y contenidos automatizados. (Nature)
Entonces, ¿qué propongo? Algo bastante simple en el concepto y bastante potente en la implementación: que cada pieza de contenido publicada en internet pueda llevar un identificador universal verificable emitido por una infraestructura pública interoperable. No para decir quién lo escribió. No para rastrear ideológicamente a nadie. No para vigilar personas. Solo para marcar una unidad de contenido digital y permitir que esa unidad sea rastreable dentro del ecosistema de IA, indexación, crawling y auditoría. Si después esa pieza se demuestra falsa, adulterada o maliciosa, ese identificador permite encontrar dónde fue usada, dónde fue citada, qué sistemas la tomaron y qué capas deben corregirse.
La clave de mi planteo es esta: el ID no identifica al autor; identifica al contenido. Esa diferencia es central. Yo no estoy hablando de una matrícula personal, ni de un sistema donde el Estado sabe quién escribió qué. Estoy hablando de un identificador técnico de contenido, equivalente a una patente de circulación de esa pieza dentro de internet. Si el artículo se corrige o se invalida, el sistema puede marcar ese mismo contenido como actualizado, observado o revocado. Lo importante no es la biografía del creador, sino la trazabilidad técnica del objeto informacional.
Si tuviera que pensar esto en un escenario realista para Argentina, lo haría así. El Estado argentino crea un servicio público de emisión de identificadores de contenido. Lo puede operar un organismo técnico nacional o un ente autárquico con auditoría externa. Ese servicio expone una API pública y gratuita. Cualquier CMS, diario digital, universidad, blog, portal, organismo público, revista o plataforma puede pedir un ID en segundos. También podría hacerlo una persona desde una web oficial. Entrás, generás un token de sesión, pedís el identificador, publicás el contenido y tenés una ventana breve —por ejemplo una hora— para asociar ese ID a la pieza publicada. Cerrado ese paso, el identificador queda ligado a esa versión del contenido.
La nomenclatura podría ser clara y replicable entre países. Por ejemplo:
AR-NWS-2026-04-17-8F3K-91QX-M2
Donde:
AR = país de emisión del identificador
NWS = categoría del contenido, en este caso noticia
2026-04-17 = fecha de emisión
8F3K-91QX-M2 = bloque alfanumérico único, irrepetible y no predecible
Podrían existir categorías como:
NWS noticia
OPN opinión
SCI artículo científico
GOV documento oficial
EDU contenido educativo
VID video
AUD audio
IMG imagen
SYN contenido sintético generado por IA
MIX contenido mixto, humano + IA
No hace falta meter toda la verdad del mundo dentro del código. El código solo debe ser el ancla, lo importante vive en el registro asociado: fecha, versión, categoría, idioma, URL canónica y estado. Nada de nombre del autor si no se quiere. Nada de documento. Nada de domicilio. Nada de datos personales. El sistema puede perfectamente funcionar sin eso.
A nivel técnico, esto se puede hacer de una manera bastante más simple de lo que muchos creen. Hoy ya existen estándares de procedencia digital como C2PA, que buscan capturar el origen y las ediciones de contenido digital mediante credenciales de contenido. La propia C2PA explica que su estándar sirve para establecer origen y modificaciones de contenido digital, y sus FAQ detallan que esas credenciales pueden registrar cómo fue creado el contenido, qué herramientas o procesos se usaron y cómo fue cambiando. También remarcan algo importante: no evitan por sí solas el contenido falso, pero sí ayudan a identificar contenido auténtico y su procedencia. OpenAI, Google, Meta, Microsoft, Adobe y otras compañías participan del ecosistema de Content Credentials, que ya suma cientos de empresas. (Nature)
Yo iría un paso distinto, aunque complementario. C2PA está muy enfocado en procedencia y autenticidad de contenido digital. Mi propuesta está más enfocada en un estándar público masivo de identificación mínima para trazabilidad de texto y publicaciones web, especialmente pensado para que los LLMs, buscadores y sistemas de auditoría puedan operar sobre un universo más ordenado. No reemplaza C2PA: convive con C2PA. De hecho, podría usar conceptos similares de emisión, validación y actualización de estado.
En la práctica, esto podría integrarse muy fácil en WordPress, Drupal, Ghost, Shopify, sistemas propietarios de medios, repositorios académicos y portales gubernamentales. En WordPress, por ejemplo, podría existir un plugin oficial que al momento de publicar llame a la API nacional, reserve un ID y lo inserte automáticamente en el HTML. No haría falta que el editor toque nada. Así como hoy agregás schema markup, meta description, canonical o Open Graph, también podrías agregar una línea de metadatos del tipo:
<meta name="content-id" content="AR-NWS-2026-04-17-8F3K-91QX-M2">
<meta name="content-status" content="active">
Incluso podría ir en el head, en un bloque JSON-LD, en headers HTTP o en un archivo de manifiesto asociado. No tiene por qué verse como un H1 ni como una etiqueta visual; tiene que estar donde los crawlers, validadores y sistemas automáticos lo lean bien. Lo importante no es que el usuario lo vea grande arriba del título. Lo importante es que la infraestructura lo pueda leer, verificar y auditar.
El proceso ideal sería muy corto. Uno: pedís un ID. Dos: publicás. Tres: enviás la URL final para validarlo dentro de una ventana breve. Cuatro: el registro responde con estado activo. Cinco: buscadores y LLMs leen ese ID cuando indexan o consumen el contenido. Seis: si mañana aparece un problema serio, ese ID puede marcarse como observado, corregido o revocado. Siete: los sistemas que guardaron referencias a ese contenido pueden disparar tareas de revisión, purga o reponderación. La ventaja es brutal: ya no discutís en abstracto sobre “algún artículo falso por ahí”, sino sobre una unidad concreta de contenido.
Acá aparece un beneficio enorme para los LLMs. Hoy, cuando un modelo da una respuesta errónea apoyada en contenido web, muchas veces es dificilísimo reconstruir la cadena exacta. Con un sistema de este tipo, un desarrollador podría registrar internamente algo como: “esta salida estuvo respaldada por los IDs AR-NWS-…, ES-SCI-…, US-GOV-…”. Si después uno de esos contenidos cae, el sistema sabe qué revisar. Eso no elimina todas las alucinaciones, porque un modelo también puede inferir mal aunque la fuente sea real, pero reduce muchísimo la opacidad operativa.
También cambia la lógica cultural de internet. Si validar contenido es gratis, rápido y automático, y si las plataformas lo traen por defecto, entonces la carga de la prueba empieza a invertirse. No digo que todo lo que tenga ID vaya a ser verdadero. Eso sería ingenuo. Digo otra cosa: que todo contenido genuino, serio o responsable tendría incentivo para validarse. Entonces, en el mediano plazo, el contenido sin ID empieza a quedar en una zona gris. No necesariamente es falso, pero ya no compite en igualdad de condiciones con contenido que sí quiso ser trazable.
Esto, además, es especialmente importante porque el problema no es solo la mala fuente “obvia”. Reuters informó en febrero de 2026 sobre un estudio según el cual las herramientas de IA daban consejos médicos incorrectos con más frecuencia cuando la desinformación provenía de una fuente que el sistema percibía como legítima o autorizada. Esa nota me parece clave porque destruye una fantasía muy común: no alcanza con decir “la IA tiene que usar fuentes confiables”. A veces la contaminación entra justo por la fuente que parece seria. Por eso hace falta no solo reputación de fuente, sino identificación fina de la pieza y estado actualizado. (Reuters)
Si esto se quisiera impulsar desde Argentina, yo lo presentaría como una infraestructura pública de confianza digital para la era de la IA. No como censura. No como vigilancia. No como burocracia. Mucho menos como control ideológico. Lo presentaría como una mejora de calidad informacional y una herramienta de auditoría técnica. Argentina podría arrancar por sectores sensibles: medios grandes, universidades, documentos públicos, ciencia, salud, educación y contenido generado por organismos del Estado. Después, abrirlo al resto de la web. Primero voluntario. Luego, si funciona, estándar internacional interoperable.
Y sí, creo que esto debería aspirar a ser global. Porque si no, se queda corto. Internet no vive en fronteras nacionales, pero los estándares suelen empezar en jurisdicciones concretas. Argentina podría usar una estructura simple y exportable, basada en código país ISO y categorías comunes, para que después Brasil, España, México o cualquier otro país puedan emitir bajo la misma lógica. El objetivo final no sería que cada gobierno controle internet, sino que exista una forma compartida de decir: esta pieza existe, esta es su versión, este es su estado, y si mañana aparece un problema la podemos seguir.
Lo más importante de todo es entender que esto no pretende resolver mágicamente la verdad. Ningún ID convierte una mentira en un hecho. Lo que sí hace es volver auditable el recorrido de esa mentira. Y en el mundo de los LLMs, eso ya sería un salto gigantesco. Porque hoy muchas veces la falsedad entra, circula, se replica, se reformula y se pierde en una nube probabilística. Yo quiero sacar una parte de esa nube y volverla infraestructura.
Para mí, el debate ya no debería ser si las alucinaciones existen. Eso está fuera de discusión. La pregunta es si vamos a seguir aceptando un ecosistema donde millones de piezas de contenido circulan sin una capa mínima de identificación verificable mientras pretendemos que los modelos den respuestas cada vez más precisas. Yo no lo veo sostenible. Si queremos una IA más confiable, más auditable y más corregible, tenemos que empezar antes: en la propia arquitectura del contenido que subimos a internet.
Y por eso creo que el próximo gran estándar global no debería ser solo sobre modelos. También debería ser sobre contenido. Un estándar simple, abierto, interoperable y gratuito. Un ID universal de contenido. No para perseguir personas. No para vigilar autores. Sí para poder seguir el rastro de la información cuando la IA la convierte en respuesta. Porque si no podemos rastrear el contenido, tampoco vamos a poder corregir de verdad a los sistemas que aprenden de él.




