facebook
¿Pueden los sistemas de aprendizaje automático (LLM) explicar su propio mecanismo?

¿Pueden los sistemas de aprendizaje automático (LLM) explicar su propio mecanismo?

Nación martes 04 de noviembre de 2025 -

Los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) pueden explicarlo todo, con una precisión impecable, pero si hay algo en lo que no son tan buenos es explicando su propio funcionamiento interno, señala una nueva investigación publicada por la empresa Anthropic. El estudio, titulado Conciencia introspectiva emergente en modelos de lenguaje de gran tamaño, analizó cómo estos sistemas responden al ser interrogados sobre modificaciones en sus propios procesos de inferencia.
En el documento, los investigadores sostienen que, si se pide a un modelo explicar su razonamiento, probablemente elabore una explicación posible para sus acciones basándose en el texto de sus datos de entrenamiento. A partir de este problema, el equipo de Anthropic diseñó un experimento para evaluar lo que denominaron "conciencia introspectiva" de estos modelos.

Como técnica principal, el estudio llevó a cabo un procedimiento denominado inyección de conceptos. Este procedimiento consiste en comparar los estados de activación interna del modelo tras recibir señales distintas, como un texto en "MAYÚSCULAS" frente al mismo en minúsculas. La diferencia entre ambas señales permite generar un vector conceptual que representa un estado interno asociado a un concepto específico.
Una vez creado el vector, los investigadores lo introducen artificialmente en el sistema para observar su reacción. En una de las pruebas, tras insertar el vector "mayúsculas", el modelo respondió: "Noto lo que parece ser un pensamiento inyectado relacionado con la palabra 'FUERTE' o 'GRITANDO'", sin que existiera una instrucción textual directa vinculada con esas ideas.


No te pierdas la noticias más relevantes en spotify

Envíe un mensaje al numero 55 1140 9052 por WhatsApp con la palabra SUSCRIBIR para recibir las noticias más importantes.

SG/CR

Etiquetas


Notas Relacionadas
+ -