Interpretabilidad mecánica

Campo de investigación que hace ingeniería inversa de redes neuronales para identificar las unidades funcionales internas que producen su comportamiento. A diferencia de la interpretabilidad clásica, que correlaciona entradas con salidas, la interpretabilidad mecánica pregunta qué calcula cada parte del modelo y cómo. Suele abreviarse mec-ínterp.

El programa surge en el grupo de Chris Olah en Distill (2017-2020), se traslada a Anthropic en 2021 y se consolida con tres trabajos: Toy Models of Superposition (2022), Scaling Monosemanticity (2024) y Circuit Tracing (2025). Su vocabulario organiza tres niveles de análisis: neuronas como unidad de cálculo, características como unidad de significado y circuitos como combinaciones funcionales. El fenómeno central que dificulta el trabajo es la superposicion: una sola neurona puede codificar muchas características.

La importancia práctica es doble. Primero, permite explicar comportamientos antes opacos: las alucinaciones de los LLM ya pueden trazarse a circuitos identificables. Segundo, es prerrequisito del alineamiento serio: para evaluar si un modelo persigue lo que queremos, hay que poder leer lo que hace.

Dónde aparece en Nuevas Ciencias

  • ¿Qué dicen las máquinas?: el ensayo entero presenta el campo y lo organiza en torno a la tríada neuronas, características y circuitos.

Conceptos vecinos

Fuentes