Interpretabilidad mecánica

Campo de investigación que hace ingeniería inversa de redes neuronales para identificar las unidades funcionales internas que producen su comportamiento. A diferencia de la interpretabilidad clásica, que correlaciona entradas con salidas, la interpretabilidad mecánica pregunta qué calcula cada parte del modelo y cómo. Suele abreviarse mec-ínterp.

El programa surge en el grupo de Chris Olah en Distill (2017-2020), se traslada a Anthropic en 2021 y se consolida con tres trabajos: Toy Models of Superposition (2022), Scaling Monosemanticity (2024) y Circuit Tracing (2025). Su vocabulario organiza tres niveles de análisis: neuronas como unidad de cálculo, características como unidad de significado y circuitos como combinaciones funcionales. El fenómeno central que dificulta el trabajo es la superposicion: una sola neurona puede codificar muchas características.

La importancia práctica es doble. Primero, permite explicar comportamientos antes opacos: las alucinaciones de los LLM ya pueden trazarse a circuitos identificables. Segundo, es prerrequisito del alineamiento serio: para evaluar si un modelo persigue lo que queremos, hay que poder leer lo que hace.

Dónde aparece en Nuevas Ciencias

¿Qué dicen las máquinas?: el ensayo entero presenta el campo y lo organiza en torno a la tríada neuronas, características y circuitos.

Conceptos vecinos

Fuentes

Wikipedia EN: Mechanistic interpretability (Categoría 1).
Olah, C., Cammarata, N., Schubert, L., et al. (2020). Zoom In: An Introduction to Circuits. Distill (Categoría 2). https://distill.pub/2020/circuits/zoom-in/
Elhage, N., Hume, T., Olsson, C., et al. (2022). Toy Models of Superposition. Anthropic (Categoría 2). https://transformer-circuits.pub/2022/toy_model/index.html
Templeton, A., Conerly, T., Marcus, J., et al. (2024). Scaling Monosemanticity. Anthropic (Categoría 2). https://transformer-circuits.pub/2024/scaling-monosemanticity/
Lindsey, J., Gurnee, W., Ameisen, E., et al. (2025). Circuit Tracing. Anthropic (Categoría 2). https://transformer-circuits.pub/2025/attribution-graphs/methods.html

Explorador

Interpretabilidad mecánica

Dónde aparece en Nuevas Ciencias

Conceptos vecinos

Fuentes

Tabla de contenidos

Retroenlaces