Interpretabilidad mecánica
Campo de investigación que hace ingeniería inversa de redes neuronales para identificar las unidades funcionales internas que producen su comportamiento. A diferencia de la interpretabilidad clásica, que correlaciona entradas con salidas, la interpretabilidad mecánica pregunta qué calcula cada parte del modelo y cómo. Suele abreviarse mec-ínterp.
El programa surge en el grupo de Chris Olah en Distill (2017-2020), se traslada a Anthropic en 2021 y se consolida con tres trabajos: Toy Models of Superposition (2022), Scaling Monosemanticity (2024) y Circuit Tracing (2025). Su vocabulario organiza tres niveles de análisis: neuronas como unidad de cálculo, características como unidad de significado y circuitos como combinaciones funcionales. El fenómeno central que dificulta el trabajo es la superposicion: una sola neurona puede codificar muchas características.
La importancia práctica es doble. Primero, permite explicar comportamientos antes opacos: las alucinaciones de los LLM ya pueden trazarse a circuitos identificables. Segundo, es prerrequisito del alineamiento serio: para evaluar si un modelo persigue lo que queremos, hay que poder leer lo que hace.
Dónde aparece en Nuevas Ciencias
- ¿Qué dicen las máquinas?: el ensayo entero presenta el campo y lo organiza en torno a la tríada neuronas, características y circuitos.
Conceptos vecinos
- neurona-llm
- caracteristica-feature
- circuito-llm
- superposicion
- alucinacion-llm
- funcion-de-utilidad
- chris-olah
Fuentes
- Wikipedia EN: Mechanistic interpretability (Categoría 1).
- Olah, C., Cammarata, N., Schubert, L., et al. (2020). Zoom In: An Introduction to Circuits. Distill (Categoría 2). https://distill.pub/2020/circuits/zoom-in/
- Elhage, N., Hume, T., Olsson, C., et al. (2022). Toy Models of Superposition. Anthropic (Categoría 2). https://transformer-circuits.pub/2022/toy_model/index.html
- Templeton, A., Conerly, T., Marcus, J., et al. (2024). Scaling Monosemanticity. Anthropic (Categoría 2). https://transformer-circuits.pub/2024/scaling-monosemanticity/
- Lindsey, J., Gurnee, W., Ameisen, E., et al. (2025). Circuit Tracing. Anthropic (Categoría 2). https://transformer-circuits.pub/2025/attribution-graphs/methods.html