Circuito (en LLM)
En la interpretabilidad-mecanica, un circuito es una combinación específica de neuronas y características que cooperan para realizar una función dentro del modelo. Es el tercer nivel de análisis de la tríada de Olah, después de neuronas y características.
Un circuito identifica el cómo computacional. Si una característica responde a la pregunta “qué representa esta parte del modelo”, un circuito responde “qué hace esta parte cuando se combina con esas otras”. Ejemplos descritos en la literatura incluyen circuitos de copia, induction heads que detectan patrones del tipo “AB…A → B”, circuitos de razonamiento aritmético y circuitos de reconocimiento de entidades.
El trabajo de Circuit Tracing (Anthropic, 2025) permite explicar una parte de las alucinaciones de los LLM. La cadena causal típica involucra varios circuitos en interacción: un circuito de reconocimiento de entidad se activa, otro de “no lo sé” se inhibe porque la entidad parece conocida, y un circuito de invención plausible toma el relevo. Antes de los circuitos solo se podía describir el resultado; ahora se puede trazar parte del mecanismo.
Dónde aparece en Nuevas Ciencias
- ¿Qué dicen las máquinas?: tercera capa de la tríada de Olah. El ensayo lo usa para explicar por qué una alucinación puede entenderse como una cadena causal interna, no solo como un error de salida.
Conceptos vecinos
- interpretabilidad-mecanica
- neurona-llm
- caracteristica-feature
- superposicion
- alucinacion-llm
- chris-olah
Fuentes
- Olah, C., Cammarata, N., Schubert, L., et al. (2020). Zoom In: An Introduction to Circuits. Distill (Categoría 2). https://distill.pub/2020/circuits/zoom-in/
- Olsson, C., Elhage, N., Nanda, N., et al. (2022). In-context Learning and Induction Heads. Anthropic (Categoría 2). https://transformer-circuits.pub/2022/in-context-learning-and-induction-heads/index.html
- Lindsey, J., Gurnee, W., Ameisen, E., et al. (2025). Circuit Tracing: Revealing Computational Graphs in Language Models. Anthropic (Categoría 2). https://transformer-circuits.pub/2025/attribution-graphs/methods.html