Chris Olah
Investigador de aprendizaje profundo asociado a la fundación de la interpretabilidad-mecanica moderna y cofundador de Anthropic. Su trabajo ayudó a desplazar la discusión sobre redes neuronales desde la idea genérica de “caja negra” hacia un programa de investigación: identificar unidades internas, medirlas, intervenir sobre ellas y reconstruir los mecanismos que producen comportamiento.
Olah trabajó en Google Brain, donde impulsó Distill, una revista digital dedicada a visualización e investigación explicativa en aprendizaje automático. Después pasó por OpenAI y, en 2021, cofundó Anthropic junto con Dario Amodei, Daniela Amodei y otros investigadores. Desde Anthropic, su equipo publicó trabajos centrales para el campo: Toy Models of Superposition (2022), Scaling Monosemanticity (2024) y Circuit Tracing (2025).
Su marco trata a los LLM como sistemas entrenados que deben investigarse por ingeniería inversa. No son programas escritos línea por línea, sino artefactos cuya estructura interna emerge del entrenamiento. De ahí la analogía frecuente con una neurociencia de los modelos: observar unidades, aislar patrones, intervenir y reconstruir circuitos causales.
Dónde aparece en Nuevas Ciencias
- ¿Qué dicen las máquinas?: Olah organiza el ensayo como figura intelectual del campo y como fuente de la tríada neuronas, características y circuitos.
Conceptos vecinos
- interpretabilidad-mecanica
- neurona-llm
- caracteristica-feature
- circuito-llm
- superposicion
- alucinacion-llm
Fuentes
- Wikipedia EN: Chris Olah (Categoría 1).
- Olah, C., Mordvintsev, A., & Schubert, L. (2017). Feature Visualization. Distill (Categoría 2). https://distill.pub/2017/feature-visualization/
- Olah, C., Cammarata, N., Schubert, L., et al. (2020). Zoom In: An Introduction to Circuits. Distill (Categoría 2). https://distill.pub/2020/circuits/zoom-in/
- Elhage, N., Hume, T., Olsson, C., et al. (2022). Toy Models of Superposition. Anthropic (Categoría 2). https://transformer-circuits.pub/2022/toy_model/index.html