Superposición (en redes neuronales)
Fenómeno por el cual una sola neurona de un modelo codifica varias características distintas que rara vez se activan al mismo tiempo. Es una de las razones por las que un LLM puede almacenar más información de la que sugeriría un conteo simple de neuronas.
La intuición geométrica es directa: si una red dispone de N dimensiones, pero necesita representar más conceptos que dimensiones, comprime. Empaqueta varios conceptos en cada dimensión y aprovecha que muchos de esos conceptos no aparecen juntos en la misma entrada. Olah y su equipo lo formalizaron en 2022 con modelos de juguete que mostraban cómo una red pequeña podía representar muchas más características que neuronas.
La superposición es útil para la capacidad y problemática para la interpretabilidad. Permite representar muchos patrones, pero vuelve polisémanticas a las neuronas individuales: una misma neurona puede activarse para regularidades distintas. Por eso el análisis neurona por neurona no basta y hacen falta técnicas de descomposición como autoencoders dispersos o dictionary learning.
Dónde aparece en Nuevas Ciencias
- ¿Qué dicen las máquinas?: el ensayo lo presenta como la razón por la que los LLM no son interpretables sin esfuerzo y como puente hacia el concepto de característica.
Conceptos vecinos
Fuentes
- Elhage, N., Hume, T., Olsson, C., et al. (2022). Toy Models of Superposition. Anthropic (Categoría 2). https://transformer-circuits.pub/2022/toy_model/index.html
- Bricken, T., Templeton, A., Batson, J., et al. (2023). Towards Monosemanticity: Decomposing Language Models with Dictionary Learning. Anthropic (Categoría 2). https://transformer-circuits.pub/2023/monosemantic-features/
- Wikipedia EN: Mechanistic interpretability - Superposition (Categoría 1).