Característica (feature)
En la interpretabilidad-mecanica, una característica (feature) es una unidad de significado interna a una red neuronal: un patrón que la red usa para representar un concepto, un objeto, una propiedad o una regularidad estadística. Es una unidad semántica, no necesariamente una unidad física del modelo.
Las características no son las neuronas mismas. Una neurona suele activarse para varias características distintas, fenómeno llamado superposicion; una característica suele estar codificada por la combinación de muchas neuronas. La distinción es central: la unidad de significado vive en el espacio vectorial que abren las neuronas, no en una neurona aislada.
El equipo de mec-ínterp de Anthropic mostró en 2024 que las características aisladas pueden ser manipulables. Al amplificar la activación de la característica “puente Golden Gate” en Claude 3 Sonnet, las respuestas del modelo viraron hacia ese puente. La demostración estableció que una característica no es solo una correlación estadística, sino una palanca causal: si se modifica, el comportamiento del modelo cambia de forma predecible.
Dónde aparece en Nuevas Ciencias
- ¿Qué dicen las máquinas?: segunda capa de la tríada de Olah. El ensayo usa Golden Gate Claude como demostración concreta de que las características son aislables y manipulables.
Conceptos vecinos
Fuentes
- Templeton, A., Conerly, T., Marcus, J., et al. (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. Anthropic (Categoría 2). https://transformer-circuits.pub/2024/scaling-monosemanticity/
- Bricken, T., Templeton, A., Batson, J., et al. (2023). Towards Monosemanticity. Anthropic (Categoría 2). https://transformer-circuits.pub/2023/monosemantic-features/
- Anthropic (2024). Mapping the Mind of a Large Language Model (Categoría 1, comunicado divulgativo).