Leyes de escalamiento en IA
Regularidades empíricas que relacionan el desempeño de modelos de aprendizaje profundo con tres magnitudes: tamaño del modelo, cantidad de datos y cómputo usado durante el entrenamiento. En modelos de lenguaje, varias métricas de pérdida bajan de manera predecible cuando esas magnitudes crecen, aunque no de forma ilimitada ni gratis. Son la versión cuantitativa de la lección amarga: cuando hay un método general capaz de absorber escala, la escala se vuelve conocimiento operativo.
No son leyes naturales en el sentido de la física. Son curvas observadas en familias de modelos entrenados bajo condiciones parecidas. Su poder está en que vuelven planeable la escala: antes de gastar millones de dólares en entrenamiento, se puede estimar qué mejora produciría más parámetros, más tokens o más cómputo.
La corrección Chinchilla afinó la intuición inicial: muchos modelos grandes estaban subentrenados. No bastaba aumentar parámetros; había que aumentar también la cantidad de datos de entrenamiento. Por eso las leyes de escalamiento conectan directamente con la calidad de datos: más datos no significa automáticamente mejores datos.
Dónde aparece en Nuevas Ciencias
- La lección amarga: el ensayo no usa el término técnico, pero formula su intuición narrativa: más datos, más poder computacional y más energía transforman sistemas torpes en sistemas dominantes.
Conceptos vecinos
- La lección amarga
- Calidad de datos
- Aprendizaje por refuerzo
- Interpretabilidad mecánica
- Cerebro colectivo
- Función de utilidad
Fuentes
- Kaplan, J., McCandlish, S., Henighan, T., et al. (2020). Scaling Laws for Neural Language Models (Categoría 2). https://openai.com/index/scaling-laws-for-neural-language-models
- Hoffmann, J., Borgeaud, S., Mensch, A., et al. (2022). Training Compute-Optimal Large Language Models (Categoría 2). https://arxiv.org/abs/2203.15556
- Sutton, R. (2019). The Bitter Lesson (Categoría 2). http://www.incompleteideas.net/IncIdeas/BitterLesson.html