Leyes de escalamiento en IA

Regularidades empíricas que relacionan el desempeño de modelos de aprendizaje profundo con tres magnitudes: tamaño del modelo, cantidad de datos y cómputo usado durante el entrenamiento. En modelos de lenguaje, varias métricas de pérdida bajan de manera predecible cuando esas magnitudes crecen, aunque no de forma ilimitada ni gratis. Son la versión cuantitativa de la lección amarga: cuando hay un método general capaz de absorber escala, la escala se vuelve conocimiento operativo.

No son leyes naturales en el sentido de la física. Son curvas observadas en familias de modelos entrenados bajo condiciones parecidas. Su poder está en que vuelven planeable la escala: antes de gastar millones de dólares en entrenamiento, se puede estimar qué mejora produciría más parámetros, más tokens o más cómputo.

La corrección Chinchilla afinó la intuición inicial: muchos modelos grandes estaban subentrenados. No bastaba aumentar parámetros; había que aumentar también la cantidad de datos de entrenamiento. Por eso las leyes de escalamiento conectan directamente con la calidad de datos: más datos no significa automáticamente mejores datos.

Dónde aparece en Nuevas Ciencias

La lección amarga: el ensayo no usa el término técnico, pero formula su intuición narrativa: más datos, más poder computacional y más energía transforman sistemas torpes en sistemas dominantes.

Conceptos vecinos

Fuentes

Kaplan, J., McCandlish, S., Henighan, T., et al. (2020). Scaling Laws for Neural Language Models (Categoría 2). https://openai.com/index/scaling-laws-for-neural-language-models
Hoffmann, J., Borgeaud, S., Mensch, A., et al. (2022). Training Compute-Optimal Large Language Models (Categoría 2). https://arxiv.org/abs/2203.15556
Sutton, R. (2019). The Bitter Lesson (Categoría 2). http://www.incompleteideas.net/IncIdeas/BitterLesson.html

Explorador

Leyes de escalamiento en IA

Dónde aparece en Nuevas Ciencias

Conceptos vecinos

Fuentes

Retroenlaces

Conexiones

Tabla de contenidos

Conexiones