Leyes de escalamiento en IA

Regularidades empíricas que relacionan el desempeño de modelos de aprendizaje profundo con tres magnitudes: tamaño del modelo, cantidad de datos y cómputo usado durante el entrenamiento. En modelos de lenguaje, varias métricas de pérdida bajan de manera predecible cuando esas magnitudes crecen, aunque no de forma ilimitada ni gratis. Son la versión cuantitativa de la lección amarga: cuando hay un método general capaz de absorber escala, la escala se vuelve conocimiento operativo.

No son leyes naturales en el sentido de la física. Son curvas observadas en familias de modelos entrenados bajo condiciones parecidas. Su poder está en que vuelven planeable la escala: antes de gastar millones de dólares en entrenamiento, se puede estimar qué mejora produciría más parámetros, más tokens o más cómputo.

La corrección Chinchilla afinó la intuición inicial: muchos modelos grandes estaban subentrenados. No bastaba aumentar parámetros; había que aumentar también la cantidad de datos de entrenamiento. Por eso las leyes de escalamiento conectan directamente con la calidad de datos: más datos no significa automáticamente mejores datos.

Dónde aparece en Nuevas Ciencias

  • La lección amarga: el ensayo no usa el término técnico, pero formula su intuición narrativa: más datos, más poder computacional y más energía transforman sistemas torpes en sistemas dominantes.

Conceptos vecinos

Fuentes