Calidad de datos
Propiedad de un conjunto de datos que determina cuánta señal útil contiene para una tarea de aprendizaje. No equivale solo a limpieza. Incluye exactitud, densidad conceptual, diversidad, cobertura, curaduría, ausencia de ruido sistemático, equilibrio de dominios y relación con la tarea que el sistema debe aprender.
En IA, la calidad de datos modifica la lectura simple de la escala. Dos modelos con tamaños parecidos pueden divergir si uno entrena con datos redundantes, contaminados o pobres, y otro con datos seleccionados, corregidos y ricos en estructura. La línea de investigación de modelos pequeños entrenados con datos de “calidad de libro de texto” (Gunasekar et al., 2023) hizo explícita esta diferencia.
La traducción humana es directa: una mente también aprende de su dieta informativa. Con energía, tiempo y atención limitados, la calidad de lo que entra pesa más que la cantidad de estímulos.
Dónde aparece en Nuevas Ciencias
- La lección amarga: aparece como el asterisco final de Sutton. La conclusión humana es directa: “Tú decides la calidad de los datos que consumes.”
Conceptos vecinos
- La lección amarga
- Leyes de escalamiento en IA
- Aprendizaje por refuerzo
- Pilares del aprendizaje
- Pensamiento bayesiano
- Metacognición
Fuentes
- Hoffmann, J., Borgeaud, S., Mensch, A., et al. (2022). Training Compute-Optimal Large Language Models (Categoría 2). https://arxiv.org/abs/2203.15556
- Gunasekar, S., Zhang, Y., Aneja, J., et al. (2023). Textbooks Are All You Need (Categoría 2). https://www.microsoft.com/en-us/research/publication/textbooks-are-all-you-need/
- Sutton, R. (2019). The Bitter Lesson (Categoría 2). http://www.incompleteideas.net/IncIdeas/BitterLesson.html