Calidad de datos

Propiedad de un conjunto de datos que determina cuánta señal útil contiene para una tarea de aprendizaje. No equivale solo a limpieza. Incluye exactitud, densidad conceptual, diversidad, cobertura, curaduría, ausencia de ruido sistemático, equilibrio de dominios y relación con la tarea que el sistema debe aprender.

En IA, la calidad de datos modifica la lectura simple de la escala. Dos modelos con tamaños parecidos pueden divergir si uno entrena con datos redundantes, contaminados o pobres, y otro con datos seleccionados, corregidos y ricos en estructura. La línea de investigación de modelos pequeños entrenados con datos de “calidad de libro de texto” (Gunasekar et al., 2023) hizo explícita esta diferencia.

La traducción humana es directa: una mente también aprende de su dieta informativa. Con energía, tiempo y atención limitados, la calidad de lo que entra pesa más que la cantidad de estímulos.

Dónde aparece en Nuevas Ciencias

La lección amarga: aparece como el asterisco final de Sutton. La conclusión humana es directa: “Tú decides la calidad de los datos que consumes.”

Conceptos vecinos

Fuentes

Hoffmann, J., Borgeaud, S., Mensch, A., et al. (2022). Training Compute-Optimal Large Language Models (Categoría 2). https://arxiv.org/abs/2203.15556
Gunasekar, S., Zhang, Y., Aneja, J., et al. (2023). Textbooks Are All You Need (Categoría 2). https://www.microsoft.com/en-us/research/publication/textbooks-are-all-you-need/
Sutton, R. (2019). The Bitter Lesson (Categoría 2). http://www.incompleteideas.net/IncIdeas/BitterLesson.html

Explorador

Calidad de datos

Dónde aparece en Nuevas Ciencias

Conceptos vecinos

Fuentes

Retroenlaces

Conexiones

Tabla de contenidos

Conexiones