Falso positivo (y falacia de la frecuencia base)

Un falso positivo es el resultado en el que una prueba indica la presencia de una condición que no está presente. En el lenguaje de la teoría estadística, es un error de Tipo I: rechazar la hipótesis nula (no hay condición) cuando es verdadera. Toda prueba real de detección produce falsos positivos a alguna tasa; reducirla a cero es imposible sin destruir la sensibilidad.

Dos parámetros caracterizan a una prueba:

Sensibilidad (tasa de verdaderos positivos): probabilidad de que la prueba dé positivo cuando la condición está presente.
Especificidad (1 − tasa de falsos positivos): probabilidad de que dé negativo cuando la condición está ausente.

Una prueba con 99% de sensibilidad y 99% de especificidad parece excelente. Pero su utilidad depende del prior, no solo de estos parámetros.

La falacia de la frecuencia base

Cuando la condición es rara, una prueba positiva no equivale a confirmación, ni de lejos. La intuición humana suele ignorar la tasa base (la frecuencia con que el evento ocurre en la población) y razonar solo con la fiabilidad aparente de la prueba. Es la falacia de la frecuencia base (base rate fallacy), descrita en la psicología cognitiva por Daniel Kahneman y Amos Tversky.

El caso paradigmático es el cribado médico. Si una enfermedad afecta al 0.1% de la población y se aplica una prueba con 99% de sensibilidad y 99% de especificidad:

Verdaderos positivos esperados: 0.001 · 0.99 = 0.00099.
Falsos positivos esperados: 0.999 · 0.01 = 0.00999.
Probabilidad de que un positivo sea real: 0.00099 / (0.00099 + 0.00999) ≈ 9%.

Una prueba “99% precisa” deja al paciente con menos del 10% de probabilidad de tener la enfermedad tras un positivo. La intuición no calibrada sobreestima esta probabilidad por un factor de diez.

Implicaciones prácticas

Cribado masivo. En enfermedades raras, el cribado masivo produce más falsos positivos que verdaderos. Esto justifica las pruebas confirmatorias y las restricciones de cribado a poblaciones de mayor prior (edad, antecedentes).
Justicia y vigilancia. Sistemas de detección automática (reconocimiento facial, perfilado predictivo) sufren la misma asimetría: aplicados a poblaciones grandes con priors bajos, generan falsos positivos masivos con consecuencias desproporcionadas.
Diagnóstico médico individual. Razonar bayesianamente exige conocer la prevalencia local, no solo la fiabilidad de la prueba.
Investigación científica. El problema de la p-hacking y la crisis de replicabilidad son variantes del mismo error: tratar un resultado significativo como evidencia decisiva sin ponderar el prior de la hipótesis.

Conexión con el pensamiento bayesiano

El falso positivo no es solo un problema de calidad de la prueba. Es la consecuencia natural de aplicar el teorema-de-bayes cuando el prior es bajo. Por eso un test positivo en una enfermedad rara, o un detector que suena al instante en un desierto inmenso, deben mover la creencia menos de lo que la intuición sugiere.

Dónde aparece en Nuevas Ciencias

¿Estoy embarazado?: la prueba positiva de embarazo en el hijo adolescente es el caso ilustrativo. La sección “El teorema de Bayes” hace el cálculo y muestra cómo la posterior queda en el orden de uno por millón pese al positivo. Pie de nota 4 menciona explícitamente la falacia de la frecuencia base con el ejemplo del cáncer de mama.

Conceptos vecinos

Fuentes

Wikipedia EN: Type I and type II errors (Tier 1)
Wikipedia EN: Base rate fallacy (Tier 1)
Gigerenzer, G. (2002). Calculated Risks: How to Know When Numbers Deceive You. Simon & Schuster. (Tier 2)

Explorador