Alucinación (en LLM)

Afirmación falsa que un modelo de lenguaje produce con seguridad aparente. La etiqueta es discutible porque sugiere percepción donde hay generación de texto, pero ya está fijada en la literatura técnica y en el uso público.

La interpretabilidad-mecanica empieza a explicar el mecanismo causal. Una explicación simplificada del caso típico, según el trabajo de Anthropic en circuitos, es esta: el modelo reconoce la entidad por la que se le pregunta, inhibe un circuito de “no lo sé” porque la entidad parece conocida y, si falta el dato solicitado, activa un circuito de invención plausible. La cadena pasa por varios circuitos en interacción.

Esto ayuda a explicar por qué algunas alucinaciones aparecen más con entidades reconocibles que con nombres claramente inventados. Si el modelo detecta que algo pertenece a su espacio de conocimiento, puede comportarse como si también conociera detalles específicos que no posee. La alucinación funciona entonces como un falso positivo interno: el sistema se reporta a sí mismo como sabiendo cuando no sabe.

Dónde aparece en Nuevas Ciencias

  • ¿Qué dicen las máquinas?: el ensayo usa la alucinación como caso de prueba para mostrar cómo un fenómeno antes opaco puede trazarse mediante circuitos.

Conceptos vecinos

Fuentes