Aprendizaje por refuerzo

Familia de métodos de aprendizaje automático en la que un agente aprende a actuar en un ambiente mediante recompensas. El esquema mínimo tiene cinco piezas: agente, ambiente, acciones, estados y recompensa. El agente prueba acciones, observa consecuencias y ajusta una política: una regla, explícita o implícita, para decidir qué hacer en cada situación. La recompensa funciona como una función de utilidad local: no describe todo lo que valoramos, pero sí el número que el sistema aprende a perseguir.

La diferencia con el aprendizaje supervisado marca el resto del campo. En el aprendizaje supervisado, el sistema recibe ejemplos con respuestas correctas. En el aprendizaje por refuerzo no recibe la respuesta correcta paso a paso; recibe una señal de recompensa que puede llegar tarde, ser parcial o ser confusa. El problema central es entonces la asignación de crédito: descubrir qué acción contribuyó al resultado final.

AlphaGo dio al método su demostración pública. Combinó redes neuronales, aprendizaje de partidas humanas, autojuego, búsqueda de árbol y aprendizaje por refuerzo para superar a Lee Sedol en 2016. En los modelos de lenguaje, el término aparece sobre todo en ajustes posteriores al preentrenamiento, como RLHF: aprendizaje por refuerzo a partir de retroalimentación humana. Por eso es una de las piezas técnicas de la lección amarga.

Dónde aparece en Nuevas Ciencias

La lección amarga: aparece como uno de los motores de los avances actuales de IA y como mecanismo central de AlphaGo.

Conceptos vecinos

Fuentes

ACM (2025). Andrew Barto and Richard Sutton Recognized as Pioneers of Reinforcement Learning (Categoría 1).
Sutton, R. S. y Barto, A. G. (2018). Reinforcement Learning: An Introduction (Categoría 2). http://incompleteideas.net/book/the-book-2nd.html
Silver, D., Huang, A., Maddison, C., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature (Categoría 2). https://www.nature.com/articles/nature16961
Google DeepMind: AlphaGo (Categoría 1).

Explorador

Aprendizaje por refuerzo

Dónde aparece en Nuevas Ciencias

Conceptos vecinos

Fuentes

Retroenlaces

Conexiones

Tabla de contenidos

Conexiones