Aprendizaje por refuerzo
Familia de métodos de aprendizaje automático en la que un agente aprende a actuar en un ambiente mediante recompensas. El esquema mínimo tiene cinco piezas: agente, ambiente, acciones, estados y recompensa. El agente prueba acciones, observa consecuencias y ajusta una política: una regla, explícita o implícita, para decidir qué hacer en cada situación. La recompensa funciona como una función de utilidad local: no describe todo lo que valoramos, pero sí el número que el sistema aprende a perseguir.
La diferencia con el aprendizaje supervisado marca el resto del campo. En el aprendizaje supervisado, el sistema recibe ejemplos con respuestas correctas. En el aprendizaje por refuerzo no recibe la respuesta correcta paso a paso; recibe una señal de recompensa que puede llegar tarde, ser parcial o ser confusa. El problema central es entonces la asignación de crédito: descubrir qué acción contribuyó al resultado final.
AlphaGo dio al método su demostración pública. Combinó redes neuronales, aprendizaje de partidas humanas, autojuego, búsqueda de árbol y aprendizaje por refuerzo para superar a Lee Sedol en 2016. En los modelos de lenguaje, el término aparece sobre todo en ajustes posteriores al preentrenamiento, como RLHF: aprendizaje por refuerzo a partir de retroalimentación humana. Por eso es una de las piezas técnicas de la lección amarga.
Dónde aparece en Nuevas Ciencias
- La lección amarga: aparece como uno de los motores de los avances actuales de IA y como mecanismo central de AlphaGo.
Conceptos vecinos
- La lección amarga
- Función de utilidad
- Leyes de escalamiento en IA
- Calidad de datos
- Richard Sutton
- Interpretabilidad mecánica
Fuentes
- ACM (2025). Andrew Barto and Richard Sutton Recognized as Pioneers of Reinforcement Learning (Categoría 1).
- Sutton, R. S. y Barto, A. G. (2018). Reinforcement Learning: An Introduction (Categoría 2). http://incompleteideas.net/book/the-book-2nd.html
- Silver, D., Huang, A., Maddison, C., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature (Categoría 2). https://www.nature.com/articles/nature16961
- Google DeepMind: AlphaGo (Categoría 1).