Aprendizaje reforzado. Inteligencia Artificial con todo el tiempo del mundo.

Aprendizaje reforzado. Inteligencia Artificial con todo el tiempo del mundo.

En su libro “Maestría”, el escritor estadounidense Robert Greene sostiene que se necesitan más de 10,000 horas para adquirir el conocimiento práctico necesario para dominar con maestría una actividad. Esto equivale a 4 horas diarias, 6 días a la semana, durante 8 años. La idea parece razonable a la luz de las horas que, desde muy temprana edad, deportistas o músicos profesionales dedican a practicar. De la misma manera, parece razonable pensar que a una persona le tome cinco años, a jornada completa, convertirse en un experto de su actividad.

Un ejemplo ilustrativo de este concepto es el sistema de aprendizaje de oficios de la Edad Media, en el que adolescentes trabajaban 7 años como aprendices en el taller de un maestro. Allí, a base de observar a su mentor, de repeticiones interminables y del castigo ante el error, los jóvenes aprendían a dominar el oficio. Hoy en día, afortunadamente en circunstancias más amigables, los mismos principios de mentoría, repetición y evitar el error, son aplicables a cualquier proceso de aprendizaje.

Medieval-carpenters-working_400jpg

Imagen publicada aquí

De acuerdo con Greene, la orientación de un mentor evita perder años valiosos en experimentación; sin ella, el tiempo para alcanzar la maestría es mucho mayor. Pero ¿qué pasa si tienes todo el tiempo del mundo? ¿qué pasa si podemos viajar a una dimensión en la que el tiempo corre a un ritmo diferente, pasar decenas o cientos de años experimentando sin consecuencias con una actividad y regresar a casa con la habilidad adquirida, después de sólo semanas o meses? Pues eso es precisamente lo que logra el área de la inteligencia artificial (IA) conocida como Aprendizaje Reforzado.

El aprendizaje reforzado (RL por sus siglas en inglés) estudia las técnicas para que un programa pueda elegir las acciones a tomar en un entorno, con el fin de maximizar una recompensa. En palabras de Richard S. Sutton y Andrew G. Barto, de los principales pioneros del campo, el RL consiste en aprender qué hacer; es descubrir, probándolas, las acciones que producen la mayor recompensa. Este mecanismo es utilizado por el ser humano y otros animales para aprender, por lo que el desarrollo del RL corre paralelo y se retroalimenta de la psicología y la neurociencia.

Todo parte de una idea muy sencilla, el ciclo acción-recompensa, el cual funciona de la siguiente manera. En un momento t el entorno que nos rodea está en una situación St, en la que tomamos una acción At. Nuestra acción produce un cambio en el entorno, por lo que al momento siguiente t+1 estamos en una nueva situación St+1 y recibimos una señal de recompensa Rt+1, que nos indica si fue bueno el resultado de la acción que tomamos. Con esta información elegimos una acción At+1, que al siguiente momento t+2 nos lleva a la situación St+2 y una nueva señal de recompensa Rt+2. El ciclo continúa así hasta que termina nuestra interacción con el entorno.

Blog 27_853gif

Es como una niña pequeña que aprende a caminar. Para llegar a donde está su papá da con timidez un paso, cambia la situación y recibe una señal de recompensa, el dolor de una caída o las palabras que le alientan a seguir. Da otro paso y recibe una nueva señal, otro más y otro más, hasta que alcanza los brazos de papá o se cae y termina también en sus brazos, pero llorando. Eventualmente, sin reglas o razonamiento consciente, la niña aprende que tipo de movimientos y velocidad son los que le permiten caminar con seguridad y llegar a donde quiere llegar sin caídas ni dolor.

Las variaciones a este modelo para reflejar las características de diversos tipos de problemas, generan las líneas de investigación del RL. Por ejemplo, ¿qué pasa si las acciones que podemos tomar forman un continuo, como las posiciones del volante de un automóvil? ¿cuánta importancia hay que dar a la recompensa inmediata (el dolor) y cuánta a la recompensa final (llegar a papá)? ¿cómo se tratan las interacciones que nunca terminan? ¿debe elegirse la acción, a partir de una regla que indique la acción óptima para cada estado del entorno, o con base en una manera de calcular la recompensa total que puede esperarse de una acción? Estas y otras variaciones dan lugar a distintos modelos, técnicas y algoritmos para lograr el aprendizaje en dichas circunstancias.

Armados de estas herramientas, en entornos simulados con poderosas redes de computadoras, sistemas de RL ensayan miles o millones de veces un problema hasta encontrar las acciones que maximizan la recompensa definida, sin reglas o conocimientos previos. De esta forma, experimentan el equivalente de cientos de años o miles de años en semanas o meses. De acuerdo con el artículo que describe el proyecto AlphaGo Zero, un sistema que aprendió por sí mismo el juego Go y que venció al programa que le ganó al campeón surcoreano Lee Sedol, el programa entrenó 29 millones de partidas, lo que hubiera llevado 3,700 años a un ser humano.

Hoy se explora la aplicación del RL en ámbitos que incluyen, además de la resolución de juegos, temas como el entrenamiento de robots para hacer actividades específicas, la asignación de recursos de servicios de cómputo en la nube, la reducción del tráfico con el control de los semáforos, la optimización de reacciones químicas, o las subastas de publicidad en portales y redes sociales. De hecho, cualquier situación que pueda modelarse y simularse puede ser analizada con RL, lo que abre interesantes posibilidades en campos como la estrategia y la negociación, más relacionados con disciplinas sociales y económicas.

cubo_rubikgif

Mano robótica resuelve el cubo de Rubik con aprendizaje reforzado

Si bien el desarrollo reciente del RL se ha visto fortalecido con el uso de redes neuronales para evaluar las recompensas esperadas de una acción, aún tiene limitaciones. Como todas las herramientas de IA, no generan conocimientos que puedan aplicarse en un ámbito distinto al que les dio origen, situaciones muy complejas se vuelven inviables para modelar y simular, sobre todo cuando pasamos al ámbito físico, donde las variables a controlar son muchísimas, y, finalmente, los avances actuales de la robótica restringen las aplicaciones prácticas.

A pesar de ello, en mi opinión el aprendizaje reforzado es una de las áreas que tienen el mayor potencial de incrementar nuestras capacidades humanas. Disponer de una herramienta para ensayar una y otra vez un problema hasta encontrar las acciones que nos permitan resolverlo de la mejor manera, ahorrando años de experimentación y en un entorno simulado sin consecuencias, representa una gran oportunidad. No para que un sistema resuelva las cosas por nosotros, sino para que podamos adquirir la maestría de la que habla Robert Greene no después de años de experiencia, sino sólo de semanas o meses de estudiar simulaciones.

¿Qué opinas? Comparte tus comentarios abajo. ¿Te gustó este artículo? Lee otros artículos de nuestro blog IF Inteligencia Futura aquí.

Visita nuestras secciones