El problema del póker para la IA
Durante décadas, el póker fue considerado uno de los últimos bastiones donde la inteligencia humana resistía a las máquinas. A diferencia del ajedrez o el go —juegos de información perfecta donde ambos jugadores ven el tablero completo—, el póker es un juego de información incompleta: cada jugador conoce sus cartas pero no las de los rivales.
Esta característica hace el póker radicalmente más difícil para los sistemas de IA. En el ajedrez, la profundidad de búsqueda es el problema principal (hay muchas posiciones posibles, pero todas son visibles). En el póker, además de la complejidad combinatoria, el sistema debe razonar sobre lo que el rival sabe y lo que el rival cree que el sistema sabe: un problema de modelización de estados de creencia anidados que es matemáticamente mucho más complejo.
Libratus (2017): el primero en vencer a los mejores
En enero de 2017, en el Rivers Casino de Pittsburgh, Pennsylvania, cuatro de los mejores jugadores de póker heads-up del mundo se sentaron a jugar contra Libratus, un programa de IA desarrollado por Tuomas Sandholm y Noam Brown de la Universidad Carnegie Mellon.
El formato fue exhaustivo: 120.000 manos de Texas Hold’em heads-up sin límite a lo largo de 20 días. Los cuatro jugadores —Jason Les, Dong Kim, Daniel McAulay y Jimmy Chou— podían consultarse entre sí y ajustar su estrategia. Libratus les venció a todos, con un margen de 14,7 ciegas grandes por 100 manos, una diferencia estadísticamente aplastante.
Lo que hizo Libratus diferente de los programas anteriores fue su capacidad de auto-mejora durante el torneo: cada noche, el sistema analizaba sus propias debilidades del día —detectadas por los intentos de explotación de los jugadores humanos— y las corregía antes de la sesión siguiente. Los humanos encontraban una debilidad; al día siguiente, había desaparecido.
Pluribus (2019): cinco contra uno, y gana la máquina
Si Libratus fue extraordinario, Pluribus fue aún más ambicioso. En julio de 2019, el equipo de Facebook AI Research y Carnegie Mellon (de nuevo con Noam Brown) anunció que su nuevo sistema de IA había derrotado a cinco jugadores profesionales simultáneamente en una mesa de seis jugadores de Texas Hold’em.
El salto conceptual es enorme. El juego de varios jugadores es radicalmente más complejo que el heads-up porque las coaliciones implícitas, las dinámicas de mesa y los efectos de la información compartida entre rivales multiplican exponencialmente el espacio de estrategias posibles.
Entre los jugadores derrotados estaban Chris Ferguson (campeón de la WSOP Main Event), Darren Elias (el jugador con más títulos en la historia del WPT) y otros profesionales de primer nivel. Pluribus les venció en un torneo de 10.000 manos con una diferencia estadísticamente significativa.
Cómo Pluribus aprendió a jugar sin ver manos humanas
El aspecto más sorprendente de Pluribus es la forma en que aprendió. A diferencia de muchos sistemas de IA que aprenden analizando grandes cantidades de datos humanos, Pluribus aprendió principalmente jugando contra versiones anteriores de sí mismo (un proceso llamado self-play). Sin ver apenas manos humanas, el sistema llegó a estrategias que en muchos casos coinciden con lo que los mejores jugadores del mundo consideran correcto, y en otros casos encontró soluciones propias que los humanos no habían considerado.
El impacto en el estudio del póker
Los solvadores de póker —versiones simplificadas y accesibles de las técnicas que usan Libratus y Pluribus— han transformado el estudio del juego a nivel profesional. Programas como PioSolver, GTO+ o Solver permiten a cualquier jugador analizar situaciones concretas (un tablero, un tamaño de bote, una distribución de rangos) y obtener la estrategia matemáticamente óptima.
Los mejores jugadores del mundo dedican horas diarias al análisis con solvers. La consecuencia es que el nivel del juego de alto rendimiento ha subido drásticamente en la última década: lo que era estrategia avanzada hace diez años hoy es conocimiento básico entre los profesionales. La IA no ha eliminado al jugador humano del póker, pero ha redefinido completamente lo que significa jugar bien.