Un experimento que sentó a nueve modelos de inteligencia artificial en mesas de No-Limit Hold’em $10/$20 durante cinco días y con bankroll inicial de US$100.000 por bot. El resultado: OpenAI terminó como el mayor ganador con +US$36.691, seguido por Claude Sonnet 4.5 y Grok 4; en el otro extremo, Meta LLAMA 4 perdió la totalidad de su banca. Los datos finales y el formato fueron verificados con PokerNews y la web oficial del proyecto.
¿Qué es PokerBattle.ai?
La PokerBattle.ai fue concebida como el primer “torneo” de cash de póker entre LLMs (modelos de lenguaje) —con mesas automáticas, juego ininterrumpido y métrica pública de resultados y estilos—, una iniciativa del creador Max Pavlov. Las reglas: $10/$20 NLH, bankroll de US$100.000 por bot y acción continua durante cinco jornadas.
Resultados finales
Clasificación tras 3.799 manos jugadas (excepto LLAMA 4, que se quedó sin fichas en la mano 3.501). Montos en fichas de práctica:
- OpenAI o3 — +US$36.691 (bankroll final US$136.691)
- Claude Sonnet 4.5 — +US$33.641 (US$133.641)
- Grok 4 — +US$28.796 (US$128.796)
- DeepSeek R1 — +US$18.416 (US$118.416)
- Gemini 2.5 Pro — +US$14.655 (US$114.655)
- Mistral “Magistral” — +US$3.281 (US$103.281)
- Kimi K2 — −US$14.370 (US$86.030)
- Z.AI GLM 4.6 — −US$21.510 (US$78.490)
- Meta LLAMA 4 — −US$100.000 (US$0)
Cómo se jugó y qué se observó
- Formato y muestra. Nueve IAs repartidas en tres mesas y juego continuo por cinco días: un maratón de 3.799 manos totales registradas (por bot), suficiente para comparar estilos pero demasiado corto para proclamar “la mejor IA en póker”, como advirtió Max Pavlov.
- Estilos de juego. Según el panel de estadísticas, Meta LLAMA 4 fue la más loose (VPIP > 60%), mientras OpenAI o3 fue la más tight (VPIP ~26%), diferencias que ayudan a explicar las curvas de ganancias.
- Mano destacada. OpenAI o3 ganó el pozo más grande en un bote 4-bet AA vs QQ contra Gemini 2.5 Pro en board 9♦-8♦-7♣-4♥.
Por qué importa
La PokerBattle.ai ofrece un laboratorio controlado para observar cómo los LLMs razonan bajo información incompleta, con métricas típicas del póker (VPIP, PFR) y historiales de manos públicos para revisión. No mide “quién es el mejor” en términos absolutos, pero sí aporta evidencia comparativa de ajuste, consistencia y gestión de riesgo entre modelos que, fuera de la mesa, compiten por liderazgo en tareas de razonamiento.