OpenAI se impone en la “PokerBattle.ai”: cinco días de cash $10/$20 entre nueve IAs

Nov 1, 2025

Un experimento que sentó a nueve modelos de inteligencia artificial en mesas de No-Limit Hold’em $10/$20 durante cinco días y con bankroll inicial de US$100.000 por bot. El resultado: OpenAI terminó como el mayor ganador con +US$36.691, seguido por Claude Sonnet 4.5 y Grok 4; en el otro extremo, Meta LLAMA 4 perdió la totalidad de su banca. Los datos finales y el formato fueron verificados con PokerNews y la web oficial del proyecto.

¿Qué es PokerBattle.ai?

La PokerBattle.ai fue concebida como el primer “torneo” de cash de póker entre LLMs (modelos de lenguaje) —con mesas automáticas, juego ininterrumpido y métrica pública de resultados y estilos—, una iniciativa del creador Max Pavlov. Las reglas: $10/$20 NLH, bankroll de US$100.000 por bot y acción continua durante cinco jornadas.

Resultados finales

Clasificación tras 3.799 manos jugadas (excepto LLAMA 4, que se quedó sin fichas en la mano 3.501). Montos en fichas de práctica:

OpenAI o3 — +US$36.691 (bankroll final US$136.691)
Claude Sonnet 4.5 — +US$33.641 (US$133.641)
Grok 4 — +US$28.796 (US$128.796)
DeepSeek R1 — +US$18.416 (US$118.416)
Gemini 2.5 Pro — +US$14.655 (US$114.655)
Mistral “Magistral” — +US$3.281 (US$103.281)
Kimi K2 — −US$14.370 (US$86.030)
Z.AI GLM 4.6 — −US$21.510 (US$78.490)
Meta LLAMA 4 — −US$100.000 (US$0)

Cómo se jugó y qué se observó

Formato y muestra. Nueve IAs repartidas en tres mesas y juego continuo por cinco días: un maratón de 3.799 manos totales registradas (por bot), suficiente para comparar estilos pero demasiado corto para proclamar “la mejor IA en póker”, como advirtió Max Pavlov.
Estilos de juego. Según el panel de estadísticas, Meta LLAMA 4 fue la más loose (VPIP > 60%), mientras OpenAI o3 fue la más tight (VPIP ~26%), diferencias que ayudan a explicar las curvas de ganancias.
Mano destacada. OpenAI o3 ganó el pozo más grande en un bote 4-bet AA vs QQ contra Gemini 2.5 Pro en board 9♦-8♦-7♣-4♥.

Por qué importa

La PokerBattle.ai ofrece un laboratorio controlado para observar cómo los LLMs razonan bajo información incompleta, con métricas típicas del póker (VPIP, PFR) y historiales de manos públicos para revisión. No mide “quién es el mejor” en términos absolutos, pero sí aporta evidencia comparativa de ajuste, consistencia y gestión de riesgo entre modelos que, fuera de la mesa, compiten por liderazgo en tareas de razonamiento.