Nepřekonatelný počítačový program konečně vyřešil limit Texas Hold'em poker pro dva hráče
Program také ukazuje, že hraní na druhém místě je výhodné

Limit pro dva hráče Texas Hold’em poker byl podle konečného řešení vyřešenstudiepublikoval vVědadnes. Vědci navrhli počítačový program s názvem Cepheus se strategií pro hru, která je tak blízko dokonalosti, že statistická analýza ukazuje, že ji hráč lidského pokeru nemůže porazit, i když tento hráč celý život soutěžil s počítačem. . To znamená, že bez ohledu na to, jak hra začíná, počítač zvítězí nebo přeruší i v dlouhodobém horizontu - což je v zásadě nepřekonatelné.
Z dlouhodobého hlediska je to v zásadě nepřekonatelné
„Neříkáme, že je zaručeno vyhrát peníze na každé jedné straně,“ říká Michael Bowling, počítačový vědec z University of Alberta a spoluautor studie. „Říkáme, že z dlouhodobého hlediska, pokud se podíváte na všechny ruce, které by se mohly stát, a zprůměrujete všechny, pak počítač nemůže ztrácet, rychlostí ztráty - musí to být buď vyrovnaný nebo vítězný. “
Řešení hry jako poker je obrovský výpočetní úspěch. (Vyřešit hru v zásadě znamená navrhnout program, který se po dlouhou dobu nemůže ztratit.) Jednodušší hry, jako je tic-tac-toe, lze snadno vyřešit. Většina lidí nakonec pochopí, jak vyhrát nebo nakreslit hru tic-tac-toe jednoduše tím, že hraje několikrát. Ale jiné hry jsou mnohem těžší. Šachy a dáma jsou složité a nabízejí tisíce možných scénářů, na které musí počítače reagovat. Ani tyto hry však nejsou tak těžké vyřešit poker, protože v pokeru nemáte všechny informace - nevíte, jaké karty váš soupeř drží.''Perfektní informační hry, jako jsou šachy nebo dáma, jsou hry, kde jsou všechny informace, které potřebujete, abyste se mohli rozhodnout, uloženy na tabuli, “říká Bowling. Ale poker není takový; je to „nedokonalá informační hra“ a díky tomu je vývoj strategie mnohem obtížnější.
Fáze školení zahrnovala 200 počítačů
Způsob, jakým program funguje, je ve skutečnosti velmi jednoduchý: vše, co musí během hry udělat, je prohledat databázi předvypočítaných herních situací a najít v daném okamžiku nejoptimálnější tah. Vytvoření této databáze však zdaleka nebylo snadné. „Měli jsme tuto tréninkovou fázi, kdy program začal hrát uniformu náhodně proti sobě,“ což znamená, že „neměl tušení, co dělá, kromě dodržování pravidel hry,“ vysvětluje Michael Johanson, počítačový vědec také na univerzitě Alberty a spoluautorem studie. Ale jak se počítač sám hrál, zlepšil se a aktualizoval svoji strategii.
„Dělá to tak, že přemýšlí o všech možných rozhodovacích bodech a všech možných akcích [které by se od těchto bodů mohly uskutečnit],“ vysvětluje Bowling. Například si program může myslet: „Co když zde zvednu místo náhodného hraní, o kolik více peněz nebo méně peněz bych vyhrál?“ Pokud se rozhodne hrát náhodně a prohraje peníze, vrátí se zpět a spočítá, kolik peněz by vyhrálo, kdyby místo toho zvýšilo. Toto množství se poté uloží jako hodnota lítosti, říká. 'A tak spočítá to číslo lítosti pro každou akci, každé místo, které může učinit,' Takže pokaždé, když hraje ruku, program posune svou strategii tak, aby začal dělat to, čeho litoval, že v minulých hrách nedělal častěji. A jakmile se Cepheus sám aktualizoval, přiblížil se k tomu, co Bowling nazývá „dokonalá hra“.
„V tomto bodě jsme se zastavili, protože to nemůžeme rozeznat, abychom nebyli dokonalí.“
Fáze školení trvala 70 dní a shluk 200 počítačů, každý vyzbrojený 32 GB paměti RAM a 24 centrálními procesorovými jednotkami, říká Johanson. Na konci těchto 70 dnů byla Cepheusova hra téměř dokonalá. 'Mohli bychom to dál trénovat a stále by se to zlepšovalo,' říká Bowling. 'Ale v tomto bodě jsme se zastavili, protože to nemůžeme rozeznat, abychom nebyli dokonalí.' I když program strávil celý život tréninkem, říká, že jeho přiblížení k dokonalosti by ve skutečnosti nemělo velkou hodnotu - „kromě akademické novinky“. Stručně řečeno, další školení Cepheuse by nijak zvlášť nezměnilo úspěšnost programu.
Cepheus byl také schopen prokázat, že hráč, který rozdává karty, a proto jde na druhém místě, má malou výhodu oproti druhému hráči, než dojde k rozdání kterékoli z karet. „Nyní můžeme dokázat, že dealer má výhodu v tom, čemu říkáme„ 88 millablindů “na hru,“ říká Johanson. 'To je 0,888 big blindu na hru.'
dobrodružství čas 4chan
''Pokud vím, jedná se o dosud největší nedokonalou informační hru, která byla v zásadě vyřešena, 'říká Tuomas Sandholm, počítačový vědec z Carnegie Mellon University, který se studie neúčastnil.reportážo studiu také vVědadnes. Je to také „první soutěžně zahraná lidmi, která byla nyní v zásadě vyřešena“.
11 let pokeru
Bowling je součástí týmu vědců, který se poprvé začal zabývat myšlenkou pokerového programu v roce 2003. Tehdy říká, že vytvoření programu, který by dokázal vyřešit hru dvou hráčů s limitem Texas Hold'em, bylo to nejdále od jejich mysli. 'Nemyslím si, že by někdo sníval o tom, že tuto hru vyřešíme.' Místo toho pracovali na vývoji programu, který by dokázal porazit špičkové hráče v heads-up limit pokeru, „nejjednodušší hra, kterou hrají lidé pokeru,“ říká Bowling. V roce 2008 byli úspěšní. Ten program, nazvaný Polaris,prohrál s profesionálními hráčiPhil 'The Unabomber' Laak a Ali Eslami před rokem, ale když to vědci vylepšili, bylo tovyhrál tři ze šesti her a remizoval další.
„Ve skutečnosti jsme do toho zabudovali některé adaptační vlastnosti, abychom se mohli pokusit využít výhod lidských slabostí,“ říká Bowling - něco, co Cepheus nedělá, protože se snaží hrát perfektně, a proto se vyhne nutnosti přizpůsobovat se svým oponentům.
„největší nedokonalá informační hra, která byla v zásadě dosud vyřešena.“
Poté, co Polaris porazil nejlepší hráče, se Bowling a jeho tým museli rozhodnout, co dál. Pokusili by se vyřešit limit Texas Hold’em pro dva hráče, což je složitější hra? „Někdo provedl zadní část výpočtu obálky a vyšlo najevo, že budeme potřebovat čtyři petabajty místa na disku [1 000 000 gigabajtů], jen abychom si po vyřešení hry zapsali řešení,“ říká Bowling. „V té době jsem řekl:„ Myslím, že to potom nemůžeme vyřešit, takže pojďme dál. “„ Ale ostatní vědci z jeho týmu trvali na tom; Nakonec byl možný nákup disků petabyte.
Nakonec řešení hry nezabralo čtyři petabajty místa na disku. „Během toho jsme se naučili několik věcí,“ říká Bowling, „jako byste si mohli vzít všechna srdce a piky a vyměnit si je za obleky,“ říká, což je snížilo na 520 terabajtů. Také přišli na to, jak komprimovat data, aby program mohl rychle přistupovat ke strategii. 'Existuje mnoho těchto technických vyvažovacích úkonů,' říká Bowling. 'Kdyby byla hra o něco větší a věci byly jen o něco pomalejší, možná bychom nebyli schopni to zvládnout.'
Nyní, když vědci vyřešili limit Texas Hold’em pro dva hráče, chtějí pracovat na jiných formách pokeru, jako je heads-up no limit poker. Výzvy hry znamenají, že to pravděpodobně nebudou schopni vyřešit, ale možná budou schopni vytvořit program, který dokáže porazit nejlepší světové hráče. Totéž platí pro hru pro tři hráče s limitem Texas Hold’em. 'Ve hře pro tři hráče neexistuje žádná strategie, která by mohla zaručit, že neprohraje, protože je ve skutečnosti možné, že by se na ní mohli zapojit další dva hráči ve hře.' Dohoda je v soutěžní hře nezákonná, ale je těžké vyčíslit, co to vlastně znamená, říká Bowling. Někteří lidé by to mohli udělat, aniž by si to uvědomili. Přesto říká, že když testovali Cepheuse na dvou dalších počítačích, zdá se, že produkují dobré strategie. 'Prostě nemůžeme říci tolik o tom, zda produkuje optimální strategie,' říká Bowling.
Mohlo by to pomoci vládám nebo společnostem optimalizovat jejich bezpečnostní strategie
Cepheus by mohl skončit mnohem víc než hrát poker. Vědci již přemýšlejí o způsobech, jak by to mohlo pomoci vládám nebo společnostem optimalizovat jejich bezpečnostní strategie a učinit je poté „nepoužitelnými“, říká Bowling. Cepheus mohl například naplánovat hlídky nebo kontrolní stanoviště takovým způsobem, aby zmařil protivníka, který by se mohl pokusit zneužít obrannou strategii. Tento program by mohl být také použit na pomoc lékařům při vylepšení léčby diabetických pacientů. Pokud se změní jejich strava nebo úroveň aktivity, program dokáže spočítat optimální odezvu, přičemž zohlední libovolný počet nejistot.
'To všechno mě zaujalo,' říká Bowling. 'Možná právě proto, že jsme dosáhli tohoto milníku, opravdu chci, aby měli aplikace mimo pokerový prostor.' Bowlingova touha po odchodu ze hry samozřejmě mohla mít něco společného s jeho názorem na poker. „Nemám trpělivost hrát poker,“ říká. 'Ve skutečnosti mi to připadá nudné.' Počítačový vědec hrál poker za poslední rok jen jednou. „Jediný čas, kdy jsem hrál poker za posledních dvanáct měsíců, bylo, když jsem testoval rozhraní našeho současného programu,“ říká Bowling. 'Zahrál jsem asi sto rukou.'
Chcete-li vyzkoušet Cepheusovu strategii nebo hrát proti ní, klikněte zde .