《Science》又一突破!美國軍方AI在1對多賭博中擊敗了人類世界冠軍-肽度TIMEDOO

《Science》雜志發(fā)表了一項由卡內(nèi)基梅隆大學(xué)的科學(xué)家領(lǐng)導(dǎo)的研究,他們開發(fā)的人工智能程序(Pluribus)在6人不限牌德州撲克中擊敗了人類頂級專業(yè)選手。美國陸軍參與資助了這項研究的數(shù)學(xué)建模部分,F(xiàn)acebook則承擔(dān)為撲克玩家提供獎金。

“這都是戰(zhàn)略問題,”美國陸軍研究辦公室網(wǎng)絡(luò)科學(xué)部處長Purush Iyer博士說?!伴L期以來,博弈論中的一個限制因素是其可擴(kuò)展性(即處理指數(shù)增長狀態(tài)空間的能力)。玩撲克牌是一個很好的例子,可以解釋數(shù)學(xué)模型如何被設(shè)計情景策略來應(yīng)對缺乏完整信息的對手——不知道對手會做什么,他們有什么能力?!?/p>

他說,這項研究與許多現(xiàn)實問題和軍事挑戰(zhàn)(如網(wǎng)絡(luò)安全和國家防御)極為相關(guān)。

撲克牌一直是人工智能的一個難以攻克的瓶頸。與象棋、圍棋等游戲不同,撲克大戰(zhàn)不是一個“完整的”信息游戲,玩家不能確定哪些牌在對家手里,對家也許會虛張聲勢,這非常像軍事戰(zhàn)略。

去年畢業(yè)于計算機(jī)科學(xué)系并隨后加入Facebook AI的Noam Brown博士與計算機(jī)科學(xué)系教授Tuomas Sandholm博士共同開發(fā)了Pluribus,他說:“開發(fā)六人游戲的AI游戲策略與一對一游戲的基礎(chǔ)完全不同?!?/p>

Pluribus首先通過與它自己的6個副本來計算策略藍(lán)圖,這足以應(yīng)對第一輪博弈。從此刻起,Pluribus將在更細(xì)粒度的游戲抽象概念中對可能的出牌進(jìn)行更詳細(xì)的搜索。它只能往前預(yù)測幾步,而禁止看到比賽結(jié)果。有限的前瞻性搜索對信息完整的游戲是有幫助的,但對不完全信息游戲來說則是災(zāi)難。一種新型有限的前瞻性搜索算法是Pluribus在超多人玩家撲克牌游戲中取勝的關(guān)鍵,并且Pluribus只需非常少的處理能力和內(nèi)存就能進(jìn)行訓(xùn)練。

該軟件還試圖做到了不可預(yù)測。例如,當(dāng)AI拿到了最好的牌,無疑下注是有意義的,但是如果AI只在拿好牌時下注,對手們就會發(fā)現(xiàn)破綻。因此,Pluribus需要計算可能拿到的每一手牌的表現(xiàn),從而規(guī)劃一個在所有可能性之間平衡的策略。

在美國陸軍的資助下,Sandholm和他的其他學(xué)生們正在開發(fā)利用Pluribus進(jìn)行生物指導(dǎo)的相關(guān)技術(shù),比如一些優(yōu)化治療計劃,引導(dǎo)患者的免疫系統(tǒng)更好地對抗癌癥、自身免疫疾病和感染等。

之前的博弈論研究正在被交通安全管理局、美國海岸警衛(wèi)隊和洛杉磯地鐵使用,以減少這些組織的安全成本,同時增加敵對方成本從而減少本國被攻擊的機(jī)會。

此外,博弈論的基礎(chǔ)研究已經(jīng)用于民間,比如減少東南亞虎偷獵、解決無家可歸問題以及在洛杉磯開展艾滋病預(yù)防工作。

“在不遠(yuǎn)的將來,Sandholm他們的工作將以多種方式用于解決社會問題,Sandholm博士的新工作是博弈論一個令人興奮的進(jìn)步,其能量是巨大的,”Iyer說。

原文檢索:Superhuman AI for multiplayer poker

來源:生物通