友快網

導航選單

DeepMind 押注博弈人工智慧系統,在撲克、國際象棋、圍棋等遊戲中表現出色

作者 | Kyle Wiggers

譯者 | Sambodhi

策劃 | 劉燕

DeepMind 是谷歌的母公司 Alphabet 旗下的人工智慧實驗室,它長期以來一直投資於博弈人工智慧。這家實驗室的理念是,博弈儘管沒有明確的商業用途,但它是一個獨一無二的與認知和推理能力有關的挑戰。這使得它們可以作為一個有用的基準來衡量人工智慧的進展。最近數十年,博弈催生了一種可以進行自學習的人工智慧,它可以賦能計算機視覺、自動駕駛汽車,以及自然語言處理。

作為 DeepMind 研究工作的延續,它建立了 Player of Games 的系統,這家實驗室在預印本伺服器 Arxiv。org 上發表的一篇研究論文中,首次披露了這一系統:https://arxiv。org/pdf/2112。03178。pdf

與 DeepMind 之前開發的其他博弈系統不同,如贏得國際象棋的 AlphaZero 、擊敗《星際爭霸 II》(StarCraft II)的 AlphaStar,Player of Games 既能在完美資訊博弈(如中國棋類博弈圍棋和國際象棋)中表現良好,也能在不完美的資訊博弈(如撲克)中表現良好。

像交通擁堵時的路線規劃、合同談判、甚至與客戶的互動等任務都涉及妥協,並考慮到人們的偏好如何重合和衝突,就像在博弈中一樣。即便人工智慧系統是自利的,它們也可能透過協調、合作和在人群或組織之間的互動而受益。因此,諸如 Player of Games 之類的系統,可以對他人的目的和動機進行推理,從而為人工智慧在與他人的協作中取得成功,包括解決與保持信任相關的問題鋪平道路。

不完美資訊博弈與完美資訊博弈

不完美資訊博弈在博弈過程中對 Player 隱藏了資訊。與此形成鮮明對比的是,完美資訊博弈從一開始時就把所有的資訊都展示了出來。

完美資訊博弈,要想取得勝利,必須要有足夠的預先思考和規劃。Player 需要在博弈中解決他們所看到的一切,並且確定他們的對手可能會怎麼做,同時努力實現獲勝的最終目標。而不完美資訊博弈則要求 Player 考慮隱藏的資訊,並思考下一步如何行動才能獲勝,包括可能的虛張聲勢或聯手對抗對手。

AlphaZero 這樣的系統在象棋等完美資訊博弈中表現出色,而諸如 DeepStack 和 Libratus 等演算法在撲克這樣的不完美資訊博弈中表現得非常好。但 DeepMind 宣稱,Player of Games 是首個“通用且健全的搜尋演算法”,它在完美資訊博弈和不完美資訊博弈都表現不錯。

儘管 Player of Games 具有極強的通用性,但它不能僅僅進行任何博弈。Schmid 說,這個系統必須要把博弈中的每一個 Player 所有可能的視角都考慮進去。儘管在完美資訊博弈中只有一個視角,但是在不完美資訊博弈中,這樣的視角可以有很多,比如,撲克有大約 2000 個視角。另外,與 DeepMind 的 AlphaZero 的繼任者 MuZero 不同,Player of Games 還需要了解它所進行的博弈的規則。MuZero 能夠隨時掌握完美資訊博弈的規則。

在研究中,DeepMind 透過谷歌的 TPUv4 加速晶片,在國際象棋、圍棋、德州撲克和戰略棋盤博弈蘇格蘭場(Scotland Yard)對 Player of Games 進行了評估。對於圍棋,DeepMind 在 AlphaZero 和 Player of Games 之間設定了一場 200 局的比賽;對於國際象棋,DeepMind 讓 Player of Games 與 GnuGo、Pachi、Stockfish、AlphaZero 等頂級系統進行較量。Player of Games  的德州撲克比賽是與公開的 Slumbot 進行的,該演算法與 Joseph Antonius Maria Nijssen 研發的機器人進行了蘇格蘭場比賽,DeepMind 的合作者們為其起了暱稱“PimBot”。

蘇格蘭場的抽象檢視,Player of Games 可以持續獲勝

在國際象棋和圍棋中,事實證明,Player of Games 在某些方面(但並非所有方面)勝過 Stockfish 和 Pachi,並在與最強的 AlphaZero 智慧體的較量中,贏得了 0。5% 的比賽。雖然敗於 AlphaZero,但 DeepMind 相信,Player of Games 在博弈中的表現和“頂級人類業餘選手”相當,甚至可能達到了專業水準。

Player of Games 是一個更好的撲克和蘇格蘭場 Player 。在與 Slumbot 的比賽中,這個演算法平均每手贏了 7 個百萬大盲注(百萬大盲注 / 手),其中百萬大盲注 / 手是指每 1000 手贏得的平均大盲注數(大盲注等於最小賭注)。同時,在蘇格蘭場,DeepMind 報告說,Player of Games 在對陣 PimBot 時獲得了“顯著 ”的勝利,儘管 PimBot 擁有更多的機會去搜索獲勝的動作。

今後的工作

Schmid 認為,Player of Games 是邁向真正的通用博弈系統的一大步,但遠非最後一步。這個實驗的總體趨勢是,如果有更多的計算資源,則演算法會表現得更好(光是蘇格蘭場就有 1700 萬步或動作的資料集訓練 Player of Games),Schmid 預期這種方法會在可預見的未來得到推廣。

Schmid 說:“我們期望從 AlphaZero 中受益的應用也能從 Player of Games 中受益。使這些演算法更具通用性,是一項令人興奮的研究。”

毫無疑問,支援大規模計算的方式使得諸如初創公司和學術機構等資源相對匱乏的組織都會陷入劣勢。這在語言領域尤其如此,像 OpenAI 的 GPT-3 這樣的大規模模型,在效能上處於領先地位,但是所需要的資源卻常常高達數百萬美元,這比大多數研究小組的預算都要高。

甚至連 DeepMind 這種資金雄厚的公司,其花費也會超出人們認為可以承受的範圍。AlphaStar 公司的研究者沒有刻意嘗試使用不同的方式來構建一個關鍵元件,原因是他們的高管認為訓練成本過高。DeepMind 在去年首次 實現盈利,當時它的營收為 8。26 億英鎊(11。3 億美元)。此前一年,DeepMind 的虧損為 5。72 億美元,並承擔了 10 億美元的債務。

AlphaZero 的訓練成本 預計 達到了數千萬美元。DeepMind 並未透露 Player of Games 的研發經費,但考慮到每場博弈的訓練步驟數量從幾十萬到幾百萬不等,所以它的經費並不會很少。

當研究最後從博弈過渡到其他更商業化的領域時,如 應用推薦、資料中心冷卻最佳化、天氣預報、材料建模、數學、醫療保健 和 原子能計算,不平等的影響可能會變得越來越明顯。“一個有趣的問題就是,這種水平的博弈是否可以用較少的計算資源就能實現。”Schmid 和他的合作者們在論文中進行了思考——但並沒有給出答案。

股民福利來了!送您十大金股!點選檢視>>

上一篇:40歲的馬伊琍主演新劇,搭檔高顏值男神,離婚後是開掛了嗎?
下一篇:觀賞完老電影《橋》後,我感慨頗多,接下來我為你講述幾個思想