和訊財經端 註冊

Google的AI打敗了柯潔 微軟的AI打敗了“吃豆人”的老婆

2017-06-19 14:24:51 PingWest中文網 

  多年以後,當遊戲們又回憶起被AI支配的恐懼,它們一定會記得:

  在Google的Alpha Go已經玩了大半年《星際爭霸2》、又在圍棋領域打敗了柯潔之後,微軟的AI也終於在《吃豆小姐》遊戲裏揚眉吐氣了。

  去年9月,微軟的首席執行官Satya Nadellaz在開發者大會上表示“我們不會追求AI在遊戲中擊敗人類”,不過他們今年年初收購的人工智能初創公司Maluuba最近發布了一項成果:

  Maluuba開發的AI在《吃豆小姐》(Ms. Pac-Man)Atari 2600版本中取得了這款遊戲的歷史最高分999,990分。

  順便說,在此之前《吃豆小姐》的最高分是人類玩家阿布那·阿什曼保持的933,580分。

《吃豆小姐》遊戲
《吃豆小姐》遊戲

  選擇《吃豆小姐》是因為簡單?不不不,其實是因為它難

  《吃豆人》(Pac-Man)我知道,但是《吃豆小姐》是啥?

  1980年5月,日本南夢宮(NAMCO)株式會社推出了《吃豆人》街機遊戲,並選擇了Midway Games作為這個遊戲的美國發行商。這款遊戲的玩法大家都知道了,就是在遊戲迷宮裏盡可能多地吃水果和白色豆子獲得分數,同時躲避四個幽靈的攻擊。

  不過,初代《吃豆人》遊戲的地圖和幽靈出現的位置都是固定的,熟練玩家閉著眼都知道應該往哪走,所以遊戲本身並沒有什麽難度。

  於是在遊戲發行一周年時,代理商Midway Games的伊利諾斯州分公司就在美國發行了《吃豆人》的非官方強化版《吃豆小姐》(Ms. Pac-Man)。這個強化版本的遊戲不僅把主角換成了吃豆小姐,怪物行動也有了隨機性。在這個版本裏玩家不能再閉著眼玩套路了,每次重玩都要動腦子。

  強化版本推出之後大受玩家歡迎,吃豆小姐也被玩家親切地稱為“吃豆人的老婆”。親爹南夢宮株式會社還能怎麽辦,當然是選擇原諒他們,順便把這個不是自己開發的遊戲版本也編入了正統。

給AI玩的《吃豆小姐》差不多還是這樣的
給AI玩的《吃豆小姐》差不多還是這樣的

  當然研究人員讓AI玩的《吃豆小姐》不是最初的街機版本,而是Atari 2600版。Atari 2600是雅達利(Atari)公司1977年推出的一款家用遊戲主機,包括Alpha Go在內的很多AI目前都在玩。

  Atari主機上的大部分遊戲都很適合機器學習,強化學習功能比較好的AI,只要一遍一遍重復玩就可以獲得高分。當初DeepMind被Google收購,展示的項目之一就是AI玩Atari遊戲的能力。

  Maluubad的研究人員測試了很多遊戲之後發現:對於AI來說,玩《吃豆小姐》比完其它Atari遊戲要難。要讓AI通過迷宮並不是難事,但隨機出現的水果和幽靈卻讓AI面臨的環境變得復雜多了。

  AI是怎麽玩這個遊戲的?

  簡單來說,強化學習就是給定一個環境,如果AI在環境裏做出了正確選擇就給它獎勵。隨機性讓AI在遊戲裏面臨的環境變得復雜了,所以玩有隨機性的遊戲對於AI來說也更有難度。

  為了讓AI在遊戲裏獲得高分,Maluuba公司創造了混合式獎賞架構(Hybrid Reward Architecture),也就是一種把遊戲裏的大問題分解成小問題,再把小問題分發給AI代理來解決的分治策略。

  Maluuba用來玩遊戲是一個頂級AI代理和150多個普通AI代理。

  每個普通AI代理都是相互獨立的,它們分別精通《吃豆小姐》的一部分技巧:有的負責吃水果,有的負責吃豆子,有的負責躲避幽靈。

  頂級AI代理的工作,就是綜合考慮每個普通AI代理的意見,然後做出往哪邊走的決策。

  決策的考慮因素有兩個:一個是建議往某方向走的普通AI代理的數量,另一個是普通AI代理建議的強度。

  比方說有100個普通AI代理建議向左、50個普通AI代理建議向右,那麽從數量上看就選擇左走;但如果50個AI建議向右的原因是左側有幽靈走過去會死,那麽從建議強度上就應該選擇向右。

  至於這麽做的原理,Maluuba公司發表的研究論文裏是這樣解釋的:

  將任務分解成具有定義權重的離散目標可以降低“問題的規模大小”,從而使復雜問題變得簡單。

Google的AI打敗了柯潔,微軟的AI打敗了“吃豆人”的老婆

  蒙特利爾學習算法研究所所長Yoshua Bengio在接受外媒采訪時表示:

  這種解決方法非常像人類的大腦,如果人工智能能夠掌握這種分治策略,就能利用有限的信息來完成更加復雜的任務,人工智能技術也就會向前邁進一大步。

  Yoshua Bengio所長是Maluuba公司的技術顧問。

  也有反對者認為Maluuba公司的測試方法有問題。Maluuba公司事先已經把獎勵和懲罰的權重寫到了AI程序裏,在遊戲開始之前,AI就已經知道了幽靈是壞的、水果和豆子是好的。別的AI都是在玩遊戲的過程裏學習到哪些行為會得到獎勵、哪些行為會被懲罰,但是Maluubad的AI從一開始就知道這些了。

  反對者認為AI在遊戲過程中並沒有從環境裏發現任何情報,只是根據獎勵權重去決定收集豆子和水果、躲避幽靈,這根本不是在進行機器學習,因為AI在玩遊戲的過程裏根本就沒學到任何東西。

  Maluuba目前專註於長期的人工智能研究,在微軟內部獨立運作,不過AI在《吃豆小姐》遊戲裏學到的東西還是會被應用到微軟的銷售和業務工具Dynamics裏,用來幫助用戶判斷銷售線索。

(責任編輯:徐立梅 HT001)
看全文
和訊網今天刊登了《Google的AI打敗了柯潔 微軟的AI打敗了“吃豆人”的老...》一文,關於此事的更多報道,請在和訊財經客戶端上閱讀。
寫評論已有條評論跟帖用戶自律公約
提 交還可輸入500

最新評論

查看剩下100條評論

熱門新聞排行榜

和訊熱銷金融證券產品

【免責聲明】本文僅代表作者本人觀點,與和訊網無關。和訊網站對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,並請自行承擔全部責任。