vivo公布AI研究新進展:教會手機打《王者榮耀》
只有一顆做手機的心,肯定是做不好手機的。

上周五凌晨,一場史詩級人機大戰“悄然開場”,代表機器參賽的是Google旗下AI大公司DeepMind開發的全新AI程序AlphaStar,另外一方是2018 WCS Circuit排名13、神族最強10人之一的人類選手MaNa。
結果也正如2年多前的圍棋AI AlphaGo(同樣由DeepMind開發)一般,AlphaStar以10:1的戰績,“完虐”人類職業高手。
要知道,“星際2”這款游戲比圍棋又復雜上了許多:例如動作的種類,圍棋只有361個下棋位置,星際2算上各種技能和走位控制,即便一個84x84分辨率的小屏幕,也有一億多種可能的操作。同時,在玩“星際2”的過程中,玩家并不能看到整個戰場的信息,你甚至還要猜測、估算對方的行動,來進行你自己的規劃和決策。
這么難都能打贏人類,AI這幾年來取得的進展“可見一斑”。
事實上,因為人類一直對AI不完全掌握,再加上AI技術和應用探索的過程中往往需要大量的數據,可以隨意試錯、擁有大量人類數據的電子游戲,一直被視為人工智能最好的實驗平臺之一。因為游戲本身就是認為創造的,用以幫助人來習得某個技能或者測試技能水平的工具。
在某些特定的人工智能方向,如自動駕駛,人們甚至還會專門認為創造一個類似于電子游戲的虛擬世界,用來作為訓練人工智能的環境。
除了上文所提到的DeepMind之外,很多國內公司實際上也在進行著在游戲環境中訓練人工智能的嘗試,其中就包括了vivo,他們所瞄準的正是國內最多人玩的手游之一:《王者榮耀》。
訓練AI打《王者榮耀》這件事
代表vivo向《王者榮耀》發起AI沖擊的,是去年7月成立的“vivo AI Lab”,后者的建立是vivo在2018年年初的vivo戰略發布會上就已經做的決定。

本次“vivo AI Lab”所使用的強化學習架構
在本次對《王者榮耀》挑戰的背后,“vivo AI Lab”專門提出并使用了一種全新的分層強化學習模型。這種神經網絡模型既能夠通過模仿人類來制定宏觀策略,同時還能根據強化學習來保證微觀操作。尤其適應即時戰略游戲(RTS)對于操作的需求。
就《王者榮耀》而言,關鍵性的大局觀包括單元“去哪兒”、“應該何時去支援隊友”、“隊友應該何時一起參加團戰”等。重要的精細化操作則包括“何時閃現”、“何時交出大招”、“多人團戰中應該如何精細走位”、“團戰中應該如何釋放技能”等。

這兩種操作需求實際上相差很大,大局觀層面其實很難量化和計算,所以主要的是先參考人類的數據,進行模仿學習和專家引導。在精細化操作的時候,“vivo AI Lab”直接使用了一種被叫做“多智能體”的強化學習方法。你可以把它看做成百上千個機器人在虛擬團戰走位、技能釋放等操作,其中只有表現最好的能夠留下來。通過不斷的對壘,機器自然而然就學會了最優的操作方式。

最終訓練出來的結果:觀察到電腦開大,馬上閃現然后反身開大,一氣呵成。(圖中方框為圖像識別對象框)
根據“vivo AI Lab”官方公布的成果,經過這一系列神經網絡訓練出來的模型,1V1模式下能以100%的勝率擊敗游戲中的內置AI,同時能夠在5V5模式下以AI戰隊的形式表現出較好的協同性能。
除了游戲AI外,vivo還“做”了更多
在實驗全新深度學習模型的同時,“vivo AI Lab”還更具挑戰性地選擇了一條更難的路徑——不使用游戲的API接口,而是選擇直接從圖像監測并獲取游戲中的各種特征數據。
之前不少公司和機構都曾在電子游戲上發起人工智能挑戰,基本都采用了游戲的API接口。人工智能無需經過圖像分析等手段就可以直接獲知游戲中各個單位、環境的數據。

“AlphaStar”獲取的游戲數據,明顯非常簡潔
以游戲表現上最出色的DeepMind的“AlphaStar”為例,它并沒有直接從圖像中獲取單位的信息,而是從游戲引擎里面讀取特征信息,這些圖像直接標記了哪里是兵或者工廠。

“vivo AI Lab”專門為采集游戲數據所打造的一套深度學習網絡
“vivo AI Lab”則選擇了用另外一套深度學習網絡來捕捉《王者榮耀》中5個英雄的特征,具體的來說,就是把5個英雄對應的大地圖和小地圖數據,通過卷積神經網絡提取信息,結合多目標檢測提取的特征向量,再輸入到上文所提到的分層神經網絡當中。然后各個英雄根據自身狀態環境,決策出不同的動作,實現在各自情況下的對應操作。

雖然這個過程不起眼,但實際上卻可能對人工智能的表現起到很大影響。畢竟實際用戶都是通過手機顯示的圖像來獲取信息的,假如人工智能都從API接口來獲取信息,你又怎么能保證這些信息的層級和精準度都是跟人類從圖像中獲取的一致?
之所以vivo這次額外花力氣填補這一流程,正是想讓人工智能能夠完整模擬人類從看到屏幕上圖像,到實際操作的全過程,讓人工智能的運轉環境條件更接近普通用戶。

分布式神經網絡訓練環境
為了實現同時對多個英雄數據進行采集,并且提高整個《王者榮耀》人工智能模型的采樣效率,樣本多樣性和訓練速度,“vivo AI Lab”還搭建了一整個“分布式強化學習環境”:手機負責游戲的運行、動作執行和數據采集;電腦負責連接手機和服務器,進行強化學習算法選擇、動作決策單元的運轉;云端的GPU服務器集群負責整個神經網絡的運行和存儲。
而在這個環境中,“vivo AI Lab”還更具普適性地直接使用了全開源的gRPC技術,這種技術是HTTP 2.0時代的基礎底層數據框架。這也讓整個“分布式強化學習環境”具有極大的網絡化潛力。
關于這次《王者榮耀》的人工智能嘗試,“vivo AI Lab”還以論文的形式公開刊發了出來,有興趣可以點擊網址查看。
超越成績的一次嘗試
手機廠商來做游戲的AI,乍一聽真的會讓人摸不著頭腦,畢竟最終訓練出來的AI也不太可能被應用到游戲或是真實當中。
但從“vivo AI Lab”此番挑戰的細節來看,你也很難將其簡單地歸為“做游戲AI”。以選擇不使用游戲的API接口、轉而從游戲界面的圖像獲取數據為例,這不僅僅是一個技術上的挑戰,更是vivo著眼于此次AI嘗試未來的適用性。
因為整個深度學習過程中的數據都是從手機終端直接采樣而得,除了其他玩法類似、基礎操作需求相近、圖像識別相近的游戲外,vivo還能利用與本次嘗試相同的架構(手機圖像識別+特定深度學習神經網絡+深度學習網絡化環境),對手機中的各種場景進行學習歸納。最終讓vivo手機從方方面更懂你。
其次是采用gRPC技術來構建整個人工智能學習環境的數據傳輸,要知道在當下的人工智能發展過程中,“如何采集到足夠的樣本數據”和“如何讓盡可能多的用戶用上花大力氣訓練出來的神經網絡”,仍是關鍵性的難點所在。想要解決他們,“網絡化”是唯一可行的路徑。

所以整體看下來,與其說是vivo在做一次游戲AI的嘗試,倒不如說是一次面向未來手機人工智能發展的嘗試。
這種前瞻且大膽的嘗試,也是vivo一直所堅持的,早在去年3月,vivo就在X21上首次發布了“Jovi”人工智能助手,能夠在屏幕中直接識別人物、快遞、景點地址、網址等關鍵信息;負一屏的“智慧場景” ,更能有效地將通勤時間、票務酒店預訂、步數、天氣等信息進行整合展示。去年9月,vivo發布的全新IoT戰略“Jovi物聯”,更讓Jovi能夠方便地適配一系列智能家居產品,讓Jovi成為“把人和數字世界聯系在一起”的控制核心。
因為在世界不斷數字化的當下和未來,人的認知愈發難以跟上數據膨脹的速度,借助AI來提升人類的能力將會是一個重要的解決方案。而vivo,顯然想要幫助自己的用戶首先成為這一類人。
注:本文觀點僅代表作者本人觀點,與本網站無關,本網站亦不對其真實性負責。■
關注我們


