AI啟蒙:機(jī)器學(xué)習(xí)三大范式,在交互世界初遇NPC (AI產(chǎn)品經(jīng)理智能NPC筆記 S1E01)
智能 NPC 正在重塑數(shù)字世界的交互形態(tài) —— 從開(kāi)放世界游戲中動(dòng)態(tài)博弈的 AI 敵人,到元宇宙中具備情感認(rèn)知的虛擬助手,其技術(shù)落地背后是多學(xué)科知識(shí)的系統(tǒng)化整合。作為深耕 AI 交互領(lǐng)域的從業(yè)者,我將通過(guò) 24 篇遞進(jìn)式技術(shù)博文,構(gòu)建一套覆蓋「基礎(chǔ)理論→技術(shù)實(shí)戰(zhàn)→工程化落地」的完整知識(shí)圖譜,助你掌握可復(fù)用的 AI NPC 開(kāi)發(fā)方法論。
一、為什么需要這套知識(shí)體系?
當(dāng)前 AI NPC 開(kāi)發(fā)面臨三大挑戰(zhàn):
? 知識(shí)碎片化:算法原理、工程實(shí)現(xiàn)、產(chǎn)品落地等環(huán)節(jié)缺乏體系化串聯(lián),難以形成完整技術(shù)棧
? 工具適配難:Mac 芯片環(huán)境配置、國(guó)產(chǎn)大模型部署等實(shí)操細(xì)節(jié)缺乏系統(tǒng)性指南
? 落地成本高:個(gè)人開(kāi)發(fā)者難以跨越技術(shù)門檻,企業(yè)項(xiàng)目常因流程不規(guī)范導(dǎo)致效率低下
本系列聚焦「可落地的工程化思維」,以「理論解析→工具選型→實(shí)戰(zhàn)驗(yàn)證→產(chǎn)品化評(píng)估」為主線,打造從技術(shù)原理到商業(yè)落地的閉環(huán)體系。每篇內(nèi)容嚴(yán)格遵循需求文檔中的「漸進(jìn)式學(xué)習(xí)曲線」,確保個(gè)人開(kāi)發(fā)者可獨(dú)立完成實(shí)操,企業(yè)團(tuán)隊(duì)能直接復(fù)用方法論。
二、24 篇內(nèi)容的遞進(jìn)邏輯:從地基到高樓的五層架構(gòu)
整個(gè)系列按技術(shù)復(fù)雜度分為五大模塊,每模塊包含明確的知識(shí)節(jié)點(diǎn)和階段成果:
模塊一:基礎(chǔ)理論篇(4 篇)—— 夯實(shí)技術(shù)地基
核心價(jià)值:建立 AI NPC 技術(shù)認(rèn)知坐標(biāo)系
知識(shí)重點(diǎn):
? 機(jī)器學(xué)習(xí)三大學(xué)派(監(jiān)督學(xué)習(xí) / 無(wú)監(jiān)督學(xué)習(xí) / 強(qiáng)化學(xué)習(xí))在 NPC 中的差異化應(yīng)用
? NLP、CV、RL 等核心技術(shù)如何賦能 NPC 的「聽(tīng)、看、決策」能力
? 國(guó)產(chǎn)工具鏈入門:百度 BML 建模平臺(tái)、ChatGLM3 本地部署實(shí)戰(zhàn)(僅供參考)
階段成果:掌握 AI NPC 技術(shù)選型的底層邏輯,完成基礎(chǔ)對(duì)話 NPC 原型搭建
模塊二:認(rèn)知構(gòu)建篇(3 篇)—— 定義智能邊界
核心價(jià)值:建立 AI NPC 能力評(píng)估與需求管理體系
知識(shí)重點(diǎn):
? 四維能力模型(認(rèn)知 / 決策 / 表達(dá) / 進(jìn)化)量化評(píng)估標(biāo)準(zhǔn)
? 從《仙劍》腳本 NPC 到《賽博朋克 2077》大模型 NPC 的技術(shù)演進(jìn)路徑
? 產(chǎn)品經(jīng)理專屬:AI NPC 需求文檔規(guī)范(含不確定性管理?xiàng)l款)
行業(yè)案例:拆解《逆水寒》NPC 系統(tǒng)的技術(shù)架構(gòu)與用戶體驗(yàn)設(shè)計(jì)
模塊三:技術(shù)基礎(chǔ)篇(6 篇)—— 攻克核心模塊
核心價(jià)值:掌握 NPC 系統(tǒng)的工程化實(shí)現(xiàn)路徑
知識(shí)重點(diǎn):
? 對(duì)話系統(tǒng)、記憶存儲(chǔ)、多模態(tài)交互等核心模塊的架構(gòu)設(shè)計(jì)
? Mac 芯片專屬優(yōu)化:PyTorch-MPS 加速配置、Core ML 模型轉(zhuǎn)換教程
? 實(shí)戰(zhàn)工具:Unity Behavior Designer 可視化行為樹(shù)、PaddleSpeech 語(yǔ)音識(shí)別集成
階段成果:第 12 篇完成「迷宮尋路智能體 Demo」,實(shí)現(xiàn) NPC 基礎(chǔ)決策能力
模塊四:進(jìn)階實(shí)戰(zhàn)篇(6 篇)—— 拓展復(fù)雜場(chǎng)景
核心價(jià)值:解決規(guī)?;涞氐年P(guān)鍵挑戰(zhàn)
知識(shí)重點(diǎn):
? 端到端開(kāi)發(fā)全流程:從數(shù)據(jù)集構(gòu)建到引擎集成的 20 + 優(yōu)化技巧
? 分布式系統(tǒng)、內(nèi)容安全、輕量化部署等企業(yè)級(jí)解決方案
? 多智能體協(xié)作:Mesa 庫(kù)模擬 NPC 社交網(wǎng)絡(luò)涌現(xiàn)現(xiàn)象
實(shí)戰(zhàn)案例:某 MMO 游戲 NPC 對(duì)話跳出率降低 37% 的 AB 測(cè)試復(fù)盤
模塊五:專業(yè)拓展篇(5 篇)—— 探索前沿邊界
核心價(jià)值:構(gòu)建技術(shù)視野與職業(yè)能力體系
知識(shí)重點(diǎn):
? AI 倫理、神經(jīng)符號(hào)系統(tǒng)、元宇宙架構(gòu)等前沿議題深度解析
? 工程化實(shí)踐:Jenkins+Docker+K8s 全流程自動(dòng)化部署
? 職業(yè)發(fā)展:AI 產(chǎn)品經(jīng)理能力雷達(dá)圖(技術(shù) / 產(chǎn)品 / 行業(yè)三維度評(píng)估)
產(chǎn)出物:第 24 篇提供「職業(yè)能力發(fā)展模型」,含認(rèn)證體系與資源地圖
三、系列特色:為落地而生的三大保障
1. 本土化工具鏈全覆蓋
- 推薦方案:ChatGLM3-6B(本地推理)、Unity ML-Agents(強(qiáng)化學(xué)習(xí))、Stable Diffusion(視覺(jué)生成)
- 替代方案:文心 ERNIE(API)、MindSpore Reinforcement(國(guó)產(chǎn)框架)、騰訊 ARC Lab(視覺(jué)工具)
- 設(shè)備適配:所有案例 100% 支持 Mac M1 芯片,提供 MiniConda 環(huán)境配置、Unity Metal 優(yōu)化等獨(dú)家技巧
2. 產(chǎn)品經(jīng)理專屬模塊
每篇包含「PM Checklist」四連問(wèn):
? 技術(shù)可行性:當(dāng)前方案的工程化難度分級(jí)
? 開(kāi)發(fā)成本:數(shù)據(jù)標(biāo)注 / 模型訓(xùn)練 / 硬件適配的資源測(cè)算
? 體驗(yàn)風(fēng)險(xiǎn):對(duì)話重復(fù)率、響應(yīng)延遲等關(guān)鍵指標(biāo)監(jiān)控
? 合規(guī)審查:《生成式 AI 服務(wù)管理辦法》落地要點(diǎn)
3. 漸進(jìn)式案例體系
- 階段一:?jiǎn)我还δ?NPC(對(duì)話 / 尋路基礎(chǔ) Demo)
- 階段二:多模態(tài) NPC(語(yǔ)音 + 表情 + 動(dòng)作交互原型)
- 階段三:群體智能 NPC(社交網(wǎng)絡(luò)模擬與涌現(xiàn)行為觀測(cè))
所有案例提供 可運(yùn)行代碼、Mermaid 原理圖解、CSV/JSON 數(shù)據(jù)集示例
四、適合誰(shuí)讀?
? AI 產(chǎn)品經(jīng)理:掌握技術(shù)與業(yè)務(wù)的轉(zhuǎn)化語(yǔ)言,學(xué)會(huì)用「PM Checklist」評(píng)估方案價(jià)值
? 獨(dú)立開(kāi)發(fā)者:獲取 Mac 端全流程適配指南,實(shí)現(xiàn) 100% 個(gè)人可完成的實(shí)操案例
? 技術(shù)愛(ài)好者:深入理解 NPC 系統(tǒng)架構(gòu),積累多模態(tài)融合、強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)經(jīng)驗(yàn)
五、如何開(kāi)啟學(xué)習(xí)?
我們開(kāi)始正篇內(nèi)容:
《AI啟蒙:機(jī)器學(xué)習(xí)三大范式,在交互世界初遇NPC》
將解析監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)的本質(zhì)差異,通過(guò)簡(jiǎn)單實(shí)戰(zhàn)的玩家行為聚類,并演示快速建模流程 —— 這是后續(xù)所有實(shí)戰(zhàn)的理論基石。
暫定每周更新一篇(案例需要較長(zhǎng)時(shí)間進(jìn)行搭建),24 周完成從「技術(shù)通識(shí)」到「復(fù)雜系統(tǒng)設(shè)計(jì)」的能力升級(jí)。無(wú)論你是計(jì)劃轉(zhuǎn)型的從業(yè)者,還是深耕交互領(lǐng)域的開(kāi)發(fā)者,這套體系都將成為你構(gòu)建 AI NPC 系統(tǒng)的「技術(shù)地圖」。
AI啟蒙:機(jī)器學(xué)習(xí)三大范式,在交互世界初遇NPC
系列引言:
大家好,我是 Mu「本姓」,一名專注于AI驅(qū)動(dòng)智能NPC方向的AI產(chǎn)品經(jīng)理。在游戲、VR、AR與元宇宙的浪潮中,我們都渴望創(chuàng)造出不再是簡(jiǎn)單“工具人”、而是真正擁有“靈魂”、能夠與玩家產(chǎn)生深度情感連接的虛擬角色。
這個(gè)系列筆記,便是我以產(chǎn)品經(jīng)理的視角,探索如何利用AI技術(shù)(尤其是機(jī)器學(xué)習(xí))為這些交互世界中的NPC注入生命力的學(xué)習(xí)與思考沉淀。我們將一起從基礎(chǔ)理論出發(fā),逐步深入技術(shù)核心,最終探討前沿趨勢(shì)與職業(yè)發(fā)展,全程聚焦于我們熱愛(ài)的交互娛樂(lè)領(lǐng)域。希望這份筆記能為你我?guī)?lái)啟發(fā),共同推動(dòng)“活”的NPC從夢(mèng)想照進(jìn)現(xiàn)實(shí)。
想象一下:
? 在廣袤的開(kāi)放世界游戲中,你遇到的路人NPC不再是重復(fù)播放固定臺(tái)詞的“背景板”,而是能根據(jù)你的行為、穿著甚至過(guò)往事跡,產(chǎn)生截然不同的反應(yīng)和對(duì)話;
? 在沉浸式的VR體驗(yàn)里,與你互動(dòng)的虛擬伙伴能夠理解你的手勢(shì)、甚至捕捉到你微妙的表情變化,做出自然且充滿情感的回應(yīng);
? 在元宇宙的社交空間中,AI引導(dǎo)者能根據(jù)你的興趣圖譜,為你推薦活動(dòng)、介紹朋友,如同真人般貼心……這些令人心馳神往的場(chǎng)景,正是智能NPC的魅力所在,也是驅(qū)動(dòng)我們不斷探索AI技術(shù)邊界的動(dòng)力源泉。
而這一切“智能”的背后,**機(jī)器學(xué)習(xí)(Machine Learning, ML)**扮演著至關(guān)重要的奠基者角色。
它賦予了計(jì)算機(jī)從數(shù)據(jù)中學(xué)習(xí)規(guī)律和模式的能力,讓NPC的行為不再完全依賴于開(kāi)發(fā)者預(yù)先編寫的龐大而僵硬的規(guī)則庫(kù)。
Mu 身處VR/AR/游戲/元宇宙前沿的AI產(chǎn)品經(jīng)理,我們或許無(wú)需親自編寫算法代碼,但深刻理解機(jī)器學(xué)習(xí)的核心思想與主要范式,卻是我們做出明智技術(shù)選型、定義NPC能力邊界、評(píng)估開(kāi)發(fā)成本與風(fēng)險(xiǎn)、有效協(xié)同設(shè)計(jì)與技術(shù)團(tuán)隊(duì)、最終打造出卓越用戶體驗(yàn)的關(guān)鍵前提。
為什么有的NPC感覺(jué)“聰明”,有的卻很“呆板”?為什么有些AI特性實(shí)現(xiàn)成本高昂,有些則相對(duì)容易?這些問(wèn)題的答案,往往就隱藏在所采用的機(jī)器學(xué)習(xí)范式之中。不理解這些基礎(chǔ),我們就如同盲人摸象,難以把握AI NPC產(chǎn)品的核心脈絡(luò)。
那么,機(jī)器學(xué)習(xí)究竟有哪些主要的“流派”?它們各自的“學(xué)習(xí)方式”有何不同?在塑造我們鐘愛(ài)的游戲、VR、AR及元宇宙NPC時(shí),它們又分別扮演著怎樣的角色,帶來(lái)了哪些獨(dú)特的可能性與挑戰(zhàn)?
在本系列的第一篇文章中,我們將一同踏上這場(chǎng)AI啟蒙之旅,重點(diǎn)探索機(jī)器學(xué)習(xí)的三大核心范式:
- 監(jiān)督學(xué)習(xí) (Supervised Learning): 有標(biāo)準(zhǔn)答案的“老師傅帶徒弟”模式。
- 無(wú)監(jiān)督學(xué)習(xí) (Unsupervised Learning): 在未知中探索的“自學(xué)成才者”。
- 強(qiáng)化學(xué)習(xí) (Reinforcement Learning): 在試錯(cuò)中成長(zhǎng)的“實(shí)踐派”。
我們將剖析它們的基本原理,通過(guò)大量來(lái)自游戲、VR/AR等交互世界的實(shí)例,直觀感受它們?nèi)绾钨x予NPC不同的“智慧”。
同時(shí),我們將從AI產(chǎn)品經(jīng)理的視角出發(fā),探討每種范式的選型考量、數(shù)據(jù)需求、成本因素以及對(duì)產(chǎn)品體驗(yàn)的深層影響,并提及一些代表性的算法類別及其產(chǎn)品層面的特點(diǎn)。
讓我們正式開(kāi)始,為后續(xù)的探索打下堅(jiān)實(shí)的地基!
機(jī)器學(xué)習(xí)的核心在于“學(xué)習(xí)”。
不同于傳統(tǒng)編程需要開(kāi)發(fā)者明確指令每一步操作,機(jī)器學(xué)習(xí)讓程序能夠通過(guò)分析數(shù)據(jù)來(lái)改進(jìn)自身的性能。
而根據(jù)“學(xué)習(xí)”方式的不同,主要分為以下三大范式:
1、監(jiān)督學(xué)習(xí) (Supervised Learning):目標(biāo)明確,按“標(biāo)準(zhǔn)答案”學(xué)習(xí)
1?? (技術(shù)原理): 這是目前應(yīng)用最廣泛、技術(shù)相對(duì)成熟的一種范式。
它的核心在于,我們提供給機(jī)器學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)是**包含“輸入”和對(duì)應(yīng)的“正確輸出(標(biāo)簽)”**的。
就好比我們給學(xué)生做習(xí)題,并告訴他們每道題的標(biāo)準(zhǔn)答案,學(xué)生通過(guò)反復(fù)練習(xí),學(xué)會(huì)從題目(輸入)推導(dǎo)出答案(輸出)的規(guī)律。
監(jiān)督學(xué)習(xí)主要解決兩類問(wèn)題:
- 分類 (Classification): 輸出是離散的類別標(biāo)簽。例如,判斷一張圖片里是“貓”還是“狗”。
- 回歸 (Regression): 輸出是連續(xù)的數(shù)值。例如,根據(jù)房屋的面積、位置等特征預(yù)測(cè)其“價(jià)格”。
2?? (游戲/VR/AR場(chǎng)景應(yīng)用): 在我們的交互世界里,監(jiān)督學(xué)習(xí)大有用武之地:
- 玩家意圖識(shí)別 (分類): 在MMORPG或社交元宇宙中,分析玩家在聊天框輸入的文字,判斷其意圖是“尋求組隊(duì)”、“交易物品”、“詢問(wèn)任務(wù)”還是“舉報(bào)騷擾”,以便NPC或系統(tǒng)能給出最恰當(dāng)?shù)幕貞?yīng)或引導(dǎo)。
- 敵人/物體類型識(shí)別 (分類): 在射擊游戲中,AI敵人通過(guò)“視覺(jué)”(游戲引擎中的信息)識(shí)別玩家、隊(duì)友、不同類型的掩體或重要目標(biāo);在AR應(yīng)用中,識(shí)別現(xiàn)實(shí)世界中的特定物體(如一張海報(bào)、一個(gè)產(chǎn)品)以觸發(fā)交互。
- 手勢(shì)指令識(shí)別 (分類): 在VR/AR中,通過(guò)攝像頭或傳感器捕捉用戶手部動(dòng)作數(shù)據(jù),判斷用戶做出的是“抓取”、“釋放”、“確認(rèn)”還是“返回”等指令,驅(qū)動(dòng)虛擬手或界面進(jìn)行交互。這對(duì)于自然交互至關(guān)重要。
- 玩家行為預(yù)測(cè) (分類/回歸): 根據(jù)玩家歷史行為數(shù)據(jù)(登錄頻率、游戲時(shí)長(zhǎng)、社交互動(dòng)、付費(fèi)記錄等),預(yù)測(cè)其流失風(fēng)險(xiǎn)(分類),或者預(yù)測(cè)其在下個(gè)周期內(nèi)可能的消費(fèi)金額(回歸),為運(yùn)營(yíng)活動(dòng)或NPC的個(gè)性化挽留/推薦提供依據(jù)。
3?? (提及代表算法類別及其產(chǎn)品特點(diǎn)):
- 監(jiān)督學(xué)習(xí)旗下有眾多算法,常見(jiàn)的類別包括:
- 邏輯回歸 (Logistic Regression): 簡(jiǎn)單、快速,適合處理線性可分的二分類問(wèn)題,可解釋性尚可。
- 決策樹(shù) (Decision Trees): 非常直觀,像流程圖一樣易于理解和解釋,方便策劃或設(shè)計(jì)師理解NPC的簡(jiǎn)單判斷邏輯。但容易過(guò)擬合,對(duì)復(fù)雜模式處理能力有限。
- 支持向量機(jī) (SVM): 在某些中小型數(shù)據(jù)集和高維空間(如文本特征)分類任務(wù)上表現(xiàn)優(yōu)異,理論基礎(chǔ)扎實(shí)。但對(duì)大規(guī)模數(shù)據(jù)和噪聲敏感,可解釋性較差。
- 神經(jīng)網(wǎng)絡(luò) (Neural Networks),尤其是深度學(xué)習(xí)模型: 能力強(qiáng)大,特別擅長(zhǎng)處理圖像、語(yǔ)音、復(fù)雜序列等非結(jié)構(gòu)化數(shù)據(jù),是驅(qū)動(dòng)高級(jí)感知能力的核心。但需要大量數(shù)據(jù)和計(jì)算資源,模型通常是“黑箱”,難以解釋決策原因,調(diào)試復(fù)雜。
PM選型考量:
- 數(shù)據(jù)!數(shù)據(jù)!數(shù)據(jù)! 監(jiān)督學(xué)習(xí)的命脈在于高質(zhì)量、足量的標(biāo)注數(shù)據(jù)。作為PM,在規(guī)劃基于監(jiān)督學(xué)習(xí)的NPC特性時(shí),必須最先拷問(wèn):我們有足夠多、標(biāo)注準(zhǔn)確的數(shù)據(jù)嗎?獲取和標(biāo)注這些數(shù)據(jù)的成本(時(shí)間、人力、金錢)是多少? 這往往是項(xiàng)目可行性的最大瓶頸。例如,要讓NPC識(shí)別玩家數(shù)百種不同的意圖,就需要投入巨大成本構(gòu)建標(biāo)注語(yǔ)料庫(kù)。
- 可解釋性 vs. 性能: 我們需要讓策劃或設(shè)計(jì)師能清晰理解NPC為何做出某個(gè)判斷嗎(比如一個(gè)簡(jiǎn)單的任務(wù)NPC)?如果是,決策樹(shù)等簡(jiǎn)單模型可能是好的起點(diǎn)。如果追求極致的識(shí)別精度(比如VR中精確的手勢(shì)識(shí)別),那可能不得不擁抱性能更強(qiáng)但解釋性差的神經(jīng)網(wǎng)絡(luò),并通過(guò)大量測(cè)試來(lái)彌補(bǔ)。
- 模型復(fù)雜度與部署環(huán)境: 復(fù)雜的模型(如大型神經(jīng)網(wǎng)絡(luò))不僅訓(xùn)練成本高,在游戲客戶端(尤其是移動(dòng)端或VR一體機(jī))的推理(運(yùn)行)成本也高,可能影響游戲幀率或設(shè)備發(fā)熱。PM需要關(guān)注模型大小、推理延遲是否滿足產(chǎn)品性能要求。
4?? [案例建議與文獻(xiàn)引用]:
很多RPG游戲中,玩家選擇不同的對(duì)話選項(xiàng)會(huì)影響NPC好感度或觸發(fā)不同后續(xù),這體現(xiàn)了游戲系統(tǒng)對(duì)玩家輸入的“分類”處理,并基于此調(diào)整內(nèi)部狀態(tài)。關(guān)于此類NPC關(guān)系系統(tǒng)的設(shè)計(jì)思路,可以參考游戲設(shè)計(jì)相關(guān)的討論文章
Scheherazade’s Tavern 項(xiàng)目
- ACM 論文提出的「自然語(yǔ)言交互 + 社交模擬」架構(gòu),通過(guò) Chatbot 接口和知識(shí)建模技術(shù)實(shí)現(xiàn)深度 NPC 互動(dòng)。
- 例如,玩家可通過(guò)自由對(duì)話探索 NPC 的背景故事(如詢問(wèn)童年經(jīng)歷),NPC 會(huì)根據(jù)自身知識(shí)子集(如鐵匠的冶金知識(shí)、法師的魔法理論)生成個(gè)性化回答。該系統(tǒng)還支持不對(duì)稱知識(shí)建模,不同 NPC 對(duì)同一事件可能持有不同觀點(diǎn)(如商人認(rèn)為戰(zhàn)爭(zhēng)有利可圖,村民則痛恨戰(zhàn)亂)。
- 來(lái)源:https://dl.acm.org/doi/fullHtml/10.1145/3402942.3402984
GDC 2024:AI 驅(qū)動(dòng)的 NPC 敘事革命 育碧「NEO NPCs」項(xiàng)目展示了生成式 AI 與人類編劇的結(jié)合模式:
- 情感錨定:人類編劇定義 NPC 的核心性格(如多疑、忠誠(chéng)),AI 根據(jù)玩家行為動(dòng)態(tài)生成對(duì)話分支(如玩家說(shuō)謊時(shí)觸發(fā)「懷疑」?fàn)顟B(tài))。
- 任務(wù)協(xié)同:NPC 可根據(jù)玩家的策略建議調(diào)整任務(wù)方案(如玩家提議潛入,NPC 會(huì)分析可行性并給出風(fēng)險(xiǎn)提示)。
- 倫理控制:通過(guò)人工審核機(jī)制避免 AI 生成刻板印象(如女性 NPC 的「諂媚」對(duì)話),確保角色多樣性。
- 來(lái)源:https://www.gameshub.com/news/news/ubisoft-ai-neo-npcs-gdc-2024-2638181/
2、無(wú)監(jiān)督學(xué)習(xí) (Unsupervised Learning):自主探索,發(fā)現(xiàn)數(shù)據(jù)中的“秘密”
1?? (技術(shù)原理): 與監(jiān)督學(xué)習(xí)截然相反,無(wú)監(jiān)督學(xué)習(xí)處理的數(shù)據(jù)沒(méi)有預(yù)先給定的“標(biāo)簽”或“標(biāo)準(zhǔn)答案”。
它的目標(biāo)是在數(shù)據(jù)中自主地發(fā)現(xiàn)隱藏的結(jié)構(gòu)、模式、關(guān)聯(lián)或異常。
可以把它想象成,給你一大堆雜亂無(wú)章的樂(lè)高積木,讓你自己嘗試把它們按形狀、顏色或某種內(nèi)在邏輯分門別類。
無(wú)監(jiān)督學(xué)習(xí)常見(jiàn)的任務(wù)包括:
- 聚類 (Clustering): 將相似的數(shù)據(jù)點(diǎn)聚合在一起,形成不同的“簇”或“群組”。
- 降維 (Dimensionality Reduction): 在保留主要信息的前提下,減少數(shù)據(jù)的特征數(shù)量,便于可視化或后續(xù)處理。
- 關(guān)聯(lián)規(guī)則挖掘 (Association Rule Mining): 發(fā)現(xiàn)數(shù)據(jù)項(xiàng)之間有趣的關(guān)聯(lián)關(guān)系,如“購(gòu)買了‘虛擬寶劍’的玩家,也很可能購(gòu)買‘盾牌’”。
2?? (游戲/VR/AR場(chǎng)景應(yīng)用): 無(wú)監(jiān)督學(xué)習(xí)如何幫助我們理解玩家和虛擬世界?
- 玩家群體細(xì)分 (聚類): 在MMO或元宇宙中,基于玩家的游戲行為(探索偏好、戰(zhàn)斗風(fēng)格、社交活躍度、消費(fèi)習(xí)慣等)自動(dòng)將其劃分為不同的群體(如“硬核PVP玩家”、“休閑社交玩家”、“成就收集者”)。這為個(gè)性化內(nèi)容推薦、活動(dòng)設(shè)計(jì)、甚至NPC的差異化互動(dòng)策略提供了依據(jù)。
- VR用戶體驗(yàn)?zāi)J桨l(fā)現(xiàn) (聚類/降維): 分析VR用戶的移動(dòng)軌跡、視線焦點(diǎn)、交互頻率等數(shù)據(jù),發(fā)現(xiàn)常見(jiàn)的用戶行為模式或潛在的體驗(yàn)痛點(diǎn)(如某些區(qū)域易引發(fā)暈眩)。
- 游戲環(huán)境熱點(diǎn)分析 (聚類): 在大型開(kāi)放世界游戲中,分析玩家死亡地點(diǎn)、資源采集點(diǎn)、任務(wù)接取點(diǎn)等空間數(shù)據(jù),自動(dòng)發(fā)現(xiàn)玩家活動(dòng)的熱點(diǎn)區(qū)域或設(shè)計(jì)不合理的區(qū)域。
- 異常行為檢測(cè) (聚類/異常檢測(cè)): 識(shí)別出與大多數(shù)玩家行為模式顯著不同的個(gè)體,可能有助于發(fā)現(xiàn)潛在的游戲外掛使用者、工作室打金行為或需要特殊關(guān)注的新手玩家。
3?? (提及代表算法類別及其產(chǎn)品特點(diǎn)):
- 無(wú)監(jiān)督學(xué)習(xí)的常用算法類別:
- K-Means: 最經(jīng)典的聚類算法之一,簡(jiǎn)單快速,易于實(shí)現(xiàn)。但需要預(yù)先指定簇的數(shù)量(K值),且對(duì)初始中心點(diǎn)敏感,對(duì)非球狀簇效果不佳。
- DBSCAN: 基于密度的聚類算法,能發(fā)現(xiàn)任意形狀的簇,且不需要預(yù)先指定簇?cái)?shù)量,對(duì)噪聲點(diǎn)不敏感。但對(duì)參數(shù)選擇(鄰域半徑、最小點(diǎn)數(shù))敏感。
- PCA (Principal Component Analysis): 常用的線性降維方法,通過(guò)找到數(shù)據(jù)方差最大的方向來(lái)簡(jiǎn)化數(shù)據(jù),便于可視化。
PM選型考量:
- 探索未知是核心價(jià)值: 當(dāng)我們對(duì)用戶群體或系統(tǒng)行為沒(méi)有清晰的預(yù)設(shè)認(rèn)知,希望從數(shù)據(jù)中發(fā)現(xiàn)一些“意想不到”的模式時(shí),無(wú)監(jiān)督學(xué)習(xí)是強(qiáng)大的工具。
- 結(jié)果需要解讀和驗(yàn)證! 算法給出的聚類結(jié)果本身只是一堆數(shù)據(jù)分組,這些分組到底代表什么業(yè)務(wù)含義?(比如,聚類出的“第3類玩家”到底是一群什么樣的人?)這需要產(chǎn)品、運(yùn)營(yíng)、數(shù)據(jù)分析師結(jié)合業(yè)務(wù)知識(shí)進(jìn)行深入解讀和驗(yàn)證,才能轉(zhuǎn)化為可行動(dòng)的策略。PM需要主導(dǎo)或深度參與這個(gè)解讀過(guò)程。
- 評(píng)估相對(duì)主觀: 沒(méi)有“標(biāo)準(zhǔn)答案”,評(píng)估無(wú)監(jiān)督學(xué)習(xí)的效果通常更依賴于聚類結(jié)果的業(yè)務(wù)可解釋性、穩(wěn)定性以及后續(xù)應(yīng)用帶來(lái)的實(shí)際效果(如個(gè)性化推薦的點(diǎn)擊率是否提升)。
- 對(duì)數(shù)據(jù)質(zhì)量和特征工程敏感: 輸入數(shù)據(jù)的質(zhì)量和選擇的特征,會(huì)極大影響聚類的效果。
4?? (概念演示 – 玩家行為聚類):
- 想象我們收集了MMO游戲中大量玩家的兩項(xiàng)行為數(shù)據(jù):平均每日戰(zhàn)斗時(shí)長(zhǎng)、平均每周社交互動(dòng)次數(shù)。將這些數(shù)據(jù)點(diǎn)繪制在二維圖上。
- 運(yùn)行K-Means算法(比如設(shè)定K=3),算法會(huì)自動(dòng)嘗試將這些點(diǎn)分成三個(gè)群組。我們可能會(huì)發(fā)現(xiàn)一群“高戰(zhàn)斗、低社交”的玩家(獨(dú)狼戰(zhàn)狂),一群“低戰(zhàn)斗、高社交”的玩家(休閑交友黨),以及一群“中等戰(zhàn)斗、中等社交”的玩家(平衡型)。
這個(gè)簡(jiǎn)單的例子(可以用Excel/Numbers模擬或用Python庫(kù)快速實(shí)現(xiàn))說(shuō)明了聚類如何幫助我們識(shí)別出不同的用戶畫像,為后續(xù)針對(duì)性地設(shè)計(jì)NPC互動(dòng)(比如給戰(zhàn)狂推薦挑戰(zhàn)副本,給社交黨推薦公會(huì)活動(dòng))提供了基礎(chǔ)。
5?? [案例建議與文獻(xiàn)引用]:
游戲行業(yè)廣泛應(yīng)用數(shù)據(jù)科學(xué)進(jìn)行玩家行為分析和用戶分群,無(wú)監(jiān)督學(xué)習(xí)是其中的重要技術(shù)之一。
案例:K-means聚類在游戲用戶分群中的應(yīng)用
K-means聚類是一種無(wú)監(jiān)督學(xué)習(xí)算法,廣泛應(yīng)用于游戲行業(yè)中的用戶分群。通過(guò)分析玩家的行為數(shù)據(jù)(如游戲內(nèi)購(gòu)買歷史、游戲時(shí)長(zhǎng)、登錄頻率等),K-means聚類可以將玩家分為不同的群體,從而實(shí)現(xiàn)個(gè)性化游戲體驗(yàn)和優(yōu)化收入。例如,某移動(dòng)游戲公司通過(guò)K-means聚類將玩家分為高消費(fèi)、中消費(fèi)和低消費(fèi)群體,并針對(duì)不同群體設(shè)計(jì)了個(gè)性化的營(yíng)銷策略,最終在六個(gè)月內(nèi)游戲內(nèi)購(gòu)買增加了20%。
來(lái)源:https://blog.csdn.net/hahoo2009/article/details/143462609
在更廣泛的領(lǐng)域,如Netflix的推薦系統(tǒng),也利用了相似用戶的聚類思想(協(xié)同過(guò)濾的基礎(chǔ))來(lái)為用戶推薦可能感興趣的內(nèi)容。
來(lái)源:https://csse.szu.edu.cn/staff/panwk/recommendation/MISC/Recommendation-CaseStudy-Netflix-Chinese.pdf
3、強(qiáng)化學(xué)習(xí) (Reinforcement Learning):在交互反饋中學(xué)習(xí)最佳策略
1?? (技術(shù)原理): 強(qiáng)化學(xué)習(xí)模擬了生物通過(guò)與環(huán)境互動(dòng)來(lái)學(xué)習(xí)的過(guò)程。
- 它定義了一個(gè)智能體 (Agent)(比如我們的NPC),在一個(gè)環(huán)境 (Environment)(游戲關(guān)卡、VR場(chǎng)景)中。
- 智能體可以觀察到環(huán)境的狀態(tài) (State)(玩家位置、自身血量、可用技能等),并基于此選擇執(zhí)行一個(gè)動(dòng)作 (Action)(移動(dòng)、攻擊、對(duì)話、使用道具)。
- 執(zhí)行動(dòng)作后,環(huán)境會(huì)轉(zhuǎn)換到新的狀態(tài),并給予智能體一個(gè)獎(jiǎng)勵(lì) (Reward) 或 懲罰 (Penalty)信號(hào),反饋這個(gè)動(dòng)作的好壞。
- 智能體的目標(biāo)是通過(guò)不斷的試錯(cuò) (Trial-and-Error),學(xué)習(xí)到一個(gè)策略 (Policy)(即在什么狀態(tài)下應(yīng)該采取什么動(dòng)作),以最大化其長(zhǎng)期累積的獎(jiǎng)勵(lì)。
2?? (游戲/VR/AR場(chǎng)景應(yīng)用): 強(qiáng)化學(xué)習(xí)特別適合需要序貫決策、適應(yīng)動(dòng)態(tài)環(huán)境、甚至展現(xiàn)出“創(chuàng)造性”行為的場(chǎng)景:
- 高級(jí)戰(zhàn)斗AI: 讓NPC在復(fù)雜的戰(zhàn)斗中(如《黑暗之魂》類游戲、格斗游戲),根據(jù)實(shí)時(shí)戰(zhàn)況(敵人距離、攻擊模式、自身資源)動(dòng)態(tài)地、智能地選擇攻擊、防御、閃避、走位、技能組合,而不是依賴固定的行為腳本,從而提供更具挑戰(zhàn)性和不可預(yù)測(cè)性的對(duì)手。
- 動(dòng)態(tài)尋路與導(dǎo)航: 讓NPC在復(fù)雜且動(dòng)態(tài)變化的游戲世界中(如充斥著移動(dòng)障礙物、其他動(dòng)態(tài)NPC、甚至地形變化的場(chǎng)景)自主學(xué)習(xí)最優(yōu)的移動(dòng)路徑,展現(xiàn)出更“像人”的導(dǎo)航能力。
- 程序化動(dòng)畫 (Procedural Animation): 利用RL讓角色的動(dòng)作(如行走、奔跑、攀爬、與環(huán)境互動(dòng))能更自然地適應(yīng)地形和物理環(huán)境,減少動(dòng)畫師的工作量,提升真實(shí)感。
- 自適應(yīng)難度調(diào)整: 讓游戲系統(tǒng)(可以看作一個(gè)Agent)根據(jù)玩家的表現(xiàn)(狀態(tài))動(dòng)態(tài)調(diào)整難度(動(dòng)作),如調(diào)整敵人強(qiáng)度、資源掉落率等,以維持玩家的心流體驗(yàn)(獎(jiǎng)勵(lì))。
- 虛擬寵物/伙伴行為學(xué)習(xí) (VR/AR): 訓(xùn)練VR/AR中的虛擬寵物或伙伴,通過(guò)與用戶的互動(dòng)(用戶的動(dòng)作是環(huán)境變化,用戶的滿意度/反饋是獎(jiǎng)勵(lì))逐漸學(xué)習(xí)到用戶的偏好,展現(xiàn)出獨(dú)特的“個(gè)性”和情感連接。
3?? (提及代表算法類別及其產(chǎn)品特點(diǎn)):
- 強(qiáng)化學(xué)習(xí)算法眾多,從簡(jiǎn)單到復(fù)雜:
- Q-Learning / SARSA: 經(jīng)典的基于值函數(shù)的方法,適用于狀態(tài)和動(dòng)作空間相對(duì)較小的離散問(wèn)題。易于理解,是入門RL的好起點(diǎn)。
- Deep Q-Networks (DQN): 將深度學(xué)習(xí)與Q-Learning結(jié)合,能夠處理高維狀態(tài)輸入(如游戲畫面像素),在Atari游戲上取得突破。
- Policy Gradient Methods (e.g., REINFORCE, A2C, A3C): 直接學(xué)習(xí)策略函數(shù),適用于連續(xù)動(dòng)作空間。
- PPO (Proximal Policy Optimization) / SAC (Soft Actor-Critic): 近年來(lái)在連續(xù)控制和游戲AI領(lǐng)域表現(xiàn)優(yōu)異的先進(jìn)算法,兼顧了穩(wěn)定性和樣本效率,是目前訓(xùn)練復(fù)雜游戲AI的常用選擇。
PM選型考量:
- 潛力巨大,但挑戰(zhàn)并存: RL能夠創(chuàng)造出真正具有適應(yīng)性、甚至超越人類設(shè)計(jì)的智能行為,潛力無(wú)限。但它也是三者中技術(shù)門檻最高、最難駕馭的范式。
- 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)是藝術(shù),更是核心難點(diǎn)! 這是PM必須深度參與的關(guān)鍵環(huán)節(jié)。獎(jiǎng)勵(lì)函數(shù)定義了NPC的“價(jià)值觀”和目標(biāo)。一個(gè)微小的設(shè)計(jì)缺陷,比如獎(jiǎng)勵(lì)設(shè)置不當(dāng)、過(guò)于稀疏或容易被“鉆空子”(找到非預(yù)期的捷徑獲得高獎(jiǎng)勵(lì)),都可能導(dǎo)致訓(xùn)練出行為怪異、甚至完全違背設(shè)計(jì)初衷的NPC。PM需要與策劃、設(shè)計(jì)師、算法工程師緊密協(xié)作,反復(fù)迭代和測(cè)試獎(jiǎng)勵(lì)函數(shù),確保它能準(zhǔn)確引導(dǎo)出期望的行為。
- 高昂的訓(xùn)練成本: RL通常需要海量的交互(在模擬環(huán)境中運(yùn)行數(shù)百萬(wàn)甚至數(shù)十億次)才能學(xué)習(xí)到有效的策略,這意味著巨大的計(jì)算資源消耗和漫長(zhǎng)的訓(xùn)練時(shí)間。
- 可解釋性差,“黑箱”問(wèn)題突出: 很難精確解釋為何RL Agent在某個(gè)特定時(shí)刻做出了某個(gè)決策,這給調(diào)試、優(yōu)化和確保行為符合預(yù)期帶來(lái)了巨大挑戰(zhàn)。PM需要接受這種不確定性,并依賴大量的測(cè)試和監(jiān)控來(lái)控制風(fēng)險(xiǎn)。
- 對(duì)模擬環(huán)境要求高: 高效的RL訓(xùn)練往往依賴于能夠快速、穩(wěn)定、逼真地模擬游戲/VR環(huán)境。
4?? [案例建議與文獻(xiàn)引用]:
游戲開(kāi)發(fā)者常用的Unity引擎提供了ML-Agents工具包,它使得在Unity環(huán)境中應(yīng)用強(qiáng)化學(xué)習(xí)(以及其他ML方法)訓(xùn)練NPC變得更加便捷,其官方文檔是了解RL在游戲開(kāi)發(fā)中具體實(shí)踐的極佳起點(diǎn)。(來(lái)源:Unity ML-Agents官方文檔
來(lái)源:https://docs.unity3d.com/Packages/com.unity.ml-agents@latest/)。
DeepMind的AlphaStar項(xiàng)目展示了強(qiáng)化學(xué)習(xí)在復(fù)雜實(shí)時(shí)戰(zhàn)略游戲《星際爭(zhēng)霸II》中達(dá)到的頂尖水平,雖然其資源投入巨大,但極大地推動(dòng)了該領(lǐng)域的發(fā)展。
來(lái)源:https://deepmind.google/discover/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii/
在程序化動(dòng)畫方面,育碧的研究部門La Forge持續(xù)探索使用AI技術(shù)(包括機(jī)器學(xué)習(xí))來(lái)創(chuàng)建更逼真、更具適應(yīng)性的角色動(dòng)畫和更豐富的虛擬世界。
來(lái)源:https://github.com/ubisoft/ubisoft-laforge-ZeroEGGS
我們已經(jīng)初步探索了機(jī)器學(xué)習(xí)的三大核心范式。讓我們?cè)俅我訟I產(chǎn)品經(jīng)理的視角,提煉一下關(guān)鍵要點(diǎn):
① 監(jiān)督學(xué)習(xí) (Supervised Learning)
- 核心: 從“有標(biāo)簽”數(shù)據(jù)學(xué)習(xí)輸入到輸出的映射。
- 強(qiáng)項(xiàng): 解決定義明確的分類和回歸問(wèn)題,如意圖識(shí)別、目標(biāo)檢測(cè)。
- PM關(guān)鍵考量:標(biāo)注數(shù)據(jù)的成本與質(zhì)量是生命線! 可解釋性與性能的權(quán)衡。
② 無(wú)監(jiān)督學(xué)習(xí) (Unsupervised Learning)
- 核心: 從“無(wú)標(biāo)簽”數(shù)據(jù)中發(fā)現(xiàn)隱藏的結(jié)構(gòu)與模式。
- 強(qiáng)項(xiàng): 用戶/行為聚類、異常檢測(cè)、探索性數(shù)據(jù)分析。
- PM關(guān)鍵考量:結(jié)果需要業(yè)務(wù)解讀才能產(chǎn)生價(jià)值! 評(píng)估相對(duì)主觀。
③ 強(qiáng)化學(xué)習(xí) (Reinforcement Learning)
- 核心: 通過(guò)與環(huán)境交互和獎(jiǎng)勵(lì)反饋學(xué)習(xí)最優(yōu)決策策略。
- 強(qiáng)項(xiàng): 適應(yīng)動(dòng)態(tài)環(huán)境、序貫決策、復(fù)雜行為控制(如高級(jí)戰(zhàn)斗AI、導(dǎo)航)。
PM關(guān)鍵考量:獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)是重中之重且極具挑戰(zhàn)! 訓(xùn)練成本高、可解釋性差,但潛力巨大。
對(duì)于我們AI產(chǎn)品經(jīng)理而言,理解這三大范式的本質(zhì)區(qū)別、優(yōu)劣勢(shì)、適用場(chǎng)景(尤其是在游戲/VR/AR/元宇宙的背景下)以及它們對(duì)數(shù)據(jù)、成本、團(tuán)隊(duì)協(xié)作的要求,是做出明智技術(shù)選型、設(shè)定合理產(chǎn)品預(yù)期、推動(dòng)AI NPC項(xiàng)目成功落地的基礎(chǔ)。
現(xiàn)實(shí)中的復(fù)雜NPC,其“智能”往往不是單一范式的產(chǎn)物,而是多種技術(shù)的巧妙組合。知道何時(shí)、何地、為何以及如何組合運(yùn)用這些工具,正是我們價(jià)值的體現(xiàn)。
今天,我們?yōu)槔斫釧I驅(qū)動(dòng)的智能NPC打下了第一塊基石,認(rèn)識(shí)了機(jī)器學(xué)習(xí)的三大基本“思維模式”。然而,要讓NPC真正擁有“看懂”虛擬世界、“聽(tīng)懂”玩家心聲的復(fù)雜感知能力,我們還需要更強(qiáng)大的武器。
在下一篇筆記 《S1E02: 虛擬之眼耳:深度學(xué)習(xí)賦予NPC“感知”虛擬世界》 中,我們將聚焦于機(jī)器學(xué)習(xí)的一個(gè)強(qiáng)大分支——深度學(xué)習(xí) (Deep Learning)。
我們將深入探索神經(jīng)網(wǎng)絡(luò)的魔力,看看它是如何通過(guò)模仿人腦的連接方式,在計(jì)算機(jī)視覺(jué)(CV)和自然語(yǔ)言處理(NLP)等領(lǐng)域取得突破性進(jìn)展,并最終為我們的游戲、VR、AR、元宇宙NPC裝上更敏銳的“眼睛”和“耳朵”的。
敬請(qǐng)期待!
Mu 注: 本文作為系列開(kāi)篇,旨在建立基礎(chǔ)認(rèn)知框架。文中提及的案例旨在說(shuō)明概念,具體技術(shù)實(shí)現(xiàn)可能更為復(fù)雜或采用混合方法。引用的鏈接旨在提供公開(kāi)可訪問(wèn)的參考信息,并已盡可能驗(yàn)證其在撰寫時(shí)的有效性,但鏈接的長(zhǎng)期有效性無(wú)法完全保證。在后續(xù)文章中,我們將對(duì)特定技術(shù)和應(yīng)用進(jìn)行更深入的探討。歡迎大家留言交流!
參考文獻(xiàn)資料:
1、Scheherazade’s Tavern: A Prototype For Deeper NPC Interactions:https://dl.acm.org/doi/fullHtml/10.1145/3402942.3402984
2、Ubisoft reveals AI-powered ‘NEO NPCs’ at GDC 2024:https://www.gameshub.com/news/news/ubisoft-ai-neo-npcs-gdc-2024-2638181/
3、利用K-means聚類進(jìn)行用戶分群:https://blog.csdn.net/hahoo2009/article/details/143462609
4、智能推薦技術(shù)–案例分析: Netflix:https://csse.szu.edu.cn/staff/panwk/recommendation/MISC/Recommendation-CaseStudy-Netflix-Chinese.pdf
5、ML-Agents Overview:https://docs.unity3d.com/Packages/com.unity.ml-agents@3.0/manual/index.html
6、AlphaStar: Mastering the real-time strategy game StarCraft II:https://deepmind.google/discover/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii/
7、ZeroEGGS: Zero-shot Example-based Gesture Generation from Speech:https://github.com/ubisoft/ubisoft-laforge-ZeroEGGS
作者:Mu先生Ai世界,公眾號(hào):Mu先生Ai世界
本文由 @Mu先生Ai世界 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖由作者提供
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
- 目前還沒(méi)評(píng)論,等你發(fā)揮!