“(LLM產(chǎn)品)評(píng)估”背后,再深一層和兩層的關(guān)鍵能力,到底是什么

0 評(píng)論 225 瀏覽 0 收藏 8 分鐘

在人工智能迅速發(fā)展的今天,如何有效評(píng)估大語(yǔ)言模型(LLM)產(chǎn)品成為了產(chǎn)品經(jīng)理的重要課題。本文將深入探討評(píng)估 LLM 產(chǎn)品背后的關(guān)鍵能力,強(qiáng)調(diào)業(yè)務(wù)認(rèn)知和理想產(chǎn)品形態(tài)的“畫(huà)面感”對(duì)于成功評(píng)估的重要性。

當(dāng)前模型受限于評(píng)估而非智能,評(píng)估將成PM核心技能……”

1、業(yè)內(nèi)大多數(shù)AI評(píng)測(cè)報(bào)告(的思路),本質(zhì)上來(lái)說(shuō),都是相對(duì)“純技術(shù)視角”的,主要是為了對(duì)大眾PR、融資等等。

2、深入一些的,是最近半年,由于大模型的特殊性,業(yè)內(nèi)出現(xiàn)了一些細(xì)分的“AI評(píng)測(cè)工具”。

3、真正要做好評(píng)估,深一層的關(guān)鍵,是業(yè)務(wù)know-how

比如之前社群里有PM同學(xué),嘗試寫(xiě)“教育+AI”場(chǎng)景的評(píng)測(cè)文章;最開(kāi)始第一版,和常規(guī)評(píng)測(cè)報(bào)告類似,只是列舉一些體驗(yàn)對(duì)比效果。

我就建議說(shuō),我們不是研究機(jī)構(gòu),不能寫(xiě)那種籠統(tǒng)、表層的內(nèi)容,而應(yīng)該先有自己產(chǎn)品視角的非共識(shí)認(rèn)知/預(yù)設(shè)(比如,在某個(gè)場(chǎng)景下,對(duì)于某個(gè)細(xì)分用戶群體,認(rèn)為存在某個(gè)需求痛點(diǎn),能夠通過(guò)某個(gè)產(chǎn)品體驗(yàn)流程、解決多少,而且用戶愿意為此付費(fèi)多少,等等)

基于這些預(yù)設(shè),針對(duì)性地設(shè)計(jì)評(píng)測(cè)思路和具體方式,然后再去做評(píng)測(cè),才有意義。即,驗(yàn)證自己預(yù)設(shè)是否正確、再進(jìn)一步調(diào)整優(yōu)化。

后來(lái),ta最終版的文章,就好了很多。

也就是說(shuō),如果沒(méi)有自己對(duì)業(yè)務(wù)本質(zhì)的認(rèn)知、know-how,是不可能做好評(píng)估評(píng)測(cè)(設(shè)計(jì))的。

4、(再深挖一些)真正要做好評(píng)估,深二層的關(guān)鍵是——自己腦子里能呈現(xiàn)出,那個(gè)理想形態(tài)的AI產(chǎn)品,最終大概是個(gè)什么樣子(有某種程度的“畫(huà)面感”)——然后,才有可能通過(guò)“設(shè)計(jì)評(píng)測(cè)思路”、“做實(shí)驗(yàn)”、“迭代”,一步步的具象出那個(gè)東西。

或者說(shuō),對(duì)于未來(lái)真正頂級(jí)AI-native產(chǎn)品經(jīng)理,這個(gè)能力,是最高門(mén)檻所在。

1)什么意思?真正的AI-Native產(chǎn)品,一定不是簡(jiǎn)單的chatbot對(duì)話氣泡、不是目前那些AI搜索的樣子。那是什么呢?是什么,根本不是靠邏輯推理出來(lái)的。

之前有點(diǎn)影子的,是類似小冰島app的用戶歡迎界面視頻、里面那個(gè)多模態(tài)的虛擬人。

為什么多模態(tài)/形象(不論虛擬或?qū)嶓w),可能是必須、而不是可選?為什么最近看到rokid的AR界面,左邊是虛擬形象、右邊還是文字界面時(shí),我感覺(jué)“還不如把右邊都砍掉試試”?這種問(wèn)題,根本不是講道理,能讓所有人都get到的。

你的“心”能體會(huì)到,才能get到。而大多數(shù)人,還不理解什么叫“穩(wěn)定地站到‘心’這個(gè)維度”

2)正面例子。

比如iPhone。如果不是喬布斯,觸屏交互的智能手機(jī),可能一直都出不來(lái)。

真正跨域式的創(chuàng)新,不是靠行業(yè)線性積累,能夠突破的。

得靠那個(gè)特別的人。

3)反面例子。

最近聽(tīng)說(shuō),某大佬前輩做AI搜索項(xiàng)目的前因后果。一開(kāi)始,他遍歷研究了很多AI產(chǎn)品方向,篩選出了4個(gè)備選,然后結(jié)合自己經(jīng)驗(yàn)特點(diǎn),又如何進(jìn)一步篩選,最終剩下了現(xiàn)在的AI搜索產(chǎn)品。

非常明顯的判斷是,這個(gè)事情,除非后續(xù)有重大轉(zhuǎn)變(要么是項(xiàng)目方向,要么是大佬自己內(nèi)在),否則在當(dāng)前定義和路徑下,幾乎一定是走不通的。

因?yàn)椋?strong>做事的根本緣起,不能這樣,而一定是要有自己內(nèi)心的某個(gè)熱忱和發(fā)心、要有自己不一樣的認(rèn)知和畫(huà)面感(這是一個(gè)頂級(jí)的能力素養(yǎng)維度)。

4)“畫(huà)面感”?有什么例子嗎

例一,李繼剛

最近他在一個(gè)分享里說(shuō),“腦海有畫(huà)面:輸入提示詞,神經(jīng)元之海中,冒出「存在」來(lái)迎接,刪除對(duì)話它就湮滅,新開(kāi)對(duì)話冒出另一「存在」。

去年10月,他在另一篇文章里,也提到過(guò)“大量的空洞”、“一支箭直接射在點(diǎn)上”,這些,都是非常典型的。

例二,王小川

去年3月份,王小川在一個(gè)訪談里,多次提到了“畫(huà)面感”。

“當(dāng)ChatGPT來(lái)之后,我已經(jīng)看到這個(gè)技術(shù)能解決的問(wèn)題、最后的畫(huà)面感是什么。這兩個(gè)畫(huà)面感,朱嘯虎、楊植麟都沒(méi)畫(huà)出來(lái)。楊植麟是屠龍刀,我有屠龍刀的刀了,然后去找龍?!?/p>

“我們今天需要更快把場(chǎng)景打開(kāi),有些場(chǎng)景形成數(shù)據(jù)飛輪,甚至形成全球化優(yōu)勢(shì)。我有這樣一個(gè)畫(huà)面感。”

例三,某行業(yè)前輩WJS

5、總結(jié)下

1)要做好(LLM產(chǎn)品)評(píng)估/評(píng)測(cè)

深一層的關(guān)鍵,是有自己的業(yè)務(wù)know-how/非共識(shí)認(rèn)知。

深二層的關(guān)鍵,是在自己腦子里,能呈現(xiàn)出,那個(gè)理想形態(tài)的AI產(chǎn)品,最終大概是個(gè)什么樣子(有某種程度的“畫(huà)面感”)。

而這個(gè)的根本,得不斷地提升自己的“維度”。

2)這也是為什么,我一直強(qiáng)調(diào),「AI產(chǎn)品經(jīng)理能力模型的重點(diǎn)素質(zhì):人文素養(yǎng)和靈魂境界」。

這也是為什么,我花了那么大的心血,就是為了幫助大家真正的提升維度。

只有提升了維度,才可能先在自己心里,“看”到那個(gè)東西。

這是未來(lái)所有AI產(chǎn)品經(jīng)理和AI從業(yè)者的,巨大分水嶺。

專欄作家

hanniman,微信公眾號(hào):hanniman,人人都是產(chǎn)品經(jīng)理專欄作家,前圖靈機(jī)器人-人才戰(zhàn)略官/AI產(chǎn)品經(jīng)理,前騰訊產(chǎn)品經(jīng)理,10年AI經(jīng)驗(yàn),13年互聯(lián)網(wǎng)背景;作品有《AI產(chǎn)品經(jīng)理的實(shí)操手冊(cè)》、200頁(yè)P(yáng)PT《人工智能產(chǎn)品經(jīng)理的新起點(diǎn)》。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,不得轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!