GPT-4o深度解析:5大行業(yè)場景將加速演進,國產(chǎn)AI迎來4項挑戰(zhàn)

0 評論 4739 瀏覽 17 收藏 25 分鐘

GPT-4o被OpenAI譽為“全能模型”,那么,“全能模型”的出現(xiàn),可能會加速哪些行業(yè)場景的演進?國產(chǎn)AI廠商又可能面臨哪些挑戰(zhàn)?一起來看看本文的解讀。

一、GPT-4o的三項核心能力

OpenAI將GPT-4o譽為“全能模型”,這一概念將在本文中反復(fù)提及。讓我們先來回顧一下GPT-4o的三個優(yōu)勢:

  1. 實時交互接近人類:歸功于端到端多模態(tài)神經(jīng)網(wǎng)絡(luò),將視覺、語音等多種模態(tài)訓(xùn)練成一個模型,簡化模型服務(wù)工程復(fù)雜度,使反應(yīng)速度接近人類。
  2. 多模態(tài)意圖理解:感知物理世界的視覺、語音,理解環(huán)境、人物、事件。
  3. 精通全球語言:實時翻譯表現(xiàn)出色,根據(jù)不同的語境調(diào)整翻譯的風(fēng)格和語氣,模仿不同語言的風(fēng)格,中文水平刷新SuperCLUE榜單。

二、全能模型將加速5大行業(yè)場景演進

方向1 —— 家庭教育:兒童陪伴機器人將迎來第二曲線

家庭教育對孩子的價值觀、習(xí)慣、社會適應(yīng)能力產(chǎn)生深遠影響,當代家長在教育過程中的溝通意愿、溝通方法、時間精力普遍受限,全能模型能以溝通互動的方式輔助解決這類問題。

我的觀點:全能模型在素質(zhì)教育方向的潛力,遠大于課程輔導(dǎo),這恰恰是國民教育最缺失的部分。潛在用戶群體可能是一二線城市的80、90后的職場人士,他們的特點是重視啟蒙教育、經(jīng)濟充裕、敢于嘗試、缺少時間。

看好三種全能模型溝通互動式輔導(dǎo)方向:

1)課程輔導(dǎo):GPT-4o發(fā)布會中展示了數(shù)學(xué)課程輔導(dǎo),實測確實能夠逐步講解高考數(shù)學(xué)的解題思路。學(xué)生也可以一邊聽AI講解編程,一邊在屏幕上查看代碼示例和運行結(jié)果。這種指導(dǎo)方式非常個性化,從設(shè)定問題到啟發(fā)思考,再到糾正錯誤,最后給予鼓勵,全能模型有潛力輔助完整的PDCA學(xué)習(xí)過程。過去的AI,絕對做不到。

2)素質(zhì)能力輔導(dǎo)

  • 心理自查:例如“兒童繪畫心理評估”,模型通過做畫的內(nèi)容來推斷兒童的心理狀態(tài)、認知和興趣愛好等。理性答題會刻意遮掩很多東西,但藝術(shù)表達、故事性溝通會將真實心理展露無疑。類似的需求還有兒童抑郁、焦慮評估等。故事性、鼓勵、尊重和易懂的方式與孩子溝通,增強他們的自信心和自我效能感。
  • 底線教育:校園霸凌成為今年的熱議話題,為了培養(yǎng)孩子的反霸凌意識,通常會使用有聲繪本,但繪本缺乏互動性。全能模型的交流能力可以彌補這一點,通過互動增強孩子的學(xué)習(xí)效果。同樣重要的還有性啟蒙、法律常識、道德規(guī)范、社交邊界感和坦誠溝通等,它們對個人安全和社會競爭力有著深遠影響,卻常常被家長所忽視。
  • 天賦系統(tǒng):智商不代表孩子的全部,兒童天賦系統(tǒng)還包括人際交往、口才表達、自然認知等8個維度。全能模型可以發(fā)揮個性化、互動性的優(yōu)勢,結(jié)合兒童陪伴機器人幫助孩子發(fā)展自己的天賦,提高綜合能力的同時,也在自己擅長的領(lǐng)域內(nèi)取得進步。

3)環(huán)境氛圍輔導(dǎo):家庭環(huán)境對孩子的學(xué)習(xí)動力和習(xí)慣非常重要。如果家長的情緒失控、過度施壓,可能會對孩子的心理產(chǎn)生負面影響?,F(xiàn)在職場人士壓力都很大,回家面對孩子時難免會力不從心。

如果有一個全天候的氛圍輔導(dǎo)AI助手,就可以幫助實時分析家庭氛圍和孩子心理狀態(tài),及時提醒,每日復(fù)盤總結(jié)給到家長輔導(dǎo)建議,督促家長成為孩子的榜樣,而不是等娃抑郁后再去看心理醫(yī)生。

我的觀點:家庭教育機器人這一輪機遇,AI+機器人的公司會更有優(yōu)勢,互聯(lián)網(wǎng)教育平臺將受到一定沖擊。因為視頻課件類的材料數(shù)據(jù)獲取門檻不高,容易在拼夕夕等渠道獲得后作為RAG外掛知識,或者訓(xùn)練到全能模型。這意味著未來的課程輔導(dǎo),比以往更加考驗產(chǎn)品設(shè)計與工程整合能力,變相削弱了教研、教學(xué)的壁壘。

方向2 —— 具身智能:將重塑單身經(jīng)濟、老年經(jīng)濟、家庭服務(wù)的場景體驗

2024年的具身智能跟過去不再是一個物種,有3項顛覆式技術(shù)突破:

1)精細化動作學(xué)習(xí):基于端到端神經(jīng)網(wǎng)絡(luò)的動作學(xué)習(xí),打工機器人擎天柱、特斯拉FSD采用同款技術(shù),理論上機器人可以學(xué)會任何手藝活并且比人更加精準。國內(nèi)類似賽道比較看好初創(chuàng)公司星塵智能。

2)電機驅(qū)動替代液壓:電機搭配高性能伺服系統(tǒng),一次性突破控制精度、瞬時響應(yīng)、能耗、體積、安全性等5項瓶頸,最具代表性的就是波士頓動力電機板Atlas的那段宣傳視頻。

3)GPT-4o真人級交互:全能模型可以為具身智能注入靈魂,但靈魂與神經(jīng)系統(tǒng)的連接還需要補全和增強。我預(yù)判OpenAI后續(xù)版本將針對空間智能來強化,尤其補全觸覺模態(tài),增強全能模型與邊緣計算的實時協(xié)同,提升機器人精細化的決策、規(guī)劃、控制能力。類似方向也建議持續(xù)關(guān)注Figure、李飛飛創(chuàng)業(yè)項目的進展。

單身群體的特征是更注重個人生活品質(zhì)、沒有家庭負擔(dān),可支配收入更多用于消費,同時潛在大量情感、社交、生理等需求,對定制化體驗情有獨鐘。全能模型加持后的具身智能可以滿足:

1)情感陪伴:“具身”意味著可以在陪伴中提供更強的物理存在感、場景帶入感,GPT-4o可以理解用戶的信念、欲望、意圖來擬人式交流陪伴,并且擁有無限的心力、時間、知識,可以Cosplay各種人設(shè),這是人類無法做到的。

2)社交技能:具身智能可以幫助性格內(nèi)向、社恐的人做模擬演練,扮演成客戶、同事或朋友等角色,幫助練習(xí)各種場景下的溝通和應(yīng)對技巧,輔導(dǎo)表情管理和情緒管理,克服緊張焦慮,增強自信。

3)情趣體驗:試想如果有這樣一個情趣機器人,形象、聲音、性格、動作、技能、劇本都按照你的要求來定制,會是一種什么樣的體驗?這里的風(fēng)險是可能導(dǎo)致單身人群比例進一步上升,也伴隨倫理合規(guī)的問題。

隨著人口老齡化,老年人對健康護理的需求日益增加,具身智能可以提供支持:

1)安全護理:協(xié)助老年人完成日常活動,如穿衣、洗漱和進食,并監(jiān)測他們的健康狀況,在緊急情況下,它能迅速呼叫救援并通知家人。此外,它還能提供心理支持和思維訓(xùn)練,幫助預(yù)防腦力衰退。

2)教育娛樂:提供文娛內(nèi)容和知識,幫助老年人學(xué)習(xí)新知識和技能。比如播放音樂、電影、有聲書,陪伴老人聊天,提供健康養(yǎng)生知識。模擬社交、游戲互動,讓老人在娛樂中學(xué)習(xí)新知識,保持大腦活躍,豐富老年人的精神生活。

3)數(shù)字永生:全能模型可以通過具身智能記錄老人的日常多模態(tài)數(shù)據(jù),包括環(huán)境、形象、人格、重要時刻等信息,上傳到云端重建逝者的孿生分身,讓親友能夠在虛擬世界中與逝者“相聚”。云端提供數(shù)字族譜、家族故事、數(shù)字殯葬、數(shù)字祭掃等業(yè)務(wù),降低殯葬、墓園的資源消耗,低碳環(huán)保。

智能家居領(lǐng)域,當前有兩個局限:處理復(fù)雜場景、學(xué)習(xí)能力。例如:掃地機器人,當人遇到地上有一條數(shù)據(jù)線時會撿起它并放置到正確的位置,但掃地機器人就搞不定。具身智能如果發(fā)揮精細操作、模仿學(xué)習(xí)的優(yōu)勢,有機會解決烹飪、清潔、收納等復(fù)雜的家務(wù)問題,幫助家人專注做他們內(nèi)心真正熱愛的事情。

方向3 —— 超級助理:Her無處不在,人類將淪為硅基文明的引導(dǎo)程序?

我們可以試想這樣一種畫面,全能模型在云端作為超級助理,其分身遍布在生活中作為終端入口,大概會發(fā)生小明這樣的故事:

1)出發(fā)地:家

早晨,小明在助理的呼喚中醒來,超級助理已經(jīng)讓廚師機器人準備好早餐,并根據(jù)小明的健康數(shù)據(jù)調(diào)整了營養(yǎng)配比。它挑選了小明可能感興趣的新聞?wù)绻枰脑捒梢愿∶饔懻?。它提醒小明當天的日程、交通和天氣情況,并為他準備了合適的衣服、出行物品,調(diào)整了室內(nèi)的溫度和濕度。

2)途中:車內(nèi)

去往綠道的途中,助理通過FSD幫助小明解放雙手,監(jiān)控實時交通狀況,自動避開擁堵路段。車內(nèi),安排了一位機器人美女伴侶分身,陪他聊天、玩游戲。家里的機器人已經(jīng)處理了早餐的廚余垃圾等清潔工作,開窗通風(fēng)、照顧寵物。剛好,助理注意到小明的投資組合中有一各交易策略被觸發(fā),它自動執(zhí)行了交易,將虛擬幣的浮盈落袋為安。

3)目的地:綠道徒步

到達徒步的綠道后,助理通過智能手表與小明保持聯(lián)系,提供實時的天氣更新和安全提示。它幫助小明規(guī)劃了一條既安全又風(fēng)景優(yōu)美的徒步路線,推薦最佳的拍照地點。在小明享受徒步時,助理監(jiān)測他的健康狀況,確保不會過度勞累。徒步結(jié)束時,家里的廚師機器人已經(jīng)開始在洗菜、切墩,伴侶機器人已經(jīng)采購好消費品回到車上,準備幫小明放松肌肉疲勞、聊聊徒步體驗。

全能模型為上述場景帶來了兩個體驗變革:

  • 單場景體驗極致閉環(huán):全模態(tài)理解用戶的意圖,用接近真人、替代人的方式來解決細分場景的全量問題。
  • 跨場景體驗無縫銜接:通過主動交流+學(xué)習(xí)用戶習(xí)慣的方式,來實現(xiàn)跨越時間、空間的全場景行動規(guī)劃與動作銜接。

我的觀點:為什么馬斯克說特斯拉不是車企?因為特斯拉本質(zhì)上是做AI機器人的公司。我相信,未來凡是把車當成“車”來做的車企都會陷入競爭劣勢,把車當成AI機器人、超級助理入口、能源管理節(jié)點做的公司更有機會。全能模型,將加速這種Her無處不在的智能化趨勢。

方向4 —— 智能咨詢:認知繭房加速形成,咨詢分身增強領(lǐng)域IP的睡后收入

互聯(lián)網(wǎng)時代,搜索實現(xiàn)了信息平權(quán),大幅降低信息獲取的門檻。Feeds流構(gòu)筑了信息繭房,幫助一部分人進化認知、做好流量生意,也讓另一部分人沉迷于人性弱點。

我的觀點:AI時代,全能模型將加速認知繭房的形成,在局部范圍內(nèi)做到科技平權(quán)。因為領(lǐng)域IP獲得了更強的咨詢服務(wù)輸出能力,用戶有了更加高效學(xué)習(xí)、解決問題的沉浸式入口,認知成長的門檻將越來越低。

未來智能咨詢可能的服務(wù)模式:

新模式可以帶來哪些明顯的變化?

1)需求端_用戶

  • 解決效率:用戶可以用實時溝通的方式享受咨詢服務(wù),不需要等IP本人。
  • 價格便宜:比IP本人咨詢要便宜很多,比如10元一次的輕量咨詢,用完即走。
  • 咨詢體驗:全能模型以更接近與真人溝通的方式進行咨詢,高情商、人性化。備案后的全能模型將擁有相對較正的三觀,沒有主觀偏見和人性弱點。

2)供給端_IP、領(lǐng)域?qū)<?/strong>

  • 生產(chǎn)效率:領(lǐng)域IP們通過錄制視頻、隨口記錄等方式借助全能模型快速生成原生態(tài)知識,過去很多沒有精力梳理材料、做IP的人也可以參與。
  • 服務(wù)效率:全能模型可以同時向所有客戶提供實時、個性化的咨詢服務(wù)。
  • 精準分流:全能模型分析客戶意圖生成畫像,將高凈值客戶轉(zhuǎn)給人工做深度咨詢,幫IP本人更聚焦高價值區(qū)域。
  • 運營效率:全能模型極大降低了知識的生成門檻,擴大了知識數(shù)據(jù)的來源,提升了問題解決覆蓋范圍,IP根據(jù)用戶與AI分身的交流反饋動態(tài)優(yōu)化知識,形成數(shù)據(jù)飛輪的復(fù)利效應(yīng),讓分身的咨詢能力可以快速進化。
  • 產(chǎn)權(quán)保護:IP的私域知識不透明,競爭保護窗口期比以往更長。只要定價合理,至少能讓原創(chuàng)者先賺到一波,不至于像網(wǎng)課那樣苦苦研發(fā)出內(nèi)容一經(jīng)發(fā)布就為他人做嫁衣。通過認知升級和知識更新,還可以動態(tài)加固壁壘。

預(yù)判一個財富密碼,認知差 + RAG + 全能模型 = 睡后收入。

未來將有大量領(lǐng)域IP和有咨詢需求的人從模式中受益。IP甚至不需要規(guī)模化作業(yè),僅靠幾人就可以獲取過去十人、百人級別的商業(yè)價值!

方向5 —— 軟件服務(wù):整合企業(yè)全量知識、增強服務(wù)體驗,數(shù)據(jù)要素是關(guān)鍵賣鏟人

1)全量知識高效利用:這里我想重新定義下“知識”這個概念。

  • 傳統(tǒng)的知識:是指文檔、FAQ、規(guī)則或者圖譜等,可以被人和AI直接利用的信息。
  • 未來的知識:物理世界中能被模型理解的數(shù)據(jù),都可以成為知識。例如:某段Top Salse成功銷售轉(zhuǎn)化的錄音或視頻,其中蘊含的溝通技巧和銷售策略就可以給模型來分析運用。
    企業(yè)若能為知識管應(yīng)用體系建立正向循環(huán),將獲得更好的市場機會和客戶口碑。

2)增強客戶服務(wù)體驗

  • 多模態(tài)體驗:企業(yè)有機會實現(xiàn)多模態(tài)交互的智能客服系統(tǒng),利用更豐富的圖片、視頻數(shù)據(jù)來給到客戶更直觀高效的體驗。例如:客戶可以要求APP分析過去一年的消費數(shù)據(jù),并生成包含趨勢圖、餅圖、條形圖和節(jié)省建議的報告。這種個性化服務(wù)在過去是無法即時提供的。
  • 體驗效率提升:按用戶需推薦、溝通商量的體驗,肯定比主動搜索更爽。舉個例子:旅游APP,未來的核心應(yīng)該是AI交互入口,而不是給一堆酒店、機票、游輪等選項。因為所有產(chǎn)品和攻略都可以被視為AI的知識庫,可以像吩咐秘書一樣讓APP來完成所有安排。

我的觀點:從客戶體驗的角度,催生了大量企業(yè)軟件服務(wù)的商業(yè)機遇。因為大多數(shù)現(xiàn)有C端APP都值得用全能模型重構(gòu)一遍。

3)數(shù)據(jù)要素:AI軟件服務(wù)的鏟子是數(shù)據(jù),高質(zhì)量、細分場景的數(shù)據(jù)將催生至少5年的數(shù)據(jù)要素產(chǎn)業(yè)增長。有兩個跡象表明,即便是OpenAI也非常缺數(shù)據(jù):

  • GPT-4o免費:就是因為缺少高質(zhì)量的數(shù)據(jù)。多模態(tài)的場景多樣性決定了它需要積累幾年。實驗前期數(shù)據(jù)質(zhì)量重要性遠大于規(guī)模,因為高質(zhì)量數(shù)據(jù)代表著一種工藝標準,代表對天花板的極致追求,無法繞過大量人工處理數(shù)據(jù)的過程。
  • OpenAI跟Reddit合作:昨天的新聞,雙方合作主要就是交易數(shù)據(jù),Reddit也是Google的數(shù)據(jù)供應(yīng)商。

三、國內(nèi)AI廠商面臨4個挑戰(zhàn)

挑戰(zhàn)1 —— GPT-4o技術(shù)成熟度

OpenAI為了確保發(fā)布會演示效果,一定會精選GPT-4o最擅長的場景來展示,實際測試的平均水平應(yīng)該多少打點折扣。Sora的宣傳視頻也有很大水分,實際出圖可用率只有1/300,主要靠后期,GPT-4o的體驗還有待更多迭代與實測。

挑戰(zhàn)2 —— 影響國內(nèi)復(fù)現(xiàn)基模型的主要因素

國內(nèi)在跟進ChatGPT、GPT-4的過程中沒有展現(xiàn)出體系化的獨創(chuàng)性,Sora發(fā)布后僅有生數(shù)科技勉強跟進,GPT-4o發(fā)布時已經(jīng)領(lǐng)先國內(nèi)2代以上。

OpenAI的核心優(yōu)勢到底是什么?我認為是:創(chuàng)新文化>人才>算法>數(shù)據(jù)>算力>系統(tǒng)工程。

以數(shù)據(jù)為例:

  • 2018年:OpenAI開始標注GPT時應(yīng)該初步構(gòu)建了數(shù)據(jù)生產(chǎn)流水線、效果實驗工程
  • 2021年:OpenAI開始標注GPT-3.5,并構(gòu)建支持RLHF體系的數(shù)據(jù)。早期模型版本的發(fā)布可加速獲得高質(zhì)量數(shù)據(jù)喂給新版本,形成數(shù)據(jù)飛輪的復(fù)利效應(yīng)。
  • 2023年:國內(nèi)的大模型數(shù)據(jù)產(chǎn)線基于開源模仿構(gòu)建,工藝細節(jié)還在持續(xù)完善,數(shù)據(jù)質(zhì)量、數(shù)據(jù)規(guī)模還遠遠不足。

這只是數(shù)據(jù)視角的差距,更不用說各維度綜合差距。

我的觀點:國產(chǎn)AI至少落后5年。一些投資人、CEO們的樂觀自嗨聽聽就好,問他們自家大模型什么時候能拿出平替GPT-4o的效果來公測?一問一個不吱聲。

國內(nèi)廠商如何才能復(fù)現(xiàn)GPT-4o?很大程度上取決于Meta何時開源。當然,也看到國內(nèi)以月之暗面、生數(shù)科技等清華姚班系為代表的初創(chuàng)大模型公司,成立1年就取得矚目的進展,國內(nèi)AI“產(chǎn)-學(xué)-研”聯(lián)動已初見成效。

挑戰(zhàn)3 —— 全能模型應(yīng)用的安全性

就在昨天,Bengio、Hinton和姚期智三位圖靈獎得主領(lǐng)銜25位全球頂尖AI科學(xué)家,在權(quán)威科學(xué)期刊 Science 呼吁各國領(lǐng)導(dǎo)人針對AI風(fēng)險采取更有力的行動,并警告近六個月所取得的進展還不夠。剛好2天前OpenAI解散超級對齊團隊,安全部門拿不到算力。我認為AI安全之所以難做的核心原因是:

1)對抗性攻擊的復(fù)雜性:大模型底層基于概率,如果攻擊者精心設(shè)計引導(dǎo)模型出錯,防不勝防。更何況OpenAI處于技術(shù)快速演進的檔口,安全體系無法預(yù)判涌現(xiàn)的臨界點,GPT-4o帶來更多的模態(tài)和場景,更加大了安全的復(fù)雜性。

2)黑箱中自主拆解目標:如果AI具備定義目標、拆解目標、規(guī)劃路徑的“絕對權(quán)限”,哪怕只具備其一,就可能發(fā)生這樣的場景:人讓AI去除掉全球所有垃圾,AI認為人就是垃圾的源頭,所以AI把人類滅了。這里的悖論在于對指令的理解可能偏差,AI執(zhí)行路徑的規(guī)劃過程不可解釋、難以干預(yù)、瞬間執(zhí)行。

挑戰(zhàn)4 —— 領(lǐng)域模型與私有化存在客觀局限

1)國產(chǎn)化算力:國產(chǎn)化需要適配,性價比有待提升,熱門型號華為昇騰910B需要排隊采購。

2)模型參數(shù)量與性能:相同硬件條件下,模型參數(shù)量越高,涌現(xiàn)效果越好,但響應(yīng)延時也越高。所以如果要精打細算,就得拆分業(yè)務(wù)場景,具體分析選型搭配。那問題來了,GPT-4o這類全能模型增加了多種模態(tài),對模型參數(shù)、性能的要求會更高。

3)私有化大模型的可控性:企業(yè)容易陷入一種誤區(qū),希望采購1個大模型解決全部業(yè)務(wù)需求。但實際上目前的私有化大模型大致可以分成三類,如圖:

我的觀點:從私有化業(yè)務(wù)落地的角度,我的看法是:L1、L2必備,L0是選配或走公有云。完備方案是“多種大模型 + 傳統(tǒng)NLP + 專家系統(tǒng)”,發(fā)揮各自的優(yōu)勢。

4)私有化大模型訓(xùn)練:業(yè)務(wù)往往期望可訓(xùn)練大模型,但目前做過嘗試的AI廠商都遭遇諸多挑戰(zhàn),包括項目虧損、數(shù)據(jù)運營投入不足、訓(xùn)練效果難以達到預(yù)期,以及難規(guī)?;桓丁K接谢h(huán)境下的產(chǎn)品交付是個體系化工程,復(fù)雜度遠超一般想象。

我的觀點:現(xiàn)階段務(wù)實點的思路是不強求私有化訓(xùn)練,要求AI廠商在出廠前就針對業(yè)務(wù)需求,評估好需求滿足度。一旦實際交付驗證時不及預(yù)期,優(yōu)先嘗試調(diào)整知識,其次調(diào)整Prompt,最后調(diào)整工程邏輯、閾值配置。若試過多種方法依然不及預(yù)期,說明應(yīng)該返廠,待廠商AI實驗室中優(yōu)化到達可用標準,給出效果評測報告,再發(fā)布更新到私有化。需要甲乙雙方擁有較強的信任基礎(chǔ)與開放心態(tài)。

作者:于長弘;公眾號:弘觀AI

本文由 @于長弘 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!