AI就是所有人瘋狂競(jìng)爭(zhēng),最后Google贏得比賽的游戲?
在人工智能飛速發(fā)展的當(dāng)下,科技巨頭們?cè)贏I領(lǐng)域展開了激烈的競(jìng)爭(zhēng)。本文聚焦于Google在AI賽道上的戰(zhàn)略布局與技術(shù)突破,從應(yīng)對(duì)ChatGPT沖擊到推出Gemini系列模型,再到將AI能力深度融合于搜索、辦公等核心業(yè)務(wù),展現(xiàn)了Google如何憑借深厚的技術(shù)積累和資源優(yōu)勢(shì),在AI競(jìng)賽中逐步確立領(lǐng)先地位。文章還探討了AI技術(shù)在多模態(tài)處理、個(gè)性化服務(wù)以及機(jī)器人應(yīng)用等方面的前沿進(jìn)展,揭示了Google在AI領(lǐng)域的雄心壯志與未來(lái)愿景。
2016年,剛剛成為GoogleCEO幾個(gè)月后,桑達(dá)爾·皮查伊發(fā)表聲明稱Google將成為一家“AI優(yōu)先”的公司,這一宣言背后,是Google對(duì)人工智能未來(lái)發(fā)展的戰(zhàn)略性押注。2017年,一群Google研究人員撰寫了一篇關(guān)于AI的開創(chuàng)性論文《Attention Is All You Need》,提出了一種新的網(wǎng)絡(luò)架構(gòu)來(lái)分析文本,也就是后來(lái)成為了生成式AI技術(shù)基礎(chǔ)的Transformer。
然而,七年后的2022年底,ChatGPT橫空出世,Google被打了個(gè)措手不及。諷刺的是,Google早在兩年前就已宣布了類似的技術(shù)LaMDA,卻未能將其及時(shí)推向市場(chǎng)。正如許多競(jìng)爭(zhēng)對(duì)手所預(yù)料的,這個(gè)“房間里的大象”終于被迫醒來(lái)。面對(duì)突如其來(lái)的競(jìng)爭(zhēng)壓力,皮查伊甚至請(qǐng)回了公司聯(lián)合創(chuàng)始人拉里·佩奇和謝爾蓋·布林來(lái)重新審視公司的AI戰(zhàn)略。
在ChatGPT推出后的幾個(gè)月,Google匆忙推出了自己的聊天機(jī)器人Bard(后改名為Gemini)。為了追趕對(duì)手的領(lǐng)先優(yōu)勢(shì),Google不斷為Gemini添加大量新功能,試圖彌補(bǔ)落后的局面。Gemini在過(guò)去也曾卷入爭(zhēng)議,去年不得不暫時(shí)下線其圖像生成功能,原因是這個(gè)聊天機(jī)器人生成了穿著納粹軍裝的黑人士兵圖像,同時(shí)又拒絕生成白人的圖像,這一功能直到六個(gè)月后才重新恢復(fù)。
經(jīng)過(guò)幾年的努力,甚至重組了團(tuán)隊(duì)結(jié)構(gòu),將Gemini應(yīng)用團(tuán)隊(duì)轉(zhuǎn)移到DeepMind部門,Google通過(guò)Gemini實(shí)現(xiàn)了反彈,將人工智能業(yè)務(wù)推向快車道,幾乎在所有方面都趕上了OpenAI。
值得注意的是,所有AI領(lǐng)域的大公司似乎都在朝著相同的方向發(fā)展,專注于相似的技術(shù)路線:開發(fā)AI Agent(能夠自主完成任務(wù)的AI系統(tǒng))、深度搜索、更輕量的模型等等。這種趨同性可能意味著整個(gè)行業(yè)在某種程度上形成了共識(shí),而Google正試圖在這個(gè)共識(shí)中脫穎而出。
1.Gemini的高頻實(shí)用更新:從圖像編輯到開源模型
就在蘋果承認(rèn)那個(gè)所謂更智能的AI版Siri目前只是個(gè)空頭支票的同一時(shí)期,Gemini推出了數(shù)個(gè)驚艷的更新。Google的Gemini 2.0 Flash模型實(shí)現(xiàn)了讓用戶直接用自然語(yǔ)言來(lái)編輯圖片的功能,精確度和靈活性達(dá)到了很高的水平。此前備曾收到爭(zhēng)議的圖像功能,如今已成為Gemini的亮點(diǎn)之一。
用戶可以精確指導(dǎo)AI只修改圖像中想要改動(dòng)的部分,還能在同一張圖上連續(xù)做多次精確修改而風(fēng)格不會(huì)出現(xiàn)大的偏差,就像在給一位真實(shí)的設(shè)計(jì)師發(fā)需求一樣。雖然目前Gemini 2.0 Flash還不能做到100%的一致性和準(zhǔn)確性,但它顯然為用戶提供了創(chuàng)造更有趣、有用內(nèi)容的強(qiáng)大工具。
將Google DeepMind 的 CEO Demis Hassabis變成一個(gè)長(zhǎng)發(fā)男子
在開源方面,Google上周還推出了新的多模態(tài)模型Gemma 3,并對(duì)外開放了模型權(quán)重,允許在遵守規(guī)定的情況下用于商業(yè)用途。Google表示,Gemma 3的Elo評(píng)分達(dá)到了1338分,相當(dāng)于DeepSeek R1模型(1363分)的98%。
但有個(gè)顯著區(qū)別:DeepSeek模型需要32張英偉達(dá)H100顯卡才能達(dá)到這個(gè)分?jǐn)?shù),而Gemma 3只需要一張H100就行。因此,Google宣稱Gemma 3是“能在單張GPU或TPU上運(yùn)行的最強(qiáng)大模型”。
Gemma 3的上下文窗口從先前的8192個(gè)token擴(kuò)展至128000,基于Gemini 2.0基礎(chǔ)架構(gòu)的Gemma 3還是一款多模態(tài)模型,能夠處理文本、高分辨率圖像以及視頻。這些技術(shù)指標(biāo)顯示了Google在AI基礎(chǔ)模型領(lǐng)域的持續(xù)突破。
2.搜索與AI的深度融合:個(gè)性化成為關(guān)鍵
顯然,Google在很多領(lǐng)域都能夠持續(xù)創(chuàng)新,比如Gemini,或者體驗(yàn)一下Waymo無(wú)人駕駛汽車就知道了?,F(xiàn)在的問(wèn)題是,Google能在自己的核心產(chǎn)品和主營(yíng)業(yè)務(wù)上進(jìn)行創(chuàng)新嗎?微軟目前的AI戰(zhàn)略很大程度上依賴于與OpenAI的合作伙伴關(guān)系,而非完全自主創(chuàng)新,蘋果則在AI領(lǐng)域似乎完全迷失方向。
現(xiàn)在,Google一方面在搜索中加入了 Gemini 的 AI 功能,另一方面又在 Gemini中強(qiáng)化了搜索能力,直接切入 OpenAI試圖搶占的交匯點(diǎn)。過(guò)去幾周Google發(fā)布的一系列公告,許多都與搜索與AI語(yǔ)言模型的融合有關(guān),看上去像是在追趕ChatGPT等廠商早已推出的AI搜索功能,但Google試圖達(dá)到更高水平。
犧牲一部分隱私,讓AI更了解你?Google最近上線了一項(xiàng)新的“實(shí)驗(yàn)性功能”,用戶可以把搜索記錄共享給Gemini,來(lái)獲得更加個(gè)性化的搜索結(jié)果。為了保護(hù)隱私,只有Gemini個(gè)性化模型才會(huì)連接到搜索歷史記錄,且相關(guān)對(duì)話不會(huì)被用來(lái)改進(jìn)Gemini,不會(huì)存儲(chǔ)在其他地方,并且會(huì)在60天內(nèi)自動(dòng)刪除。
有了這個(gè)功能,用戶可以向Gemini提一些基礎(chǔ)性問(wèn)題,比如“我上周搜索的那家餐廳叫什么名?”或者“我要去紐約了,能根據(jù)我的搜索歷史給我推薦餐廳嗎?”。
此外,Google去年底推出的率先推出的Deep Research功能,如今用戶無(wú)需訂閱也可以免費(fèi)使用了。使用Deep Research時(shí),根據(jù)用戶的指令,Gemini會(huì)先制定一個(gè)研究計(jì)劃,然后開始搜索網(wǎng)絡(luò)上與提問(wèn)相關(guān)的信息,最終生成一份全面但易讀的報(bào)告。這一功能從最初基于成本較高的Gemini 1.5 Pro模型,現(xiàn)已升級(jí)到新的推理模型Gemini 2.0 Flash Thinking Experimental模型上。
3.從數(shù)字世界邁向物理世界:Gemini Robotics的野心
Google還在嘗試將Gemini應(yīng)用于物理世界。DeepMind近期推出了兩個(gè)新的模型,旨在幫助機(jī)器人更好地執(zhí)行物理世界的任務(wù)。第一個(gè)是視覺(jué)-語(yǔ)言-動(dòng)作模型Gemini Robotics,讓機(jī)器人即使沒(méi)有接受過(guò)相關(guān)訓(xùn)練,也能夠理解新情況。
Gemini Robotics基于Gemini 2.0構(gòu)建,結(jié)合了Gemini的多模態(tài)理解能力,并加入了物理動(dòng)作作為新的模態(tài)。DeepMind在演示視頻中展示了搭載Gemini Robotics的機(jī)器人,這些機(jī)器人能聽(tīng)懂人說(shuō)的指令并做出相應(yīng)動(dòng)作:機(jī)械臂能折紙、遞蔬菜、小心地把眼鏡放進(jìn)盒子里,還能完成其他各種任務(wù)。
DeepMind還推出了Gemini Robotics-ER(具身推理),一種先進(jìn)的視覺(jué)語(yǔ)言模型,能夠理解復(fù)雜且動(dòng)態(tài)的世界。簡(jiǎn)單來(lái)說(shuō),這個(gè)系統(tǒng)是給機(jī)器人開發(fā)者用的,目的是讓其他機(jī)器人研究人員利用此模型來(lái)訓(xùn)練他們自己的模型,以控制機(jī)器人的動(dòng)作。
Gemini Robotics揭示了GoogleDeepMind眼中AI的發(fā)展方向。一些研究人員認(rèn)為,AI要想達(dá)到或超越人類能力,可能需要某種形式的“具身性”,簡(jiǎn)單說(shuō)就是讓AI能在真實(shí)世界中感知和行動(dòng)。而Google似乎已經(jīng)走在了這條路上。
4.Google的核心優(yōu)勢(shì):生態(tài)、資源與底蘊(yùn)
Google追趕OpenAI的表現(xiàn)目前為止還不錯(cuò),Gemini 2.0 Pro和Flash模型確實(shí)很出色。深度研究功能做得相當(dāng)好,上下文窗口大小在業(yè)界仍然是領(lǐng)先的,與搜索、Gmail、Google辦公套件、Google Meet、Android等的整合也在進(jìn)行中。
Google還把推理模型整合到了更多日常應(yīng)用中,包括日歷、筆記、任務(wù)和照片。這使得Gemini可以執(zhí)行更為復(fù)雜的任務(wù),比如Google舉例的:“在YouTube上找一個(gè)簡(jiǎn)單的餅干食譜,把配料添加到我的購(gòu)物清單中,然后幫我找附近還開門的雜貨店?!蔽磥?lái),Gemini還能增強(qiáng)對(duì)用戶照片的理解能力,幫助用戶在需要時(shí)提取信息,例如整理過(guò)去旅行的行程,或提醒證件到期等。
有了足夠優(yōu)秀的基座模型,這讓Google能夠充分利用自己現(xiàn)有的產(chǎn)品組合、云基礎(chǔ)設(shè)施以及他們?cè)诂F(xiàn)代工作生活中的深度嵌入優(yōu)勢(shì)。Google還擁有數(shù)十億用戶和充足的資金實(shí)力,可以利用自己的現(xiàn)有用戶基礎(chǔ),以O(shè)penAI們無(wú)法企及的方式發(fā)揮優(yōu)勢(shì)。
皮查伊曾在公司年終戰(zhàn)略會(huì)議表示:“縱觀歷史,你不一定要成為第一個(gè),但你必須有良好的執(zhí)行力,真正打造出同類最佳的產(chǎn)品。我認(rèn)為這就是2025年的關(guān)鍵所在?!彼M?025年底有5億人使用Gemini,此外還有Project Astra這樣的通用Agent項(xiàng)目在醞釀當(dāng)中。
Google本來(lái)有潛力成為像ChatGPT這樣的對(duì)話式AI的市場(chǎng)領(lǐng)導(dǎo)者,但當(dāng)時(shí)沒(méi)能把握住這個(gè)機(jī)會(huì)。現(xiàn)在,現(xiàn)在Google所能做的就是繼續(xù)推進(jìn)這項(xiàng)服務(wù),吸引更多用戶來(lái)使用。
各個(gè)科技公司正不斷推出新的應(yīng)用場(chǎng)景和能力。盡管最初被OpenAI刺激而被動(dòng)反應(yīng),但憑借深厚的技術(shù)積累和廣泛的用戶基礎(chǔ),Google正逐漸重新確立其在AI領(lǐng)域的領(lǐng)導(dǎo)地位。在這場(chǎng)AI競(jìng)賽中,Google用Gemini的亮眼表現(xiàn)證明了自己依然是絕對(duì)的主力選手,而且底子依然足夠厚,正在展示出贏得這場(chǎng)比賽的實(shí)力和決心。
本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號(hào):【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!