萬字詳述:2024上半年最值得關(guān)注的10大AI新品丨海外篇

2 評論 4730 瀏覽 21 收藏 41 分鐘

2024年上半年海外發(fā)布的10款重要AI產(chǎn)品,涵蓋了初創(chuàng)公司和老牌科技巨頭的最新成果。這些產(chǎn)品不僅展示了AI技術(shù)的進(jìn)步,還為各行各業(yè)帶來了全新的應(yīng)用可能性。無論您是科技愛好者還是專業(yè)人士,這篇文章都將為您提供寶貴的信息和啟發(fā)。

2023 年標(biāo)志著 AI 聊天機(jī)器人和各類工具的誕生、測試和初期探索。2024 年則迎來了 AI 工具的成熟與廣泛應(yīng)用。阿木聊AI(智能體)關(guān)注到海外 2024 上半年最為重要的 10款 AI 產(chǎn)品發(fā)布,包括初創(chuàng)公司 Anthropic、Mistral 和 OpenAI,老牌科技巨頭 Google 和 Microsoft,以及 Adobe 和 Salesforce 等服務(wù)商。

一、OpenAI/ChatGPT-4o

OpenAI 在 5 月推出了旗艦?zāi)P?ChatGPT-4o,這是一款集視覺、聽覺和實(shí)時對話于一體的 AI 聊天機(jī)器人。它的主要特點(diǎn)和功能包括:

  • 多模態(tài)理解與生成:可以對音頻、視覺和文本進(jìn)行實(shí)時推理,接受文本、音頻和圖像的任何組合作為輸入,并生成文本、音頻和圖像的任何組合進(jìn)行輸出。能更好地理解和處理復(fù)雜信息,提供更豐富全面的回答。
  • 實(shí)時響應(yīng)能力:能夠在最短 232 毫秒內(nèi)響應(yīng)音頻輸入,平均響應(yīng)時間為 320毫秒,與人類在對話中的響應(yīng)時間相似,使用戶能更流暢地與之交互,提高溝通效率。
  • 跨模式安全性:在設(shè)計(jì)中內(nèi)置了跨模式的安全性,并創(chuàng)建了新的安全系統(tǒng),為語音輸出提供護(hù)欄。通過過濾訓(xùn)練數(shù)據(jù)和訓(xùn)練后改進(jìn)模型行為等技術(shù),保障用戶信息安全,提高互動安全性。
  • 性能提升:在傳統(tǒng)基準(zhǔn)測試中,其在文本、推理和代碼智能方面達(dá)到了 GPT-4 turbo 級的性能,同時在多語言、音頻和視覺能力方面達(dá)到新高度。在英文文本和代碼上的性能與 GPT-4 turbo 相當(dāng),在非英文文本上有顯著改善。它在多語言處理方面表現(xiàn)出色,支持多種語言。

GPT-4o 相比之前的模型,在多模態(tài)支持、響應(yīng)速度等方面有所提升。例如,GPT-4 是基于文本的語言模型,而 GPT-4o 是跨文本、視覺和音頻的端到端新模型;GPT-4o 的響應(yīng)速度更快,最短可在 232 毫秒內(nèi)響應(yīng)音頻輸入,而 GPT-4 的響應(yīng)速度相對較慢。

GPT-4o 的應(yīng)用場景廣泛,例如可以作為實(shí)時視覺助手,幫助用戶實(shí)時討論所看到的內(nèi)容并獲取相關(guān)信息;輔助學(xué)習(xí),如讀取 iPad 中的題目并通過語音提供學(xué)習(xí)指導(dǎo);充當(dāng)實(shí)時翻譯,實(shí)現(xiàn)不同語言間的實(shí)時翻譯;用于會議助手,記錄會議內(nèi)容、生成紀(jì)要和總結(jié)等;進(jìn)行情感理解與表達(dá),通過聲音理解和表達(dá)情緒,更自然地與用戶交互;處理圖像處理與創(chuàng)作,根據(jù)需求對圖片進(jìn)行處理和創(chuàng)作,如添加文字、調(diào)整顏色等。

二、Apple/AppleIntelligence

蘋果在 6 月的全球開發(fā)者大會上公布了其 AI 項(xiàng)目 Apple Intelligence,預(yù)計(jì)將在秋季為下一代 iPhone、iPad 和 Mac 操作系統(tǒng)帶來多項(xiàng)新功能:

  • 語言和圖像理解與生成能力:為用戶解鎖提高寫作和溝通的新方式,內(nèi)置可全系統(tǒng)調(diào)用的新工具 Writing tools,讓用戶能在幾乎任何場景下對文本進(jìn)行改寫、校對和摘要,包括郵件、備忘錄、Pages 文稿和各類第三方 app。例如可幫助用戶整理課堂筆記,檢查文章是否通順等;改寫工具可根據(jù)受眾和文稿訴求調(diào)整文風(fēng);proofread 工具能檢查語法、措辭和語句結(jié)構(gòu),并給出修改建議及說明;summarize 工具可對用戶選中文本進(jìn)行歸納總結(jié)。備忘錄 app 和電話 app 可讓用戶錄制音頻,并將音頻轉(zhuǎn)寫成文本以及生成內(nèi)容摘要。
  • 提供有趣的圖像創(chuàng)作功能:借助于 image playground,用戶可在數(shù)秒間創(chuàng)作出有趣的圖像,且有動畫、插畫、手繪三種樣式選擇,還可根據(jù)不同分類或自定義描述進(jìn)行創(chuàng)作,也能從照片圖庫中選取人物添加在圖像內(nèi)。該功能直接內(nèi)置在信息等多款 app 中,也可作為單獨(dú)的 app 安裝使用。在信息 app 中使用時,用戶可快速創(chuàng)作出趣味圖像發(fā)送給朋友,并會看到基于當(dāng)前對話生成的個性化創(chuàng)意推薦;在備忘錄 app 中,用戶可通過 Apple Pencil 工具盤中新增的 image wand 工具調(diào)用 image playground,為筆記添加更多視覺趣味性。
  • 情景驅(qū)動的通知:可以識別對用戶個人情境重要的通知。Priority notifications 會出現(xiàn)在分組通知的最上方,提示最為重要的事項(xiàng),還有內(nèi)容摘要幫助用戶快速瀏覽大量或已分組的通知,直接在鎖定屏幕上顯示詳細(xì)信息。全新專注模式“reduce interruptions”僅會顯示可能需要即刻被看到的通知。
  • 跨應(yīng)用程序任務(wù)處理:能夠深入研究用戶的應(yīng)用程序并代表用戶執(zhí)行任務(wù)。例如讓 siri 播放女友發(fā)來的播客,或在收到郵件通知會議延期時,詢問 siri 是否還能趕上和朋友之前約的電影,siri 可以綜合調(diào)用短信、郵件、地圖等工具來進(jìn)行判斷。
  • 關(guān)注個人背景:利用用戶的全部活動和屏幕上的內(nèi)容,例如用戶可以詢問會議轉(zhuǎn)移是否會導(dǎo)致遲到。
  • 更智能的 siri:在其加持下 siri 將更加深入地融入到系統(tǒng)體驗(yàn)中。siri 出現(xiàn)時屏幕周圍會閃爍發(fā)光,用戶可以通過文本使用 siri,它能實(shí)時糾正用戶的陳述,并提供與操作系統(tǒng)更緊密集成的新外觀。它支持連續(xù)對話和上下文理解,能聯(lián)系上下文,分析不連貫或修正過的語言。還具備屏幕內(nèi)容理解能力,例如可把朋友發(fā)來的地址信息添加到朋友的地址中,用戶也能設(shè)置與 siri 進(jìn)行對話的方式(語音或文字),并自由在文字和語音之間切換。

不過,Apple Intelligence 的部分功能目前存在一些使用限制。例如,只有 iPhone 15 Pro 和 iPhone 15 Pro Max 可以訪問 Apple Intelligence,對于 iPad 和 Mac 用戶,則需配備 M1 或更高配的芯片支持的設(shè)備。該系統(tǒng)目前僅支持英語,更多功能、語言和平臺支持需要等到后續(xù)更新。

Apple Intelligence 由多個高性能生成模型組成,其模型架構(gòu)主要包括約30億參數(shù)的本地模型以及可通過私有云計(jì)算并在 Apple 芯片服務(wù)器上運(yùn)行的更大云端語言模型。蘋果在訓(xùn)練基礎(chǔ)模型時不使用用戶的私人個人數(shù)據(jù)或用戶交互,并使用過濾器等方式保證數(shù)據(jù)安全和隱私。其本地模型在一些測試中的性能優(yōu)于部分其他模型,而云上模型水平基本與 GPT-4-Turbo 持平。

中信證券認(rèn)為,蘋果端側(cè) AI 落地過程中主打終端跨 app 的信息整合和調(diào)用,系統(tǒng)級個人助理定位更為清晰,成功拉開與現(xiàn)有安卓端 AI 手機(jī)的差距。如果有一家廠商能夠在 AI 手機(jī)形態(tài)上做到極致,可能是具備芯片、模型、終端、操作系統(tǒng)一體化優(yōu)勢的蘋果。

三、Google/ProjectAstra、Gemini、Imagen3

谷歌在 5 月的 I/O 開發(fā)者大會上展示了其新的專家 AI 助手原型 Project Astra,該助手基于現(xiàn)有的聊天機(jī)器人 Gemini 構(gòu)建,能夠穿透用戶的手機(jī)和智能眼鏡等設(shè)備。Gemini 1.5 Pro 和 1.5 Flash 是谷歌推出的新一代人工智能聊天機(jī)器人模型,而 Imagen 3 則是其更新的圖像生成器,進(jìn)一步提升了圖像生成的質(zhì)量和多樣性。

1. ProjectAstra

Project Astra 是由谷歌的 DeepMind 部門發(fā)起的一個項(xiàng)目,旨在創(chuàng)建能夠理解和處理日常任務(wù)的“通用 AI 代理”。這個項(xiàng)目的目標(biāo)是開發(fā)出能夠與用戶日常互動的 AI,比如通過智能手機(jī)或智能眼鏡等設(shè)備提供幫助和信息。

該計(jì)劃的愿景是讓每個人都能擁有一個專家助手,這個助手可以通過用戶的各種設(shè)備提供個性化服務(wù)和支持。

2. Gemini

Gemini 是谷歌開發(fā)的一款聊天機(jī)器人,它基于先進(jìn)的自然語言處理技術(shù),能夠理解和生成人類語言。Gemini 1.5 Pro 是該系列的最新版本之一,它代表了在對話能力和語言理解方面的進(jìn)一步發(fā)展。

Gemini 1.5 Pro 旨在提供更加豐富和深入的對話體驗(yàn),可能包括更好的上下文理解、更準(zhǔn)確的回答以及更人性化的交互方式。

另外,還有 Gemini 1.5 Flash,這可能是一個針對速度和效率優(yōu)化的版本,能夠在需要快速響應(yīng)的場景中提供服務(wù)。

3. Imagen3

Imagen 是谷歌開發(fā)的一款圖像生成器,它使用人工智能技術(shù)根據(jù)用戶的文本描述生成高質(zhì)量、逼真的圖像。Imagen 3 是該系列的最新版本,它代表了在圖像生成技術(shù)方面的重要進(jìn)步。

與之前的版本相比,Imagen 3 可能在圖像質(zhì)量、生成速度、多樣性和準(zhǔn)確性方面都有顯著提升,能夠更好地滿足創(chuàng)意專業(yè)人士和普通用戶的需求。

四、Microsoft/AIPC

微軟在 5 月宣布推出配備 AI 硬件和支持 AI 應(yīng)用程序的 Copilot Plus PC。這款筆記本電腦專為 AI 任務(wù)設(shè)計(jì),搭載了高性能的基于 Arm 的芯片。

其主要特點(diǎn)包括:

  • 全新系統(tǒng)架構(gòu)與性能表現(xiàn):采用由 CPU、GPU 和可實(shí)現(xiàn)每秒超過 40萬億次運(yùn)算(40+TOPS)的全新 NPU(神經(jīng)處理單元)相結(jié)合的系統(tǒng)架構(gòu)。它是有史以來生產(chǎn)的更快、更智能的 Windows PC,在設(shè)備本地解鎖了一系列全新 AI 體驗(yàn)。例如,通過新功能“回顧”(Recall)可以輕松回憶和找尋此前在 PC 上看過的內(nèi)容,能幫助用戶根據(jù)記憶中的線索碎片快速、直觀地檢索出想要尋找的內(nèi)容。該功能僅限于個人的本地設(shè)備,不會使用任何信息訓(xùn)練 AI 模型。另外,它還支持增強(qiáng)的 Windows 工作室效果、實(shí)時字幕等功能,實(shí)時字幕可以將自動將任意 app 或視頻平臺上的直播或錄播音頻即時翻譯成英文字幕,支持包含中文在內(nèi)的40多種語言翻譯,即便用戶處于離線狀態(tài),也能實(shí)現(xiàn)該功能。
  • 高效的芯片:首批 Windows 11 AI PC 搭載高通的桌面處理器驍龍(Snapdragon)XElite 芯片,這款開創(chuàng)性平臺將重塑性能,憑借一流的 CPU 性能、領(lǐng)先的終端側(cè) AI 推理和支持多天續(xù)航的高能效 PC 處理器,顯著提升 PC 體驗(yàn)。它采用定制的集成高通 Oryon CPU,4 納米制程工藝,擁有 12 個高性能內(nèi)核,在每瓦特性能方面保持領(lǐng)先。當(dāng)用戶需要最高性能時,Oryon CPU 還可以通過雙核增強(qiáng)加速其中 2 個高性能 CPU 內(nèi)核,從而為用戶提供超快響應(yīng)。集成的 Adreno GPU 能夠?qū)崿F(xiàn)出色圖形性能,帶來沉浸式娛樂體驗(yàn)。驍龍 XElite 采用的高通 AI 引擎具有領(lǐng)先的異構(gòu)計(jì)算架構(gòu),Hexagon NPU、Adreno GPU 和 Oryon CPU 等可共同實(shí)現(xiàn)超過 70TOPS 的算力。
  • 其中,高通 Hexagon NPU 是高通 AI 引擎的核心,算力高達(dá) 45TOPS,是目前市場中面向筆記本電腦的全球最快 NPU,并具備領(lǐng)先的每瓦特性能。驍龍 XElite 不僅支持在終端側(cè)運(yùn)行超過 130億參數(shù)的生成式 AI 模型,并且目前獨(dú)家支持 Windows 11 AI PC。此外,該芯片充分發(fā)揮驍龍?jiān)谝苿佑?jì)算領(lǐng)域的專長,支持超快 5G 和 Wi-Fi 7 連接,能夠帶來無縫、無卡頓的極速連接體驗(yàn),還支持 Snapdragon Seamless 體驗(yàn)、微軟安全核心電腦(Microsoft Secured-Core PC)等安全特性,打造從芯片到云的安全體驗(yàn)。
  • 豐富的應(yīng)用體驗(yàn):Windows 率先與高通合作,提供了大量 arm64 原生應(yīng)用程序體驗(yàn),既有 PowerPoint、Word 等 Microsoft 365 的 app,又有愛奇藝、B 站、Foxit PDF Editor 專業(yè)版、酷狗音樂、QQ、QQ 音樂和網(wǎng)易有道翻譯等。Adobe 系列旗艦級 app 也即將登陸 Windows 11 AI PC,其中包括 Photoshop、Lightroom 和 Express 已于本周一上線,今年夏季還將推出 Illustrator、Premiere Pro 及更多 app。在 LiquidText 中,利用完全由 NPU 驅(qū)動的本地 AI 功能,可更快、更智能地對文檔進(jìn)行注釋,從而保證數(shù)據(jù)隱私。全新的 Windows Copilot Runtime 中有超過 40個 AI 模型,為“回顧”等功能提供支持。
  • 能效表現(xiàn)與續(xù)航能力:具有驚人的能效表現(xiàn),單次充電即可支持長達(dá) 22 小時的本地視頻播放或 15 小時的網(wǎng)頁瀏覽,滿足用戶一整天的使用。
  • 安全特性:所有 Windows 11 AI PC 都是安全核心 PC(Secured-Core PC),默認(rèn)啟用了 Microsoft Pluton Security 處理器,并引入了許多新的功能、更新和默認(rèn)設(shè)置,確保用戶隱私數(shù)據(jù)安全。

自6月18日起,微軟 Surface 以及戴爾、宏碁、華碩、惠普、聯(lián)想等 OEM 合作伙伴將陸續(xù)推出 Windows 11 AI PC。例如,微軟公布的全新 Surface Pro 起售價999美元,配備 LCD 顯示屏、XPlus 處理器、16GB RAM 和 256GB 存儲空間。如果要升級為 XElite 芯片,則性能會更強(qiáng)勁,新版 Surface Pro 比 Surface Pro 9的速度快最多90%。Surface Laptop 經(jīng)過重新設(shè)計(jì),有現(xiàn)代的線條和超薄邊框,顯示屏分13.8英寸和15英寸兩種尺寸,有四種新顏色可供選擇,新一代較前代 Surface Laptop 5的速度快最多86%,速度超過 MacBook Air,電池續(xù)航能力也超過 MacBook Air,本地視頻播放時間長達(dá)22小時,且支持 Wi-Fi 7。

需注意的是,不同地區(qū)的功能可用性可能會有所差異。例如在中國大陸,Windows Copilot 無法使用,Copilot 實(shí)體按鍵無法使用(按 Copilot 鍵將開啟 Windows 搜索功能),但 AI Explorer 回顧功能可用,增強(qiáng)版的實(shí)時翻譯也可以使用。

五、Meta/Llama3

Meta 于 4 月發(fā)布了 Llama 3,這是一個開源的大型語言模型,支持在其社交平臺上使用對話式 AI。Llama 3 以其開源特性和公眾信任度高而受到好評,可在 WhatsApp、Instagram 和 Facebook Messenger 等多個平臺上提供更加自然和直觀的對話體驗(yàn)。它具有以下主要特點(diǎn)和信息:

  • 性能提升:在多種行業(yè)基準(zhǔn)測試上展現(xiàn)了先進(jìn)的性能,提供了包括改進(jìn)的推理能力等新功能。
  • 訓(xùn)練數(shù)據(jù):在兩個定制的24K GPU 集群上,使用超過15T的公開數(shù)據(jù)進(jìn)行訓(xùn)練,這些數(shù)據(jù)量是 Llama 2 數(shù)據(jù)集的7倍多,其中包含的代碼數(shù)據(jù)是 Llama 2 的4倍,并且有超過5%的預(yù)訓(xùn)練數(shù)據(jù)集由涵蓋30多種語言的高質(zhì)量非英語數(shù)據(jù)組成。
  • 模型架構(gòu):選擇了相對標(biāo)準(zhǔn)的純解碼器 Transformer 架構(gòu),并做了關(guān)鍵改進(jìn),如使用具有128K token詞匯表的分詞器,能更有效地對語言進(jìn)行編碼,從而顯著提高模型性能;在8B 和70B 大小的模型上采用了分組查詢注意力(GQA)以提高推理效率;在8192個 token 的序列上訓(xùn)練模型,使用掩碼確保自注意力不會跨越文檔邊界。
  • 支持長文本:支持8K 長文本,上下文長度是 Llama 2 的兩倍。
  • 指令微調(diào):后訓(xùn)練過程的改進(jìn)大大降低了模型出錯率,進(jìn)一步改善了一致性,并增加了模型響應(yīng)的多樣性。
  • 訓(xùn)練效率:訓(xùn)練效率比 Llama 2 高3倍。
  • 新的能力:具備增強(qiáng)的推理和代碼能力,能夠進(jìn)行復(fù)雜的推理,可以更遵循指令,能夠可視化想法并解決很多微妙的問題,還支持零樣本工具使用,包括網(wǎng)絡(luò)搜索、數(shù)學(xué)運(yùn)算和代碼執(zhí)行等。通過微調(diào),它在調(diào)用自定義工具方面提供了強(qiáng)大的靈活性。
  • 版本開源:已開放80億(8B)和700億(70B)兩個小參數(shù)版本用于預(yù)訓(xùn)練和微調(diào),并面向開發(fā)者開源,包括預(yù)訓(xùn)練和微調(diào)版本。Meta 稱正在開發(fā)的最大模型是400B+參數(shù),未來幾個月內(nèi)將推出多模態(tài)版本。
  • 應(yīng)用廣泛:可用于升級 Meta AI 工具,同時會整合到 Meta 旗下的 Facebook、Instagram、WhatsApp 和 Messenger 等主要平臺的搜索功能中。Llama 3 模型也將在亞馬遜 AWS、Databricks、谷歌云、Hugging Face、Kaggle、IBM WatsonX、微軟云 Azure、英偉達(dá) NIM 和 Snowflake 上被提供給開發(fā)者,并獲得 AMD、AWS、戴爾、英特爾、英偉達(dá)和高通提供的硬件平臺支持。

Meta 還開發(fā)了一套新的高質(zhì)量人類評估數(shù)據(jù)集,涵蓋12個關(guān)鍵用例,以評估模型性能。此外,Meta 為保持開源的領(lǐng)先地位,放寬了許可,首次允許開發(fā)者使用 Llama 3.1模型的高質(zhì)量輸出來改進(jìn)和開發(fā)第三方 AI 模型。

2024年7月24日,Meta 發(fā)布了 Llama 3.1,在多項(xiàng)基準(zhǔn)測試中一舉超越 GPT-4o 和 Claude 3.5 sonnet。Llama 3.1的405B 版本性能與最好的閉源模型性能相當(dāng),支持128K 的上下文,具有多語言能力(包括英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語),良好的代碼生成能力、復(fù)雜推理能力以及工具使用能力。同時,Meta 大方放出了90多頁的論文,詳細(xì)介紹了預(yù)訓(xùn)練數(shù)據(jù)、過濾、退火、合成數(shù)據(jù)、縮放定律、基礎(chǔ)設(shè)施、并行處理、訓(xùn)練方法、訓(xùn)練后適應(yīng)、工具使用、基準(zhǔn)測試、推理策略、量化、視覺、語音和視頻等內(nèi)容。

六、NVIDIA/Blackwell

英偉達(dá)在 3 月推出了其下一代 AI 芯片 Blackwell,以紀(jì)念數(shù)學(xué)家 David Blackwell。這款芯片擁有 2080億個晶體管,其特點(diǎn)包括:

  • 采用了臺積電 4np 工藝生產(chǎn)。
  • 實(shí)際上是兩個芯片通過連接結(jié)合在一起,以確??梢宰鳛橐粋€整體無縫運(yùn)行,通過英偉達(dá)的高帶寬接口(nv-hbi),能以 10tb/s 雙向帶寬互聯(lián),可支持更高的 l2 緩存帶寬,沒有內(nèi)存局部性問題和緩存問題。
  • 在處理支持人工智能的模型方面可將速度提高數(shù)倍,包括訓(xùn)練階段和推理階段。
  • 英偉達(dá)在發(fā)布會上表示,相較于之前的 H100芯片,Blackwell GB200超級芯片可以為大語言模型(LLM)推理負(fù)載提供 30倍的性能提升,并將成本和能耗降低 25 倍。

2024 年 5 月 15 日,谷歌 CEO 桑達(dá)爾·皮查伊宣布,將在 2025 年推出與英偉達(dá)合作的 Blackwell 芯片。同年 6 月 2 日,英偉達(dá) CEO 黃仁勛表示 Blackwell 芯片已開始投產(chǎn)。

Blackwell 將幫助推動人工智能工作超越諸如識別語音或創(chuàng)建圖像等相對簡單的工作。它的出現(xiàn)反映了英偉達(dá)對未來市場需求和行業(yè)趨勢的前瞻性判斷,例如摩爾定律帶動性能提升越來越困難,芯片迭代需要多種技術(shù)創(chuàng)新組合;數(shù)據(jù)中心將被視為 AI 工廠,需要考慮系統(tǒng)級性能、能效以及多 GPU 組合的“巨型 GPU”方案;AI 模型的規(guī)模和數(shù)據(jù)量持續(xù)增長,需降低計(jì)算相關(guān)成本和能耗;高性能推理或生成至關(guān)重要,必須找到能在許多 GPU 上并行處理模型工作的方法等。

英偉達(dá)還構(gòu)建了由 72 張 GB200構(gòu)成的 DGX GB200 NVL72 超級計(jì)算機(jī),其在內(nèi)部節(jié)點(diǎn)間使用銅纜連接,以降低功耗。在 HGXB200訓(xùn)練性能提升 3 倍,推理能力提升 15 倍的基礎(chǔ)上,GB200 NVL72 集群將多個由 GB200驅(qū)動的系統(tǒng)整合到一個液冷機(jī)架中,為數(shù)據(jù)中心提供了前所未有的計(jì)算能力,可將大型語言模型的訓(xùn)練速度提升 4 倍,為萬億參數(shù)的大型語言模型推理提供 30倍的實(shí)時速度提升。

此外,英偉達(dá)推出的世界首個高速 GPU 互連技術(shù) NVLink,為處理最大視覺計(jì)算工作負(fù)載、釋放百億億次計(jì)算能力和萬億參數(shù)人工智能模型的全部潛力提供關(guān)鍵基礎(chǔ)。NVLink Switch 協(xié)同 NVLink 可釋放數(shù)據(jù)傳輸能力,通過連接多個 NVLink,實(shí)現(xiàn)機(jī)架內(nèi)和機(jī)架間全速度的 GPU 通信。NVLink 和 NVLink Switch 整合英偉達(dá) AI Enterprise 軟件套件等,為用戶提供全面的 AI 計(jì)算解決方案。

英偉達(dá)的新一代產(chǎn)品并不強(qiáng)制要求使用液冷,Blackwell 架構(gòu)將同時推出風(fēng)冷 DGX 和液冷 MGX 兩種服務(wù)器方案。但在 AI 數(shù)據(jù)中心領(lǐng)域,想要發(fā)揮 Blackwell 的最大潛力,液態(tài)冷卻幾乎是必選。風(fēng)冷散熱目前仍是數(shù)據(jù)中心的主流,液冷散熱技術(shù)的推廣應(yīng)用面臨著業(yè)內(nèi)尚無服務(wù)器與機(jī)柜統(tǒng)一接口規(guī)范標(biāo)準(zhǔn)、液冷系統(tǒng)架構(gòu)尚在演進(jìn)、初期投資高和全生命周期成本高等挑戰(zhàn)。

七、Mistral/Codestral-22B

Mistral 在 5 月推出了 Codestral-22B,這是其首個代碼模型,支持 80多種編程語言,并在性能上超越了以往的代碼模型。主要特點(diǎn)包括:

  • 參數(shù)量:具有 220億(22B)參數(shù)。
  • 多語言支持:在 80多種編程語言的數(shù)據(jù)集上進(jìn)行過訓(xùn)練,既包括 Python、Java、C++、Bash 等流行語言,也有像 Fortran、COBOL 這樣的古早語言,其中 COBOL 誕生于 1959 年,但至今仍有 43%的銀行系統(tǒng)依賴它。
  • 性能表現(xiàn):雖然參數(shù)量少于 70B 的 Code Llama,但在多種測評中取得了更優(yōu)成績。例如在針對 Python 語言的 HumanEval(pass@1)、MBPP 以及 CruxEval 等測試中表現(xiàn)出色,在 RepoBench 評估的遠(yuǎn)程存儲庫中的代碼補(bǔ)全能力方面達(dá)到了最佳成績,并對 Llama 3 和 Code Llama 形成了全面超越。在數(shù)據(jù)庫的 SQL Spider 測試中,其表現(xiàn)也與通用模型 Llama3 十分接近。

在其他一些編程語言測試中,和通用版 Llama3 各有勝負(fù),但平均成績小幅超過了 Llama3,且相對于 Code Llama 的優(yōu)勢明顯。在 Python、JS 和 Java 中的 HumanEvalFIM 評分接近或超過 90%,平均成績?yōu)?91.6%,超過了參數(shù)量更大的 DeepSeek Coder 33B。

  • 長上下文窗口:支持 32k 的上下文窗口,相比其他模型(通常為 4k、8k 或 16k)大幅增加。
  • 代碼編輯能力:支持 FIM(fill-in-the-middle),可以對現(xiàn)有代碼進(jìn)行填充補(bǔ)全。
  • 使用方式多樣:Mistral 已將模型權(quán)重上傳到了 HuggingFace,可供有條件的用戶自行下載部署。此外,LangChain、LlamaIndex、Ollama 等大模型框架以及 Mistral 自家的開發(fā)者平臺 La Plateforme 已支持使用 Codestral。它還提供了專屬 API,其中 codestral.mistral.ai 正在進(jìn)行免費(fèi)測試,api.mistral.ai 則按 token 收費(fèi)。用戶也可通過 Mistral 的在線對話平臺 Le Chat 直接使用網(wǎng)頁進(jìn)行對話。同時,第三方插件 continue.dev、Tabnine 支持通過在 VSCode 和 JetBrains 系列 IDE 中使用 Codestral。

不過,Codestral 使用了全新的“非生產(chǎn)”(Non-Production)許可協(xié)議 MNPL,按照規(guī)定僅可用于研究目的,不能進(jìn)行商用,即使僅將其用于公司內(nèi)部事務(wù)也不被允許。Mistral 表示后續(xù)會繼續(xù)發(fā)布基于 Apache 2.0協(xié)議的其他模型。

八、Anthropic/Claude3.5Sonnet

Claude 3.5 Sonnet 是 Anthropic 公司于 2024 年 6 月 21 日發(fā)布的 AI 模型。它是 Claude 3.5 系列模型中的首個版本。

以下是 Claude 3.5 Sonnet 的一些主要特點(diǎn):

  • 性能優(yōu)勢:在閱讀、編碼、數(shù)學(xué)和視覺等主要 AI 基準(zhǔn)測試中,其能力不僅超過了 Claude 3,也超越了 Anthropic 此前的旗艦?zāi)P?Claude 3 Opus。在研究生水平推理(GPQA)、編碼能力(HumanEval)、文本推理(DROP)等方面表現(xiàn)出色,成績優(yōu)于 GPT-4o,但在數(shù)學(xué)問題解決能力上稍遜于后者。它能夠更好地理解指令之間的細(xì)微差別,有更強(qiáng)的幽默能力,還為包括 GPQA(研究生水平推理)、MMLU(本科生水平知識)與 HumanEval 等基準(zhǔn)測試設(shè)立了全新的行業(yè)標(biāo)準(zhǔn)。根據(jù)內(nèi)部代理編碼評估,其解決了64%的問題,遠(yuǎn)超 Claude 3 Opus 的38%。
  • 視覺能力:作為一款多模態(tài)大模型,其視覺能力有較大提升。它可以更準(zhǔn)確地解釋圖表和圖形,能在帶有扭曲和視覺偽像等“不完美”圖像中順利完成文本轉(zhuǎn)錄任務(wù),在所有標(biāo)準(zhǔn)視覺基準(zhǔn)測試中的平均表現(xiàn)比 Claude 3 Opus 高出 10%。它擅長解釋和分析視覺數(shù)據(jù),例如理解復(fù)雜的圖表、圖形和圖解,分析信息圖表和科學(xué)可視化,解釋場景中的空間關(guān)系等;可以無縫融合圖像和文本的信息;能夠準(zhǔn)確識別和描述圖像中的物體;支持視覺問答,可根據(jù)視覺分析提供答案;能利用視覺信息來協(xié)助解決問題;可以提供有關(guān)藝術(shù)風(fēng)格、設(shè)計(jì)元素和視覺美學(xué)的見解;展示了識別和轉(zhuǎn)錄手寫文本的改進(jìn)能力;可以從視覺呈現(xiàn)的數(shù)據(jù)中提取相關(guān)信息,還能處理多種文本樣式以及轉(zhuǎn)錄多種語言的文本,并理解圖像中文本的上下文,在轉(zhuǎn)錄結(jié)構(gòu)化文本時通??梢员A艋蛎枋鲈几袷?。
  • 運(yùn)行速度與成本:運(yùn)行速度是 Claude 3 Opus 的兩倍,而價格僅為后者的五分之一。其輸入價格為 3 美元/百萬 tokens,輸出價格為 15 美元/百萬 tokens,上下文窗口長度達(dá) 200k tokens。
  • 新功能:Anthropic 推出了 Artifacts 預(yù)覽版,這是一個可供用戶添加和編輯其模型生成內(nèi)容的工作空間,例如用其生成的代碼、文檔、圖像、網(wǎng)站設(shè)計(jì)等內(nèi)容創(chuàng)建作品。該產(chǎn)品會在 Claude 的 web 客戶端設(shè)置一個專用窗口,類似于將大模型接入工作流。

此外,Anthropic 透露公司將在今年晚些時候陸續(xù)更新其余兩款大模型 Claude 3.5 Haiku 和 Claude 3.5 Opus。同時,亞馬遜云科技也宣布 Claude 3.5 Sonnet 已正式接入其 Amazon Bedrock。

如需使用 Claude 3.5 Sonnet,由于國內(nèi)尚未開放使用,需注意接受驗(yàn)證碼的手機(jī)號碼不能屬于中國地區(qū)。注冊條件通常包括一個郵箱(如微軟或谷歌郵箱)和一個海外手機(jī)號。具體注冊方式可以參考相關(guān)平臺的指引。同時,除了官方渠道,還有一些其他方式可以使用 Claude 3.5 Sonnet,例如通過 slack 工作區(qū)、poe 等平臺,但可能需要滿足相應(yīng)平臺的要求和條件。

九、Adobe/GenStudio

Adobe 在 3 月公布了 GenStudio,這是一款利用生成式AI幫助用戶創(chuàng)建內(nèi)容、管理品牌資產(chǎn)、跟蹤活動效果并簡化工作流程的應(yīng)用程序。它本質(zhì)上是一個關(guān)于營銷活動的一體化平臺,提供了多種功能和服務(wù),包括:

  • 品牌工具包、文案建議、預(yù)審合格的資源:可用于生成符合品牌風(fēng)格的活動背景和整體基調(diào)。
  • 多種生成式人工智能工具:能幫助用戶迅速為電子郵件及 Facebook、Instagram 和 LinkedIn 等社交媒體平臺制作廣告。
  • 內(nèi)容中心:提供直觀界面,方便搜索、編輯、重復(fù)使用和分享營銷活動的素材。
  • 活動管理:提供集中的活動概覽,包括活動簡介和活動時間表,使活動策劃過程更高效。
  • 發(fā)布功能:與 Adobe Experience Cloud 的多個產(chǎn)品(如 Journey Optimizer、Experience Manager、Marketo 和 Target)無縫集成,也可輕松導(dǎo)出到其他第三方應(yīng)用。
  • 數(shù)據(jù)洞察:讓營銷人員可以實(shí)時了解內(nèi)容在不同渠道的使用情況和效果,通過 AI 技術(shù)生成不同的內(nèi)容版本,進(jìn)而提升活動效果。

Adobe GenStudio 目前還在內(nèi)部測試階段,預(yù)計(jì)將于今年晚些時候正式推出。其定價將根據(jù)不同公司而有所差異。

該平臺的推出旨在方便用戶利用 Adobe 的生成式人工智能工具創(chuàng)建營銷活動。Adobe 聲稱 Firefly 模型在商業(yè)應(yīng)用上是安全的,僅使用 Adobe Stock 圖片、已公開授權(quán)的內(nèi)容及公共領(lǐng)域的內(nèi)容進(jìn)行訓(xùn)練,因此不太可能產(chǎn)生侵犯他人知識產(chǎn)權(quán)的內(nèi)容。

此外,微軟也創(chuàng)建了名為 GenStudio 的在線體驗(yàn)工具。它使用了 Generative Adversarial Networks(GAN,使用兩種競爭 AI 網(wǎng)絡(luò)創(chuàng)建逼真圖像的 AI 主流形式),借助 Azure 和 Kubernettes 的強(qiáng)大功能,并基于大都會藝術(shù)博物館(The Met)龐大的藝術(shù)品數(shù)據(jù)庫,可以幫助任何人創(chuàng)建并不存在但非常逼真的藝術(shù)品。其核心挑戰(zhàn)是如何將大都會藝術(shù)博物館的圖像映射到生成它的種子上,他們使用了基于梯度下降的網(wǎng)絡(luò)反轉(zhuǎn)來學(xué)習(xí)每個圖像的種子,關(guān)鍵是指示網(wǎng)絡(luò)不僅要匹配目標(biāo)圖像的像素,還要匹配其高級特征和內(nèi)容。

不過,Adobe 的 GenStudio 更為人熟知,且主要應(yīng)用于營銷領(lǐng)域。如果你想了解的是微軟的 GenStudio 藝術(shù)創(chuàng)作工具,可以通過其官方網(wǎng)站獲取更詳細(xì)的信息。

十、Salesforce/Einstein

Salesforce 在 4 月宣布其企業(yè)級聊天機(jī)器人 Einstein Copilot 全面上市,該機(jī)器人在減少幻覺和生成虛假信息方面具有優(yōu)勢。盡管 Einstein Copilot 的推出受到了市場的期待,但 Salesforce 的股價表現(xiàn)并未達(dá)到預(yù)期,反映了市場對AI產(chǎn)品接受度和商業(yè)成功的不確定性。

Salesforce Einstein 是 CRM(客戶關(guān)系管理)的首款全面 AI 產(chǎn)品。它具有以下特點(diǎn):

  • 數(shù)據(jù)就緒:無需準(zhǔn)備數(shù)據(jù)或管理模型,只需將數(shù)據(jù)放入 Salesforce 即可使用。
  • 建模就緒:多租戶自動機(jī)器學(xué)習(xí)意味著會為組織自動匹配恰當(dāng)?shù)哪P汀?/li>
  • 生產(chǎn)就緒:依托同樣可信賴的 Salesforce 平臺,具有模型管理和監(jiān)控工具。

Einstein 可以幫助企業(yè)提高智能化程度并更好地預(yù)見客戶需求,具體來說:

  • 銷售人員可以預(yù)測潛在機(jī)會并超出客戶期待。
  • 服務(wù)人員可以避免潛在問題發(fā)生,變被動為主動。
  • 營銷人員可以開展預(yù)見性的活動,營造前所未有的個性化體驗(yàn)。
  • IT 人員可以將智能融入每個角落并為員工和客戶創(chuàng)建更加智能的應(yīng)用程序。

Einstein 可與許多 Salesforce 產(chǎn)品無縫集成,其功能廣泛應(yīng)用于各個領(lǐng)域,例如:

  • Einstein Sales Cloud:用于提升效率和效果,功能包括預(yù)測轉(zhuǎn)化可能性,給潛在客戶自動打分;基于組織的最佳實(shí)踐分析預(yù)測后續(xù)跟蹤趨勢,并通過銷售周期分析制定下一步的行動計(jì)劃;通過 AI 自動捕獲發(fā)現(xiàn)新老客戶的商機(jī)。
  • Einstein Service Cloud:用于提升效率和服務(wù)體驗(yàn),功能包括自動預(yù)測和填充案例的相關(guān)字段;自動根據(jù)客戶請求路由服務(wù)和處理人員,減少客戶等待和切換時間;智能客服功能,根據(jù)客戶的對話信息和上下文信息,提供知識建議和對話建議,協(xié)助客服人員更快解決問題。2022 年起重磅推出 ChatGPT AI。
  • Einstein Marketing Cloud:提供客戶洞察和預(yù)測,深入了解客戶;接觸客戶的渠道和時間點(diǎn)的智能建議;為客戶提供一對一的個性化消息和內(nèi)容,實(shí)現(xiàn)千人千面。
  • Einstein Commerce Cloud:個性化商品推薦,提升客單價和復(fù)購率;客戶行為模式儀表板,為商品推銷和營銷提供數(shù)據(jù)支撐;個性化顯式搜索排序(搜索框)、個性化隱式搜索排序(首頁瀏覽、品類頁瀏覽)。
  • Einstein Community:推薦相關(guān)的專業(yè)人士、小組和內(nèi)容,降低社區(qū)成員尋找所需資源的難度;借助智能的活動源,確保社區(qū)成員可以看到重要帖子和熱門話題等高人氣內(nèi)容,從而保證成員持續(xù)參與;幫助社區(qū)成員尋找經(jīng)過認(rèn)證的相關(guān)專業(yè)人士,以便于他們盡快解決最要緊的問題。

此外,Einstein 還包含一些特定的平臺功能,如 Einstein Bots(使用自然語言處理技術(shù),能夠?yàn)榭蛻籼峁┘磿r幫助)、Einstein Voice(包括語音助理和語音機(jī)器人兩部分,可實(shí)現(xiàn)文字與語音的相互轉(zhuǎn)換,以及通過智能揚(yáng)聲器和 Salesforce 軟件進(jìn)行對話等功能)、Einstein Prediction Builder(可以通過點(diǎn)擊的方式構(gòu)建自定義預(yù)測)、Einstein Next Best Action(根據(jù)預(yù)測結(jié)果或者特定條件自動觸發(fā)下一步最佳行動)、Einstein Discovery(自動分析并發(fā)現(xiàn)數(shù)據(jù)中的行為模式,洞察數(shù)據(jù)中的相關(guān)關(guān)系)、Einstein Vision(可對圖像進(jìn)行分類,對圖像中的物體進(jìn)行識別)、Einstein Language(能夠分析文本的感情色彩,提取文本語義并進(jìn)行分類)、Einstein Recommendation(智能推薦,如商品推薦、社區(qū)內(nèi)容推薦等)。

關(guān)于 Salesforce Einstein 的具體價格,需要聯(lián)系客戶主管了解。同時,Salesforce 也會提供免費(fèi)的在線培訓(xùn)、人工智能資源及最佳實(shí)踐材料,幫助用戶快速了解如何利用其人工智能技術(shù)提高組織效率和客戶滿意度。

本文由 @阿木聊AI(智能體) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 這些都是國外的AI,我得找個時間分別用用這些AI工具之間有什么異同,與國內(nèi)的AI又有什么區(qū)別。

    來自廣東 回復(fù)