國內(nèi)各大AI產(chǎn)品功能橫向?qū)Ρ燃笆褂媒ㄗh(2/3):圖片生成 & 圖片處理篇
本文旨在深入分析國內(nèi)各大AI產(chǎn)品在“圖片生成 & 圖片處理”領(lǐng)域的功能對比,幫助用戶更好地理解各產(chǎn)品特性,并作出適合自己需求的選擇。
2022年OpenAI發(fā)布了ChatGPT3.5,標(biāo)志著以AI大模型為主體的人工智能時代到來。自此之后,國內(nèi)各個傳統(tǒng)大廠、AI獨角獸紛紛下場,各類AI大模型及其對應(yīng)的產(chǎn)品紛紛如雨后春筍般問世。
在帶來行業(yè)繁榮的同時,也為普通用戶帶來了不少選擇的困惑。究竟國內(nèi)各大AI產(chǎn)品有什么差異?我們應(yīng)該如何選擇?
要對比各大AI產(chǎn)品,我們可以粗略分為內(nèi)、外兩層,內(nèi)在是其內(nèi)核的大模型智能程度,外在是各團隊研發(fā)的產(chǎn)品功能。對于大模型,市面上已有不少報告進行測評。但對于外在產(chǎn)品功能的梳理對比,似尚未有過多關(guān)注。
有感于此,我計劃從對“文本生成”、“圖片生成 & 圖片處理”、“智能體”三個當(dāng)下AI最為熱門的領(lǐng)域入手,梳理目前國內(nèi)各大AI產(chǎn)品功能的橫向?qū)Ρ取?/p>
當(dāng)然,我的主要關(guān)注點是“有無”,而非“優(yōu)劣”,即我主要著眼在某一項功能在各大AI產(chǎn)品上是“有”還是“沒有”,而不會具體比對該功能的具體表現(xiàn)“好”還是“不好”,因此也不會涉及到功能的具體評分。
我的目標(biāo)是通過對國內(nèi)各大AI產(chǎn)品功能橫向?qū)Ρ龋瑸椴煌褂脠鼍?、使用訴求的人群提供產(chǎn)品選擇上的建議。
橫向?qū)Ρ炔杉瘯r間:2024年8月(目前設(shè)想可能每3個月更新對比一輪,并視情況是否更新使用建議)。如果有朋友們感興趣但我沒有涵蓋的AI產(chǎn)品,或者對于本文的任何批評建議,歡迎在評論區(qū)里留言。
本篇是這個系列的第二篇——“圖片生成 & 圖片處理”篇
第一篇——文本生成篇見:國內(nèi)各大AI產(chǎn)品功能橫向?qū)Ρ燃笆褂媒ㄗh(1/3):文本生成篇
一、【對比產(chǎn)品及項目】
嚴(yán)格來說,“圖片生成”和“圖片處理”是兩個獨立的領(lǐng)域。前者是通過給AI輸入文字或圖片,讓AI生成新的圖片(即俗稱“文生圖”、“圖生圖”);后者是對已有的圖片,通過AI能力進行各類調(diào)整處理。
但從產(chǎn)品視角來看,二者又有明確的聯(lián)系,畢竟,AI生成圖片后進行處理,是一個很流暢的操作。
并且,從用戶視角來看,如果有涉及“圖片”的相關(guān)工作,那大概率是“圖片生成”和“圖片處理”都有所涉及。因此,我們會將二者放在一起進行對比。
關(guān)于“圖片生成 & 圖片處理”領(lǐng)域的產(chǎn)品對比,入圍標(biāo)準(zhǔn)是:
- 必須是通用的圖片產(chǎn)品,意味著只針對某個特定圖片領(lǐng)域(如:海報、漫畫、二維碼、頭像)的產(chǎn)品不在此列。
- 必須是有獨立的AI大模型部署,意味著市面上那些包殼類的AI產(chǎn)品不在此列(比如通過封裝Midjourney來提供服務(wù)的產(chǎn)品)。
- 圖片生成:有可以設(shè)置生成圖片具體參數(shù)的能力,意味著僅僅是通過對話就能簡單生成圖片的產(chǎn)品(在前面“文本生成”領(lǐng)域中,我們就有“生成圖片”的功能項梳理)不在此列。
- 圖片處理:必須是可以單獨上傳圖片進行處理,意味著僅僅是對生成圖片進行處理的產(chǎn)品,只會歸入“圖片生成”的一部分功能(這一條實際是針對“豆包”進行區(qū)分,它的圖片處理功能就是只能對其生成的圖片進行操作,說實在的有點迷)。
基于以上標(biāo)準(zhǔn),在“圖片生成 & 圖片處理”領(lǐng)域的入圍產(chǎn)品有:
(注:SD即Stable Diffusion,是一套開源的AI圖片生成工具,支持安裝多個的生圖大模型。)
對比的項目主要由以下類別組成:
- 免費使用條件:AI生成圖片的計算成本遠高于生成文本,因此各家提供的AI生成圖片服務(wù)都是“有條件免費”,我們會將各家的具體使用條件梳理出來。
- 使用引導(dǎo):包括功能引導(dǎo)、Prompt庫等內(nèi)容,反映的是產(chǎn)品的“易上手”程度。
- 詳細參數(shù)設(shè)置:與“文本生成”不同,“圖片生成”的效果受具體的參數(shù)設(shè)置影響較大。因此,詳細的參數(shù)設(shè)置能力反映了產(chǎn)品的“可調(diào)整性”。
- 高級功能:如ControlNet、LoRA訓(xùn)練等,反映的是產(chǎn)品在高級功能上的豐富度和深度。
- 圖片處理主流功能:主要包括圖片放大、擴展、疊加、摳圖等主流的AI圖片處理功能。
二、【完整對比結(jié)果】
基于上述產(chǎn)品和項目,完整橫向?qū)Ρ冉Y(jié)果如下:
圖片生成:
圖片處理:
三、【結(jié)果解析】
1. 簡易使用型:元寶、豆包、可靈AI
- 類型特點:通過輸入Prompt進行圖片生成,但不具備“設(shè)置圖片風(fēng)格(并非提示詞,而是指定不同生圖大模型)”及其他更高級功能。
- 適用人群:對于“生成圖片”訴求接近“有圖即可”的人群。
2. 類MJ型:江城洛神、通義萬相、文心一格
- 類型特點:具備更多的生成圖片設(shè)置能力,使用習(xí)慣上類似Midjourney,但不支持諸如ControlNet的高級功能。
- 適用人群:對于“生成圖片”有一定的質(zhì)量要求,希望控制其大體風(fēng)格走向,但又沒有科學(xué)上網(wǎng)條件的人群。
3. 類SD型:智影、WHEE+美圖設(shè)計室、堆友
- 類型特點:具備更多高級功能(如ControlNet、LoRA模型訓(xùn)練),能力及交互界面接近SD WebUI。
- 適用人群:對“生成圖片”有精細化調(diào)整的訴求,或有意在“生成圖片”領(lǐng)域進行深耕的人群。
四、【整體使用建議】
對于“圖片生成 & 圖片處理”領(lǐng)域,因此其學(xué)習(xí)廣度、深度和難度,都要比“文本生成”要更高。因此,我會統(tǒng)一推薦使用順序是:先使用“文心一格”,如果有進一步想深入研究,則再切換至“堆友”。
首先不建議使用“簡易使用型”的產(chǎn)品。倒不是說他們能力不行,主要是考慮到入門和使用,他們都并非最好選擇。最典型的體現(xiàn)就是關(guān)于“風(fēng)格”的設(shè)置。眾所周知,畫面“風(fēng)格”是一張圖片最基本的屬性。
雖然“簡易使用型”的產(chǎn)品也是可以通過在Prompt里面進行風(fēng)格描述來實現(xiàn),但是進階后還是要切換到“選擇生圖模型”。因此從一開始上手就應(yīng)該建立“選擇生圖模型”來控制風(fēng)格的認(rèn)知。此外,從易用性來看,也不及可以直接選擇風(fēng)格的產(chǎn)品。
然后就是“類MJ型”的產(chǎn)品,它們在最基礎(chǔ)的“文生圖”領(lǐng)域都較易上手,既能滿足日常需要,又能低門檻上手。而具體到哪一款產(chǎn)品,則首推“文心一格”,原因無他,就是因為它無論是圖片生成還是圖片處理,功能都相對齊全。
最后就是想進一步深入研究AI生成圖片,那必須會走到“學(xué)習(xí)Stable Diffusion”的階段,此時推薦產(chǎn)品更多則是要考慮其功能是否足夠全面。以此為標(biāo)準(zhǔn),那么綜合功能最齊全且免費使用條件簡單的“堆友”就成為不二之選了。
五、【附:部分產(chǎn)品特色功能截圖】
文心一格將提示詞中的部分內(nèi)容結(jié)構(gòu)化(畫面風(fēng)格、修飾詞、藝術(shù)家)
通義萬相圍繞電商場景打造了相關(guān)的特色功能
騰訊智影圍繞“視頻+圖片”打造了一系列功能
WHEE全面的AI生圖能力
堆友友好且接近SD WebUI的操作界面
作者:產(chǎn)品經(jīng)理崇生,公眾號:崇生的黑板報
本文由 @產(chǎn)品經(jīng)理崇生 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自 unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
本系列第三篇已發(fā)表,歡迎朋友們關(guān)注
國內(nèi)各大AI產(chǎn)品功能橫向?qū)Ρ燃笆褂媒ㄗh(3/3):智能體篇
http://m.codemsi.com/share/6102480.html
完整對比表請關(guān)注公眾號【崇生的黑板報】,發(fā)送“AI對比”獲取