AIGC | 圖像生成領域,Prompt的七個缺陷
在向AI模型傳遞指令的過程中,我們常常需要借助Prompt這一形式,那么Prompt作為載體,是否存在一定的缺陷呢?本文作者討論了圖像生成領域里Prompt的七個缺陷,一起來看看吧。
Prompt是向AI模型傳遞指令的核心形式,隨著AI繪畫從藝術領域向設計領域深入,創(chuàng)作訴求趨于嚴謹、精確,Prompt作為創(chuàng)作意圖的重要載體,一些缺陷日益凸顯,對生成結(jié)果的可控性、可用性有很大影響。
一、寫作技能
創(chuàng)作者要將大腦中構(gòu)思的畫面通過文字表達出來,畫面是三維的、立體的,而文字卻是一維的、線性的。
對于較為復雜的創(chuàng)作意圖,這個轉(zhuǎn)化過程極具挑戰(zhàn)性、技巧性,依賴反復書寫帶來的經(jīng)驗累積或是專門的學習。
二、文本特性
同一組用詞,同一句話,受到語境、文化、群體共識等客觀因素的影響,可能存在多重含義,面對文本的多義性,模型理解很容易發(fā)生偏差,生成內(nèi)容無法切中創(chuàng)作者的真實意圖。而創(chuàng)作者要基于錯誤反饋不斷對導致歧義的內(nèi)容進行替換、校正。
三、字數(shù)限制
盡管多一些描述可以給模型更多細節(jié),但當前AI模型對字數(shù)始終存在一個模糊的理解“上限”,超過“上限”后的內(nèi)容,要么理解錯亂,要么直接無視,所以創(chuàng)作平臺往往對Prompt字數(shù)加以限制,這就導致更多的創(chuàng)意想法無法被完整表達。
四、范式規(guī)則
相比口語化表達,模板化的描述指令更容易被模型理解而且更穩(wěn)定,具有長期創(chuàng)作需求的創(chuàng)作者,需要學習并熟練掌握基于技術邏輯反推出的的指令公式(如:畫面主體+場景+細節(jié)+風格修飾),還有控制各類權重的命令參數(shù)(如:-seed;-chaos;-::;—iw等)。
五、作用關系
對于不是描述主體的指令,往往難以判斷它是否已對畫面產(chǎn)生影響,因此我們看到“絕美、完美、超美”、“大師畫質(zhì)、超高畫質(zhì)、頂級畫質(zhì)”經(jīng)常出現(xiàn)在一條Prompt中,冗余甚至相互對立。如需調(diào)整,則要通過刪A留B,刪B留A的方式反復比對來定位修改點。
六、細節(jié)控制
尤其是設計師的創(chuàng)作場景,對形式、位置、比例、層次、關系等要素的處理更加專業(yè)嚴謹,文字型指令可以做到但書寫成本極高,用戶能否寫出“畫面偏左四分之三居中位置,一條高一百像素的金魚”?模型又能否對此精準執(zhí)行?目前看,依靠Prompt進行精細化控制并不現(xiàn)實。
七、生成預期
除使用“創(chuàng)作相似”外,創(chuàng)作者生成前對生成結(jié)果不可預測,生成過程又類似于黑箱,所以大家往往先生成幾張,看看什么效果,找到符合預期的那張再繼續(xù)深入。這個交互關系中最大的問題在于反饋的高延遲,造成了過高的嘗試成本。
Prompt的這些特點或問題,讓人不得不想起PC系統(tǒng)早期的DOS命令行界面:需要掌握語言范式、缺乏提示反饋、沒有快捷操作、不直觀等問題,讓很多計算機初學者望而卻步。
以上為輸入環(huán)節(jié),而在模型一側(cè),Prompt的解碼過程又會丟失一部分信息,使得創(chuàng)作者大量意圖指令無法精準、有效的傳遞給生成模型,最終得到一個錯誤的或是可用性較低的生成結(jié)果,人們感到挫敗并對技術能力產(chǎn)生質(zhì)疑,其實,生成模型的能力往往由于語義理解的限制,并沒有得到充分發(fā)揮。
如果經(jīng)常使用AI繪畫平臺,可能對這些Prompt功能并不陌生:一鍵復制、創(chuàng)作相似、靈感推薦、智能補全、咒語大全、咒語生成器、創(chuàng)作手冊、詞包、撰寫教程等等。這些功能在一定程度上降低了Prompt的撰寫成本,尤其針對體驗型、嘗鮮型的用戶,創(chuàng)作效率和質(zhì)量均有提升,但對帶有明確應用場景的設計師群體來說,上述問題依然存在。
那Prompt指令的問題如何解決?又如何讓操作體驗真正做到“平民化”呢?
顯然技術側(cè)的進展更快,涂抹、疊加、擴展等二次編輯能力,以Lora為代表的微調(diào)模型,還有Controlnet技術,支持邊緣檢測、草圖處理、姿勢識別等前沿黑科技,都在試圖融合更多其他模態(tài)的意圖信息,與Prompt形成互補,讓生成結(jié)果更加精準可控。
說回體驗層面,以Prompt為核心的創(chuàng)作范式可能并非終極形態(tài),這方面的探索尚未達成共識。我想,在PC時代,圖形用戶界面基于出色的交互體驗,快速“取代”了DOS命令行一直影響至今,即使進入AIGC時代,答案也許仍在其中。
本文由 @設計來電 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
Prompt的使用,是有很高專業(yè)技能門檻的,普通化、平民化之路之前,反而是商業(yè)化先行
細說專業(yè)門檻