用ChatGPT寫作業(yè)?AI可沒有對錯的概念

0 評論 5681 瀏覽 1 收藏 26 分鐘

OpenAI 的最新聊天機(jī)器人 ChatGPT能寫小說、寫劇本、寫代碼,還有人用它來寫作業(yè),不過AI寫作業(yè),可不一定能保證答案一定是正確的哦,本篇文章就揭示了這一點,讓我們一起來看看吧。

那天正好是星期三晚上,我的女兒正在為她的歐洲歷史課“拿破侖的審判”做準(zhǔn)備。她要扮演的角色是辯方證人托馬斯·霍布斯(Thomas Hobbes),為此她向我尋求幫忙。于是我把問題拋給了幾小時前 OpenAI 才剛剛發(fā)布的 ChatGPT:

關(guān)于托馬斯·霍布斯,ChatGPT給出了錯誤回答

ChatGPT 回答得很自信,并且附上了支持的證據(jù)以及對霍布斯著作的引用,但答案完全是錯誤的?;舨妓故墙^對主義的支持者,他相信無政府狀態(tài)——人類事務(wù)的自然狀態(tài)——唯一可行的替代方法,是將絕對權(quán)力授予君主。

制衡是霍布斯年輕時候同時代的人物約翰·洛克(John Locke)提出的觀點,他認(rèn)為權(quán)力應(yīng)該在行政部門和立法部門之間分配。詹姆斯·麥迪遜(James Madison)在撰寫美國憲法時曾采納了查爾斯·孟德斯鳩(Charles Montesquieu) 的一項改進(jìn)提案——增設(shè)司法部門來制衡其他兩個機(jī)構(gòu)。

一、ChatGPT 產(chǎn)品

很“幸運(yùn)”,我第一個 ChatGPT 查詢出來的結(jié)果就是錯的,不過你可以看看它是怎么出來的:霍布斯和洛克兩人幾乎總是被一起提及,所以洛克對三權(quán)分立重要性的闡述很可能與家庭作業(yè)(互聯(lián)網(wǎng)上到處都是這樣的東西)里面提到的霍布斯和利維坦的地方是緊挨著的。

這些作業(yè)因為是在互聯(lián)網(wǎng)上的,所以也許是支撐了 ChatGPT 的 GPT-3 語言模型的一些要點; ChatGPT 用了一層的人類反饋強(qiáng)化學(xué)習(xí)(RLHF),用來創(chuàng)建一個新模型,然后用一個具有一定程度記憶(通過重新發(fā)送以前的聊天互動以及新提示來實現(xiàn))的直觀聊天界面來呈現(xiàn)。

觀察這個周末發(fā)生的事情會很有趣,可以研究一下這些改進(jìn)是如何使得人們對 OpenAI 的能力產(chǎn)生了濃厚興趣,你會發(fā)現(xiàn)人們對人工智能即將對社會產(chǎn)生的影響的認(rèn)識在不斷增強(qiáng),盡管其底層模型是已有兩年歷史的 GPT-3。

我懷疑,關(guān)鍵因素是 ChatGPT 的易用性,而且是免費(fèi)的:就像我們在 GPT-3 首次發(fā)布時看到的那樣,看人工智能的輸出示例是一回事;但自己生成這些輸出是另一回事;事實上,當(dāng) Midjourney 讓人工智能生成藝術(shù)變得簡單并且免費(fèi)時,大家的興趣和意識也出現(xiàn)了類似的爆炸式增長(隨著 Lensa AI 的更新把 Stable Diffusion 驅(qū)動的魔法頭像納入進(jìn)來,本周這種興趣又有了一次飛躍)。

GitHub 首席執(zhí)行官納特·弗里德曼(Nat Friedman)在接受采訪時曾認(rèn)為,除了 Github Copilot 以外,人工智能在現(xiàn)實世界的應(yīng)用匱乏。這可以說是他這一觀點的具體例子:

我離開 GitHub 的時候曾經(jīng)在想,“看來人工智能革命已經(jīng)到來,很快就會有其他人來折騰這些模型,開發(fā)產(chǎn)品,掀起一股應(yīng)用浪潮?!苯Y(jié)果卻是然后就沒有然后了,這種走勢確實很令人驚訝。

現(xiàn)在的情況是研究人員走在了前面,每天都在不斷加快節(jié)奏向全世界提供大量新功能。所以這些能力就擺在全世界的面前,但奇怪的是,創(chuàng)業(yè)者和做產(chǎn)品的才剛剛開始消化這些新能力,才開始琢磨“我們可以開發(fā)什么樣的產(chǎn)品呢?那種之前開發(fā)不了,但大家又很想用的產(chǎn)品是什么?”我覺得,在緊跟開發(fā)趨勢這方面,我們的能力其實是很欠缺的。

有趣的是,我認(rèn)為這其中一個原因是因為大家都在模仿 OpenAI ,它的形態(tài)介于初創(chuàng)企業(yè)與研究實驗室之間。也就是說,出現(xiàn)了這樣一代的人工智能初創(chuàng)企業(yè),它們把自己打造成了研究實驗室,對于這樣的公司來說,地位和名聲的通貨是論文發(fā)表和引用,而不是客戶和產(chǎn)品。

我認(rèn)為,我們只是想講好故事,并鼓勵其他有興趣這樣做的人去開發(fā)這些人工智能產(chǎn)品,因為我們認(rèn)為這其實會以一種有用的方式反饋給研究界。

OpenAI 提供了一個 API,初創(chuàng)企業(yè)可以基于此去開發(fā)產(chǎn)品;不過,其中存在一個基本的限制因素,成本:如果用 OpenAI 最強(qiáng)大的語言模型 Davinci 生成約 750 個單詞,成本大概是 2 美分;用 RLHF 或其他任何方法對模型進(jìn)行微調(diào)要花很多錢,而從這些微調(diào)過的模型生成約 750 個單詞要 12 美分。然后,也許并不奇怪,是 OpenAI 自己用自己的最新技術(shù)推出了第一款可廣泛訪問且(目前)免費(fèi)的產(chǎn)品。這家公司的研究肯定會得到很多反饋!

OpenAI 的領(lǐng)先優(yōu)勢一直都很明顯;ChatGPT 之所以吸引人,是因為它與 MidJourney 攜手把 OpenAI 抬上了消費(fèi)者型人工智能產(chǎn)品領(lǐng)導(dǎo)者的位置。

MidJourney 已經(jīng)通過訂閱直接將消費(fèi)者變現(xiàn)了;這種商業(yè)模式是行得通的,因為在 GPU 時間方面服務(wù)是存在邊際成本的,雖說這樣做也會限制用戶的探索和發(fā)現(xiàn)。這就是廣告之所以能屹立不倒的原因:當(dāng)然你要有好的產(chǎn)品來推動消費(fèi)者使用,但免費(fèi)也是一個重要因素,文本生成最終可能更適合廣告模式,因為對大多數(shù)人來說,它的效用——以及因此獲得收集第一方數(shù)據(jù)的機(jī)會——可能要比圖像生成更高。

二、確定與蓋然

哪些工作會先被人工智能顛覆,這個問題仍懸而未決;不過,對于一部分人來說,從這個周末已經(jīng)明顯可以看出,有一項普遍活動將受到嚴(yán)重威脅:那就是家庭作業(yè)。

回到我上面提到的我女兒的那個例子:關(guān)于政治哲學(xué)的論文,或者讀書報告,或者布置給學(xué)生的任何數(shù)量的作業(yè),那種理論上是新的論文,但就世界而言,往往只是對已經(jīng)寫過一百萬次的東西的反芻。不過現(xiàn)在,你可以通過這些反芻寫一些“原創(chuàng)”的東西,而且至少在接下來這幾個月的時間里,你可以免費(fèi)做這件事情。

ChatGPT 之于家庭作業(yè)有一個很明顯的類比:學(xué)生已經(jīng)不需要進(jìn)行繁瑣的數(shù)學(xué)計算,每次只需輸入相關(guān)數(shù)字就能獲得正確答案;為此,教師通過讓學(xué)生展示他們的作業(yè)過程來應(yīng)對。

不過,這也說明了為什么人工智能生成的文字是完全不一樣的東西;計算器是確定性設(shè)備:如果你計算 4839 + 3948 – 45,你每次都會得到 8742。這也是為什么教師要求學(xué)生展示計算過程是充分的補(bǔ)救措施:有一條通往正確答案的道路,并且展示沿著這條道路走下去的能力比得出最終結(jié)果更重要。

另一方面,人工智能輸出是概率性的:ChatGPT 沒有關(guān)于對錯的任何內(nèi)部記錄,有的只是關(guān)于在不同上下文中哪些語言組合在一起的統(tǒng)計模型。這個上下文的基礎(chǔ)是訓(xùn)練 GPT-3 用到的數(shù)據(jù)全集,以及來自 ChatGPT 的訓(xùn)練 RLHF 時額外提供的上下文,以及提示與之前的對話,還有很快就會出來的、對本周發(fā)布的東西的反饋。這可能會產(chǎn)生出一些真正令人興奮的結(jié)果,比方說 ChatGPT 內(nèi)置的虛擬機(jī):

知道嗎,你可以在 ChatGPT 里面運(yùn)行一整個虛擬機(jī)。

妙極了,輸入這個巧妙的提示后,我們就會進(jìn)入 Linux 機(jī)器的根目錄。我想知道在這里面能找到什么樣的東西。那就來查看一下主目錄的內(nèi)容吧。

嗯,就是一個最基礎(chǔ)的設(shè)置。我們來創(chuàng)建一個文件吧。

ChatGPT 喜歡的經(jīng)典笑話都在這兒了。我們來看看這個文件。

看來 ChatGPT 似乎了解文件系統(tǒng)的工作原理、文件的存儲方式以及之后的檢索方式。它知道 linux 機(jī)器是有狀態(tài)的,還能正確地檢索并顯示信息。

我們還能用電腦做什么。編程!

沒錯!看看怎么計算前 10 個質(zhì)數(shù):

這也是對的!

在這里我想指出的是,這個用來查找素數(shù)的 python 編程挑戰(zhàn)(code golf python)的實現(xiàn)效率是非常低的。在我的機(jī)器上執(zhí)行這條命令要用 30 秒,但在 ChatGPT 上運(yùn)行相同的命令只需要大約 10 秒。所以,對于某些應(yīng)用來說,這個虛擬機(jī)已經(jīng)比我的筆記本電腦還快了。

不同之處在于 ChatGPT 其實并沒有運(yùn)行 python 并很確切地確定它給出的就是前 10 個素數(shù):每個答案都是從構(gòu)成 GPT-3 的互聯(lián)網(wǎng)數(shù)據(jù)語料庫里面收集到的概率性結(jié)果;換句話說,ChatGPT 在 10 秒內(nèi)得出了對結(jié)果的最佳猜測,而且這個猜測很可能是正確的,感覺就像是一臺真正的計算機(jī)在執(zhí)行相關(guān)代碼。

這就引出了一些迷人的哲學(xué)問題,關(guān)于知識本質(zhì)的;你也可以直接問 ChatGPT 前 10 個質(zhì)數(shù)是什么:

ChatGPT列出的前 10 個素數(shù)

那些數(shù)字就不是計算出來的,只是已知的;不過,它們之所以是已知,是因為被記錄在互聯(lián)網(wǎng)的某個地方上了。相比之下,請注意 ChatGPT 如何搞砸了我上面提到的那個簡單得多的公式:

ChatGPT數(shù)學(xué)計算搞錯了

不管怎樣,我得多下點功夫才能讓 ChatGPT 搞砸數(shù)學(xué)問題:基礎(chǔ)的 GPT-3 模型在大多數(shù)情況下計算基本的三位數(shù)加法都是錯的,不過 ChatGPT 表現(xiàn)得要好一些。盡管如此,它顯然不是計算器:而是模式匹配器——而模式有時候會很古怪。此處的技巧是當(dāng)它出錯的時候要抓住它,不管是基礎(chǔ)數(shù)學(xué)還是基礎(chǔ)政治理論。

三、詢問與編輯

在應(yīng)對 ChatGPT 的影響方面,已經(jīng)有一個網(wǎng)站走在了前列:Stack Overflow。Stack Overflow 是開發(fā)者的問答網(wǎng)站,在這里他們可以詢問代碼方面的問題,或者在處理各種開發(fā)問題時獲得幫助;答案一般就是代碼本身。

我懷疑這導(dǎo)致 Stack Overflow 成為了 GPT 模型的金礦:因為上面既有問題的描述,也有解決相應(yīng)問題的代碼。但問題是,正確的代碼出自經(jīng)驗豐富的開發(fā)者對問題的回答,另外就是讓其他開發(fā)者對這些問題進(jìn)行投票;如果用 ChatGPT 來回答問題會怎樣?

看起來這是個大問題;來自 Stack Overflow Meta:

用 ChatGPT 生成的文本。

這是一項暫時性政策,旨在緩解用 ChatGPT 創(chuàng)建的答案涌入進(jìn)來。關(guān)于該工具以及其他類似工具的使用,我們的最終政策還需要與 Stack Overflow 工作人員討論,而且很可能也要在 Meta Stack Overflow 這里進(jìn)行討論。

ChatGPT 回答正確的平均比率太低,對網(wǎng)站以及詢問或?qū)ふ艺_答案的用戶來說,發(fā)布由 ChatGPT 創(chuàng)建的答案是非常有害的。

主要問題是,雖然 ChatGPT 生成的答案有很高的錯誤率,但通??雌饋硪苍S還不錯,而且答案很容易生成。還有很多人盡管自己沒有專業(yè)知識,或不愿意在發(fā)布之前驗證答案是否正確,卻愿意嘗試用 ChatGPT 來創(chuàng)建答案。

因為這樣的答案很容易產(chǎn)生,所以很多人都在發(fā)布大量的答案。這些答案的數(shù)量(成千上萬),以及答案通常需要至少具有一些相關(guān)專業(yè)知識的人仔細(xì)閱讀才能確定答案其實是錯誤的,這些會導(dǎo)致我們靠志愿者策劃出來的,優(yōu)質(zhì)的基礎(chǔ)設(shè)施被錯誤答案淹沒。

因此,我們得減少這些帖子的數(shù)量,我們還得處置那些快速發(fā)布的帖子,這意味著要與用戶打交道,而不是處理單個帖子。所以,目前已經(jīng)不允許用 ChatGPT 在 Stack Overflow 上創(chuàng)建帖子。如果用戶被認(rèn)為在此臨時政策發(fā)布后仍使用 ChatGPT 發(fā)帖,網(wǎng)站將實施制裁,阻止用戶繼續(xù)發(fā)布此類內(nèi)容,哪怕這些帖子在其他情況下是可以接受的也不行。

這里面有一些值得討論的有趣問題。一個是關(guān)于制作內(nèi)容的邊際成本:Stack Overflow 的核心是用戶生成內(nèi)容;這意味著它可以免費(fèi)獲得用戶的內(nèi)容,因為用戶為了幫助別人、為人慷慨、想要贏得地位等而生成了內(nèi)容。唯有互聯(lián)網(wǎng)才促成了這一點。

人工智能生成內(nèi)容則更進(jìn)一步:它確實很費(fèi)錢,尤其是現(xiàn)在,(目前 OpenAI 是自己來承擔(dān)這些可觀的成本),但從長遠(yuǎn)來看,你可以想象這樣一個世界,在這個世界里,內(nèi)容生成不僅從平臺的角度來看是免費(fèi)的,而且從用戶的時間來看也是免費(fèi)的;想象一下建立一個新的論壇或聊天群,比方說,用一個可以立即提供“聊天流動性”的人工智能。

不過,就目前而言,概率性人工智能似乎站在了 Stack Overflow 交互模型的錯誤一邊:而由計算器代表的確定性計算則給出了一個你可以信任的答案,當(dāng)今(以及如 Noah Smith 所言,未來)人工智能的最佳用途,是提供一個你可以糾正的起點:

所有這些愿景的共同點是我們所謂的“三明治”工作流這樣一個東西。這是一個包括三個步驟的流程。首先,人類有了創(chuàng)作的沖動,于是給人工智能一個提示。 人工智能然后會生成一個選項菜單。接著人類選擇其中一個選項,對其進(jìn)行編輯,并根據(jù)個人喜好進(jìn)行潤色。

三明治工作流與人們習(xí)慣的工作方式大不相同。人們自然會擔(dān)心提示和編輯在本質(zhì)上不如自己產(chǎn)生想法那么有創(chuàng)意,那么有趣,這會導(dǎo)致工作變得更加生搬硬套,更加機(jī)械化。也許其中有部分在所難免,這就跟手工制造讓位于大規(guī)模生產(chǎn)那時候一樣。人工智能給社會帶來的財富增加應(yīng)該會讓我們有更多的空閑時間來發(fā)展我們的創(chuàng)意愛好……

我們預(yù)測,很多人會改變自己對個人創(chuàng)造力的看法。就像一些現(xiàn)代雕塑家會使用機(jī)器工具,一些現(xiàn)代藝術(shù)家會使用 3D 渲染軟件一樣,我們認(rèn)為未來的一些創(chuàng)作者會習(xí)得將生成人工智能視為另一種工具——一種通過解放人類去思考創(chuàng)作的不同方面,來增強(qiáng)創(chuàng)造力的工具。

換句話說,人類對人工智能扮演的角色不是詢問者,而是編輯者。

四、零信任家庭作業(yè)

在這種新范式下,家庭作業(yè)可能會變成什么樣子呢?這里有個例子。想象一下,一所學(xué)校拿到了一套人工智能軟件套件,希望學(xué)生用它來回答有關(guān)霍布斯或其他任何方面的問題;生成的每個答案都會被記錄下來,這樣教師馬上就能確定學(xué)生沒有用不同的系統(tǒng)。

此外,教師沒有要求學(xué)生自己寫論文(因為知道這是徒勞),而是堅持用人工智能。不過,重點在這里:系統(tǒng)經(jīng)常會給出錯誤的答案(而且不僅僅是偶然——錯誤答案往往是故意推出的);家庭作業(yè)要考核的真正技能在于驗證系統(tǒng)生成的答案——去學(xué)習(xí)如何成為驗證者和編輯者,而不是反芻者。

這種新技能的引人注目之處在于,這不僅是一種在人工智能主導(dǎo)的世界里會變得越來越重要的能力:在今天這也是非常有價值的一項技能。畢竟,只要內(nèi)容是由人類而不是人工智能生成的,互聯(lián)網(wǎng)就不是仿佛是“對的”;實際上,ChatGPT 輸出的一個類比是我們都熟悉的那種發(fā)帖人,那種不管對不對都是我說了算的人。現(xiàn)在,驗證和編輯將變成每個人的基本技能。

這也是對互聯(lián)網(wǎng)虛假信息唯一的系統(tǒng)性回應(yīng),與自由社會也是一致的。在 COVID 出現(xiàn)后不久,我寫了《零信任信息》,證明了對付虛假信息唯一的解決方案是采用與零信任網(wǎng)絡(luò)背后一樣的范式:

答案是想都不要想:別想把所有東西都放到城堡里面,而是把所有東西都放在護(hù)城河以外的城堡里,并假設(shè)每個人都是威脅。于是就有了這個名稱:零信任網(wǎng)絡(luò)。

零信任網(wǎng)絡(luò)示意圖

在這種模型里面,信任是在經(jīng)過驗證的個人層面:訪問(通常)取決于多因子身份驗證(比方說密碼+受信任設(shè)備或臨時碼),哪怕通過了身份驗證,個人也只能訪問定義好顆粒度的資源或應(yīng)用……

簡而言之,零信任計算從互聯(lián)網(wǎng)的假設(shè)開始:無論好壞,所有人和物都連接到一起,并利用零交易成本的力量做出持續(xù)訪問的決定,其分布性和顆粒度遠(yuǎn)非物理安全所能及,從而一舉解決了城堡護(hù)城河式安全方案存在的根本矛盾。

我認(rèn)為,在虛假信息方面,年輕人已經(jīng)適應(yīng)了這種新范式:

為此,與其跟互聯(lián)網(wǎng)做斗爭——試圖圍繞著信息構(gòu)建一個城堡和護(hù)城河,并考慮所有可能的折衷——會不會擁抱洪水可能會帶來更多的價值?所有可得證據(jù)均表明,大家(特別是年輕人)正在設(shè)法弄清個人驗證的重要性;比方說,牛津大學(xué)路透研究所的這項研究:

在采訪中,我們沒有發(fā)現(xiàn)年輕人當(dāng)中存在經(jīng)常聽說的媒體信任危機(jī)。大家對某些被政治化的觀點普遍不相信,但是對某些個人喜愛的品牌的質(zhì)量又非常贊賞。相對于另一件事情,假新聞本身頂多令人討厭,尤其是考慮到相對于其所引起的公眾關(guān)注度,能感受到的問題的規(guī)模似乎相對較小。因此,用戶覺得有能力把這些問題掌握在自己手中。

路透社研究所之前的一項研究還發(fā)現(xiàn),相對于線下新聞消費(fèi)而言,社交媒體展現(xiàn)出更多的觀點,另一項研究則表明,在使用互聯(lián)網(wǎng)最少的老年人當(dāng)中,政治觀點的分化最大。

同樣地,無論是短期的冠狀病毒還是中期的社交媒體和無中介信息,這并不是說一切都好。但是,我們有理由感到樂觀,有一種理念認(rèn)為,看門人越少,信息越多,意味著創(chuàng)新想法和好點子會跟虛假信息一樣成比例增長,但對于后者,伴隨著互聯(lián)網(wǎng)成長起來的年輕人已經(jīng)開始學(xué)會無視了。我們越快地接受這種理念,情況就會變得越好。

那篇文章最大的錯誤是假設(shè)信息的分布是正態(tài)的;事實上,正如我之前所指出那樣,不良信息的數(shù)量多太多了,原因很簡單,因為生成這些信息的成本更低?,F(xiàn)在,由于人工智能,信息泛濫會變得更加洪水滔天,雖然它往往是正確的,但有時候也會搞錯,對于個人來說,弄清楚哪個是哪個很重要。

解決方案要從互聯(lián)網(wǎng)的假設(shè)開始,這意味著豐富,并選擇洛克和孟德斯鳩而不是霍布斯:與其堅持自上而下的信息控制,不如擁抱豐富,并托付給個人來解決問題。就人工智能而言,不要禁止學(xué)生或其他任何人使用它;而是要利用它來建立這樣一種教育模式,它會從假設(shè)內(nèi)容是免費(fèi)的開始,學(xué)生真正要掌握的技能是將其編輯成對的或美麗的東西;只有這樣,它才會有價值,才可信賴。

譯者:boxi,來源:神譯局。神譯局是36氪旗下編譯團(tuán)隊,關(guān)注科技、商業(yè)、職場、生活等領(lǐng)域,重點介紹國外的新技術(shù)、新觀點、新風(fēng)向。

本文由@神譯局 翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!