日韩人妻无码一区二区三区，观看国精品久久久一本，东京热精品中文字幕，妓女精品一区二区三区，婷婷色爱区综合五月激情，人妻系列无码专区五月九九，秋霞在线观看片无码免费爱片，欧美人成午夜福利视频

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

GPT-4通過圖靈測試，勝率高達(dá)54%！UCSD新作：人類無法認(rèn)出GPT-4

新智元

2024-05-20

0 評論 294 瀏覽 0 收藏

13 分鐘

GPT-4通過圖靈測試了！UCSD研究團(tuán)隊(duì)通過實(shí)證研究，人類無法將GPT-4與人類進(jìn)行區(qū)分。而且，有54%的情況下，它被判定為人類。

GPT-4可以通過圖靈測試嗎？

當(dāng)一個(gè)足以強(qiáng)大的模型誕生之后，人們往往會用圖靈測試去衡量這一LLM的智能程度。

最近，來自UCSD的認(rèn)知科學(xué)系研究人員發(fā)現(xiàn)：

在圖靈測試中，人們根本無法區(qū)分GPT-4與人類！

論文地址：https://arxiv.org/pdf/2405.08007

在圖靈測試中，GPT-4有54%的情況下，被判定為人類。

實(shí)驗(yàn)結(jié)果更是表明，這是首次有系統(tǒng)在「交互式」雙人圖靈測試中，被實(shí)證通過測試。

研究者Cameron R.Jones招募了500名志愿者，他們被分為5個(gè)角色：4個(gè)評估員，分別是GPT-4、GPT-3.5、ELIZA和人類，另一個(gè)角色就「扮演」人類自己，藏在屏幕另一端，等待著評估員的發(fā)現(xiàn)。

以下是節(jié)選的游戲，你能看出哪個(gè)對話框是人類嗎？

圖 1：人類審訊者（綠色）與證人（灰色）之間的部分對話

其實(shí)，這四段對話中，有一段是與人類證人的對話，其余都是與人工智能的對話。

01 首次開啟受控「圖靈測試」

過去74年里，人們進(jìn)行了許多圖靈測試的嘗試，但很少進(jìn)行過受控實(shí)驗(yàn)。

著名的Loebner獎(jiǎng)是一項(xiàng)年度競賽，然而從1990年首次舉辦一直到2020年，沒有一個(gè)系統(tǒng)通過測試。

最近的一項(xiàng)大規(guī)模研究發(fā)現(xiàn)，人類在2分鐘的在線對話中，識別一系列LLM準(zhǔn)確率達(dá)到 60%。

迄今為止，還沒有任何機(jī)器通過測試的「受控」實(shí)驗(yàn)演示。

為了測試人們是否有可能識破當(dāng)前AI系統(tǒng)的欺騙行為，研究人員使用GPT-4進(jìn)行了一次隨機(jī)控制的雙人圖靈測試。

測試要求很簡單，即人類參與者與人類、人工智能開啟5分鐘對話，并判斷對話者是否是人類。

正如開篇所述，研究人員一共測評了3個(gè)模型——GPT-4、GPT-3.5，以及ELIZA。

針對前兩個(gè)LLM，研究者通過改編GPT-4和GPT-3.5探索性研究中表現(xiàn)最佳的提示，來指示大模型如何去響應(yīng)消息。

研究人員稱，解釋圖靈測試的一個(gè)核心挑戰(zhàn)是，系統(tǒng)表現(xiàn)出色可能源于兩種原因：

– 一是出色地模仿人類

– 二是評判者過于輕信

后一種情況，常被稱為ELIZA效應(yīng)，即參與者甚至?xí)⒑唵蔚南到y(tǒng)也人性化。

ELIZA系統(tǒng)對于每個(gè)人來說，再熟悉不過了。

它是20世紀(jì)60年代的一款基于規(guī)則的簡單聊天機(jī)器人，但用戶發(fā)現(xiàn)自己也會將人類特征歸因于它。

因此，在實(shí)驗(yàn)中，研究人員將ELIZA作為基線，一方面是為了從經(jīng)驗(yàn)上量化ELIZA效應(yīng)，另一方面也是為了在實(shí)驗(yàn)中進(jìn)行操作檢查。

那么，這項(xiàng)圖靈測試的結(jié)果，具體如何呢？

02 GPT-4通過率54%

首先看一個(gè)重要的指標(biāo)：通過率。

研究者將通過率定義為在游戲中，評估對象被評估者判定為人類的比例。

GPT-4的通過率為54%，超過了GPT-3.5（50%）和ELIZA基線（22%），但低于人類被試者（67%）。

評估對象通過率（左）和評估者信任度（右）。右圖每個(gè)點(diǎn)代表一場游戲

這個(gè)結(jié)果其實(shí)并不令人意外，與研究初始階段的設(shè)想基本相符合。

在試驗(yàn)之前，研究者就做出了幾個(gè)假設(shè)：首先，假設(shè)人類在檢測GPT-4方面的能力不會超過偶然性（50%）。

為了驗(yàn)證這一點(diǎn)，研究者擬合了一個(gè)邏輯回歸模型來預(yù)測只有截距的通過率。

截距與0（z=0.14, p=0.482）沒有明顯差距，這表明GPT-4的通過率可以約等于50%。貝葉斯模型預(yù)測GPT-4截距的95%可信區(qū)間為-0.24-0.55（相當(dāng)于44%-63%的通過率）。

這意味著，人類在面對GPT-4時(shí)，成功分辨的概率跟拋硬幣差不多！

結(jié)果還證實(shí)了研究人員的第二和第三個(gè)假設(shè)：人類的通過率明顯高于GPT-4的通過率（z=2.42，p=0.017），而GPT-4的通過率高于ELIZA的通過率（z=4.11，p<0.001）。

然而，與研究者的試驗(yàn)設(shè)想不一致的是：GPT-4和GPT-3.5的表現(xiàn)幾乎差不多（z=0.497，p=0.619）。

在「偽裝人類」這一塊，打了個(gè)平手。

同樣出人意料的是，那些自稱更了解LLM工作原理的參與者并沒有更成功地識別出LLM（z = -0.023，p = 0.869）。

在探索性分析中，研究者發(fā)現(xiàn)年齡對詢問者的準(zhǔn)確性有負(fù)面影響（z = -2.24，p = 0.025），但其他人口統(tǒng)計(jì)學(xué)變量（包括性別、教育水平和與聊天機(jī)器人互動的頻率）則沒有顯著影響。

為什么會是這樣的結(jié)果？讓我們來分析一下背后的原因。

為了深入了解到底是什么在影響評估者的決策，我們對評估者使用的策略和他們?yōu)闆Q策提供的理由進(jìn)行了分類。

36%的評估者會與評估對象閑聊，詢問一些個(gè)人細(xì)節(jié)或日?；顒?。

第二類和第三類最常用的策略是社交與情感（25%）——例如，詢問評估對象的觀點(diǎn)和經(jīng)歷，觀察他們是否具備幽默感。

還有人側(cè)重考察知識與推理（13%），包括有關(guān)數(shù)學(xué)、邏輯和常識的問題。

詢問策略（左）和平均準(zhǔn)確率（右）

為了對比每種策略的有效性，研究者計(jì)算了使用這些策略的平均準(zhǔn)確率。

當(dāng)評估對象問及對方有關(guān)人類經(jīng)歷（75%）、邏輯和數(shù)學(xué)（78%）或直接「指控」對方是人工智能（80%）時(shí)，通常會距離「正確答案」更近。

在游戲中，人工智能之所以會「露出馬腳」，通常是因?yàn)樵u估者認(rèn)為他們似乎在強(qiáng)迫自己扮演角色，要么過于隨意，要么則缺乏個(gè)性。

而ELIZA 很容易「暴露」，主要是因?yàn)榉磻?yīng)不自然和缺乏語境意識。

可以看出，無論是從參與游戲的志愿者所使用的策略還是決策理由來看，他們都更注重語言風(fēng)格和社會情感因素，而不是更傳統(tǒng)的智力范疇（知識和推理）。

這似乎反映出志愿者們的一個(gè)潛在假設(shè)——社會智能才是AI最無法模仿的人類特征。

03 圖靈測試，過了

如何判斷系統(tǒng)何時(shí)通過了圖靈測試？

圖靈在1950年的論文中預(yù)測，到本世紀(jì)末， AI系統(tǒng)將能夠很好地玩模仿游戲，以至于審查員在5分鐘的交流后，做出正確識別的機(jī)會不會超過70%。

這一結(jié)論，導(dǎo)致了AI的通過率是否能夠達(dá)到30%，成為許多研究者的討論目標(biāo)。

然而，這個(gè)基準(zhǔn)似乎是任意的，并且不清楚圖靈是否將其作為成功的定義。

其實(shí)，50%的基線更加合理，因?yàn)樗茏C明人類審查者，在識別AI方面并不比偶然性更強(qiáng)。

這一定義，與發(fā)現(xiàn)用戶是否可以在在線互動中，可靠地識別其他人類這一目標(biāo)尤為相關(guān)。

在研究者的預(yù)公開的分析中，通過使用ELIZA基線作為操作檢查來解決這個(gè)問題。

只有當(dāng)分析表明ELIZA的通過率低于概率，而GPT-4的通過率不低于概率的情況下，才能判定模型通過了測試。

而根據(jù)這一定義，GPT-4顯然通過了這一版本的圖靈測試。

此外，參與者的置信度得分和決策依據(jù)，都表明他們并非隨意猜測：GPT-4是人類的平均置信度為73%（見圖 2）。

04 網(wǎng)友討論

有網(wǎng)友表示，如果我們要將圖靈測試等同于智力，圖靈測試就不是一個(gè)好的測試。然而，AI幾乎始終可以「欺騙」人類的事實(shí)有點(diǎn)令人擔(dān)憂。

還有人稱，自己對這種測試表示懷疑。因?yàn)镚PT-4的表現(xiàn)會超過大多數(shù)人，所以很容易區(qū)分誰是人類，誰是人工智能。

研究者對此表示，這確實(shí)是我們遇到的一個(gè)問題。比如，GPT-4的知識儲備「太豐富」或者掌握的語言太多。我們明確提示該模型避免這種情況，這在一定程度上是有效的。

參考資料：

https://x.com/camrobjones/status/1790766472458903926

https://x.com/emollick/status/1790877242525942156

本文由人人都是產(chǎn)品經(jīng)理作者【新智元】，微信公眾號：【新智元】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

新智元

"智能+"中國主平臺，致力于推動中國從"互聯(lián)網(wǎng)+"邁向"智能+"

105篇作品 262083總閱讀量

酷狗概念版、豆瓣FM、波點(diǎn)音樂……哪個(gè)小眾音樂APP最好聽？

06-056482 瀏覽

做電商遇到的那些破事及應(yīng)對方法

05-096388 瀏覽

你愿意把自己的頭發(fā)交給AI理發(fā)師嗎？

04-243184 瀏覽

2023年，去這四大風(fēng)口搞錢

01-315681 瀏覽

年輕人開始流行「精致省」

08-046299 瀏覽

評論

目前還沒評論，等你發(fā)揮！

談?wù)劜ㄌ匚辶δＰ偷母倪M(jìn)思路，及結(jié)合基本競爭戰(zhàn)略制定戰(zhàn)略定位的方法

10-301808 瀏覽
殘疾朋友的小商店與無障礙創(chuàng)新的100種可能

02-084815 瀏覽
淘金海外，中國云加速“飄”向全球

12-041589 瀏覽

GPT-4通過圖靈測試，勝率高達(dá)54%！UCSD新作：人類無法認(rèn)出GPT-4

01 首次開啟受控「圖靈測試」

02 GPT-4通過率54%

03 圖靈測試，過了

04 網(wǎng)友討論

GPT-4通過圖靈測試，勝率高達(dá)54%！UCSD新作：人類無法認(rèn)出GPT-4

03 圖靈測試，過了