亚洲国产精品久久电影欧美，国产性爱精品在线观看，中文字幕日本有码视频在线，国产AV大学生情侣AV浪潮，亚洲无码高清不卡，久久极品免费视频，精品国产天天色，国产片婬乱一级毛片影片

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊 | 登錄

淺顯理解LLM底層技術(shù)

打打泥

2025-04-24

0 評(píng)論 489 瀏覽 0 收藏

7 分鐘

大語言模型（LLM）作為人工智能領(lǐng)域的重要分支，近年來在自然語言處理（NLP）方面取得了顯著進(jìn)展。然而，對于非技術(shù)出身的人來說，理解LLM的底層技術(shù)往往顯得晦澀難懂。本文作者通過類比和通俗易懂的方式，深入淺出地介紹了LLM的底層技術(shù)原理，包括詞元（token）的概念、有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)的區(qū)別，以及語言生成技術(shù)如GPT和BERT的工作機(jī)制。

近期在入門學(xué)習(xí)AI相關(guān)技術(shù)，由于并非技術(shù)出身，因此通過類比方式理解相關(guān)底層技術(shù)，如有問題歡迎指出。

人工智能并不等同于大語言模型（LLM），人工智能是一個(gè)很大的領(lǐng)域，其中又包括自然語言處理（NLP）、計(jì)算機(jī)視覺（CV）、知識(shí)圖譜、語音等等。而其中目前火熱的大語言模型（LLM）則是目前自然語言處理的技術(shù)形態(tài)，也可以說目前通過大語言模型（LLM）的能力實(shí)現(xiàn)自然語言處理。

自然語言處理，這個(gè)概念的命名就非常有意思，關(guān)鍵就在于自然兩個(gè)字。我和小學(xué)生說“請你把你的橡皮擦給我”，小學(xué)生也能做到無需過多的思考，自然就理解我的意思，但是機(jī)器也是做不到的。就連現(xiàn)在機(jī)器也做不到像小學(xué)生一樣理解我的意思，因?yàn)闄C(jī)器并非真的擁有生命意識(shí)去理解我的意思，而是通過一些技術(shù)手段解構(gòu)我們語言，就比如結(jié)構(gòu)這句話“請你把你的橡皮擦給我”。而這個(gè)技術(shù)手段解構(gòu)語言的技術(shù)，就被稱為自然語言處理。

程序員通過思考為什么人類能做到自然語言處理的結(jié)論中獲得啟發(fā)，像上帝一樣模擬人類大腦賜予機(jī)器對應(yīng)能力。為什么小學(xué)生也能理解“請你把你的橡皮擦給我”，因?yàn)樵谛W(xué)生的腦子里，首先他通過學(xué)習(xí)裝有各種名詞、形容詞等等知識(shí)，接著他能通過這幾個(gè)詞組合，整體理解這句話的意思。回顧下九年義務(wù)教育的中，教會(huì)小學(xué)生學(xué)習(xí)，是先從各種日常詞匯開始，然后再到用詞組句。同樣的，教會(huì)計(jì)算機(jī)也是同樣的道理。

首先，得學(xué)習(xí)基本的詞匯，而詞匯在機(jī)器學(xué)習(xí)里面則叫詞元（token）。

那么，教完小學(xué)生之后，怎么能夠證明小學(xué)生學(xué)會(huì)了呢？

偉大的人類發(fā)明了考試，通過考試方式測試他是否真的學(xué)會(huì)了。而機(jī)器學(xué)習(xí)也是使用這種學(xué)習(xí)過程，而根據(jù)其實(shí)際教學(xué)不同分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。

有監(jiān)督學(xué)習(xí)，相當(dāng)于先讓機(jī)器做題，然后做完之后，讓他做出的答案參考標(biāo)準(zhǔn)答案是否正確。就好像現(xiàn)實(shí)里小學(xué)生考到90分，則獎(jiǎng)勵(lì)一個(gè)大紅花；考到50分，就懲罰一個(gè)大哭臉。得到大紅花的小學(xué)生，則會(huì)繼續(xù)采取正確的學(xué)習(xí)方法；而得到大哭臉的小學(xué)生，則會(huì)重新思考正確的學(xué)習(xí)方法。

那么，無監(jiān)督學(xué)習(xí)，相當(dāng)于沒有參考答案，自我去猜測答案。

就好像小學(xué)生學(xué)會(huì)了這幾個(gè)詞“列”“烈”“裂”都念lie，那么當(dāng)他第一次看到“?！边@個(gè)詞，大概率第一反應(yīng)也念洌。

為什么？

因?yàn)樾W(xué)生的腦袋也知道歸納總結(jié)，通過總結(jié)出有“列”的詞都念lie。當(dāng)然歸納總結(jié)的方法也不一定會(huì)對。比如這個(gè)“?！币泊_實(shí)念lie的音，但是例卻又不念lie音。

接著，小學(xué)生學(xué)會(huì)各種詞匯了，就要教他們各種組句能力了。而組句的能力，機(jī)器學(xué)習(xí)又叫語言生成。鍛煉小學(xué)生組句能力，我們會(huì)用挖空鍛煉。

就比如：媽媽__ __ __ __。有的小學(xué)生答案是我真愛你，有的小學(xué)生答案是最棒的。

那么機(jī)器學(xué)習(xí)中，其中一個(gè)語言生成技術(shù)的底層邏輯，就是這種通過上文詞匯，預(yù)測下文詞匯。那么現(xiàn)實(shí)里為什么小學(xué)生都能做到，現(xiàn)實(shí)里我們會(huì)說是語感好。那么，機(jī)器學(xué)習(xí)其實(shí)是通過深度網(wǎng)絡(luò)去構(gòu)建出詞的關(guān)聯(lián)，就比如輸入“媽媽”這兩個(gè)詞，在程序員構(gòu)建出來的神經(jīng)網(wǎng)絡(luò)中，則輸出最前面的詞就是“我真愛你”，而深度網(wǎng)絡(luò)其實(shí)模擬就是人類的神經(jīng)細(xì)胞網(wǎng)絡(luò)。

當(dāng)然，這種單向預(yù)測的技術(shù)叫GPT（其實(shí)并不嚴(yán)謹(jǐn)，只是為了好理解），其實(shí)只是一種語言生成技術(shù)，還有雙向預(yù)測。就比如：就比如：媽媽__ __ __ __。在這句話的前面說媽媽會(huì)很多事情，在這句話的后面說優(yōu)秀的母親對我的影響。那么答案是媽媽是最棒的，比我真愛你，就更加適合。那么結(jié)合上下文的能力，則叫BERT。所以，基于兩個(gè)技術(shù)的區(qū)別，GPT適合續(xù)寫作文，BERT適合做完形填空。

本文由 @打打泥原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自 Unsplash，基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App