來做一下美團(tuán)這屆的AI產(chǎn)品筆試題

2 評(píng)論 1703 瀏覽 5 收藏 19 分鐘

在AI技術(shù)飛速發(fā)展的今天,各大公司都在積極尋找能夠駕馭和創(chuàng)新AI產(chǎn)品的人才。美團(tuán)作為行業(yè)巨頭之一,其AI產(chǎn)品筆試題無疑成為了檢驗(yàn)候選人專業(yè)能力的重要標(biāo)準(zhǔn)。本文將帶你一探究竟,通過一系列精心設(shè)計(jì)的筆試題目,深入剖析美團(tuán)對(duì)AI產(chǎn)品人才的期望和要求。

1.R1和V3的區(qū)別是?

V3是一般的生成式模型,R1是推理模型。推理模型相較于生成式模型會(huì)先輸出一段思維過程,再進(jìn)行總結(jié)回復(fù)。其實(shí)從名字也能看出區(qū)別,V3應(yīng)該是Version 3,就是DeepSeek訓(xùn)練出的第三版模型,R1應(yīng)該是Reasoning 1,指第一版推理模型

2.Anthropic的模型家族叫啥?

Claude吧,不知道拼寫對(duì)不對(duì)

查了下,就是Claude哈哈哈,猜對(duì)了

3.通義現(xiàn)在的版本是2.5還是3?

不知道,平時(shí)沒咋用過通義

查了下,截止2025年4月16日,通義最新版本是2.5

4.對(duì)比3.5,3.7最大的變化是?

不知道……什么模型的3.5、3.7?之前聽說過Claude 3.7的編程能力比3.5強(qiáng)了一大截,是指這倆嗎?

查了下,應(yīng)該就是在問Claude3.7對(duì)比Claude3.5的變化,最大的變化是3.7是個(gè)混合推理模型,可以在標(biāo)準(zhǔn)模式(即時(shí)響應(yīng))和擴(kuò)展思考模式(深度推理)間無縫切換

5.什么是端到端模型?

輸入和輸出之間沒有經(jīng)過特征工程的模型就是端到端模型。比如特斯拉的自動(dòng)駕駛模型(好像叫FSD?)就是端到端模型

查了下,確實(shí)叫FSD(Full Self-Driving)也確實(shí)是端到端

6.請(qǐng)說出2個(gè)多模態(tài)模型的名字?

GPT、Kimi。豆包、Gemini這些應(yīng)該也算

7.請(qǐng)說出ChatGPT的免費(fèi)版和Plus版的兩個(gè)區(qū)別?

哈哈哈這題也不是很會(huì),隱約記得免費(fèi)版每天的可用額度比較少,而且不能選擇更高級(jí)的模型,Plus版額度多,可以選用高級(jí)的模型,比如deep research啥的

查了下,和我印象差不多。如圖:

8.RAG的中文或英文是啥?

這個(gè)我太會(huì)了,Retrieval Augmented Generation,檢索增強(qiáng)生成

9.RL的中文或英文是啥?

這個(gè)我也太會(huì)了,Reinforcement Learning,強(qiáng)化學(xué)習(xí)

10.Stable Diffusion、DALL-E 2/3、Midjourney都用了啥模型?

好像是擴(kuò)散模型吧?就是先給個(gè)噪聲然后慢慢生成圖像

查了下,確實(shí)是擴(kuò)散模型,通過逐步去噪生成圖像,

11.你用cursor還是windsurf還是?你主要用3.7還是4O還是?原因是?

都聽說過但是都沒用過哈哈哈。我現(xiàn)在用的是VS Code+Copilot,原因是學(xué)生時(shí)代就是VS Code老用戶了,懶得換。我有聽說Cursor是目前的最強(qiáng)AI IDE,可以聯(lián)網(wǎng)搜索并在IDE內(nèi)生成代碼,對(duì)于需要閱讀API文檔并寫代碼調(diào)用來說很方便。但我作為產(chǎn)品平時(shí)確實(shí)不咋用得上這個(gè)功能,何況Cursor收費(fèi),Copilot免費(fèi),所以VS Code+Copilot的組合對(duì)我來說更劃算一些

12.什么是prompt工程?包含哪幾個(gè)要素?你工作中,是如何設(shè)計(jì)和迭代,并講下結(jié)果?

我自己理解prompt工程就是根據(jù)不斷調(diào)整prompt以至大模型能夠輸出預(yù)期結(jié)果的過程。

我自己理解prompt要素一般有:

  1. 任務(wù)背景:比如大模型人設(shè)、大模型不知道的特定信息
  2. 任務(wù)目標(biāo):要讓大模型完成什么事情
  3. 限制:大模型必須嚴(yán)格遵守的要求,比如字?jǐn)?shù)(雖然它不一定會(huì)遵守)
  4. 輸出格式:比如讓它用JSON輸出啥的
  5. (可選)例子:就是舉個(gè)例子給他看我要的是啥
  6. (可選)思考方式:第一步干嘛、第二步干嘛……

設(shè)計(jì)上:簡單任務(wù)直接一句話(比如“把‘xxx’這句話翻譯成英文”),復(fù)雜任務(wù)我一般按照Markdown格式寫:

其實(shí)就像給實(shí)習(xí)生布置工作一樣,按STAR法則說清楚就好:“我們現(xiàn)在要干嘛,目標(biāo)是達(dá)到什么效果,你需要做什么,最后取得什么結(jié)果”。不過因?yàn)槲覒?,?fù)雜任務(wù)我會(huì)讓模型幫我設(shè)計(jì)prompt,比如:“我現(xiàn)在需要做xxx(任務(wù)),請(qǐng)你根據(jù)這個(gè)任務(wù)的特點(diǎn)選擇合適的prompt結(jié)構(gòu)并寫一個(gè)輸入給xxx(模型名稱)的prompt,如果有不清楚的地方請(qǐng)先向我詢問”

迭代上:迭代思路就是根據(jù)模型的輸出反思我哪里沒說清楚,然后在prompt里再專門說明下。比如如果模型輸出完全不合要求,那大概率是任務(wù)背景和目標(biāo)不夠清楚,加幾個(gè)例子基本就能解決,還不行就再展示我的思考過程,即我是怎么一步一步完成任務(wù)的;又比如如果輸出基本符合要求,但是總有些語氣不合適,輸出格式不對(duì)這種瑕疵,那就在“## 限制”部分里明確說明“你必須xxxx”,如果限制不起作用,那就再恐嚇模型,比如“你必須xxxx,否則地球上會(huì)有一個(gè)無辜的人因你沒有遵守這條要求而死去”

結(jié)果上:工程類問題(比如寫個(gè)數(shù)據(jù)分析的腳本)基本上一次就能輸出我要的結(jié)果,但是創(chuàng)意類問題(比如給我之前發(fā)的《從零構(gòu)建大模型知識(shí)體系》系列文章的題記和后記)需要多調(diào)整幾次

13.溫度temperature是啥意思?在你工作中,調(diào)高調(diào)低產(chǎn)生了哪些影響?

這我可太知道了哈哈哈,在我之前發(fā)的《從0構(gòu)建大模型知識(shí)體系(3):大模型的祖宗RNN》中專門解釋過。temperature是控制模型偏移最大概率token進(jìn)行采樣輸出的一個(gè)參數(shù),越低模型越會(huì)忠于語料中學(xué)到的內(nèi)容進(jìn)行回復(fù),準(zhǔn)確性高但創(chuàng)意性低,越高越不會(huì)按照學(xué)到的內(nèi)容進(jìn)行回復(fù),準(zhǔn)確性低但創(chuàng)意性高。讓模型幫我想文章題記和后記的時(shí)候會(huì)調(diào)高,模型的輸出確實(shí)會(huì)越有創(chuàng)意。讓模型幫我完成工程問題的時(shí)候會(huì)調(diào)低,保證同樣的輸入模型會(huì)有同樣的輸出。

14.什么是幻覺?說出可能導(dǎo)致幻覺的2個(gè)原因?你用過哪幾種緩解幻覺的方法,取得哪些結(jié)果?

這我也可太知道了哈哈哈,在我之前發(fā)的《從0構(gòu)建大模型知識(shí)體系(3):大模型的祖宗RNN》中也專門解釋過。

什么是幻覺:幻覺是指模型的輸出語言連貫自然,但實(shí)際內(nèi)容與真實(shí)情況不符的現(xiàn)象。

導(dǎo)致幻覺的原因:1)最根本的原因是模型的本質(zhì)是個(gè)概率預(yù)測(cè)機(jī)器,在訓(xùn)練過程中學(xué)到的是不同token之間共同出現(xiàn)的統(tǒng)計(jì)概率,這使得它在回復(fù)時(shí)是在最大化語言的“連貫性”而非“正確性”;2)訓(xùn)練語料本身就有錯(cuò)

緩解幻覺的方法:我現(xiàn)在能想到的幾個(gè)方法按照有效程度從低到高排的話是

  1. 直接在prompt里告訴它,比如“不要捏造事實(shí),必須忠于我給你的pdf進(jìn)行回答”
  2. 在prompt里引導(dǎo)模型進(jìn)行思考,比如手把手教他1+1怎么就等于2,可以一定程度上緩解大模型的計(jì)算幻覺
  3. 調(diào)低temperature,讓模型忠于訓(xùn)練語料中的內(nèi)容進(jìn)行回答(前提是訓(xùn)練語料正確無誤)
  4. 上RAG,讓模型根據(jù)校驗(yàn)過的正確信息做出回答?;蛘咄梁栏纱郤FT一遍,讓模型根據(jù)正確的信息重新學(xué)習(xí)怎么說話

取得的結(jié)果:目前我也就實(shí)踐過前3條,結(jié)果還行。我用豆包1.5 pro幫我讀企業(yè)年報(bào)并回答其中哪句原文最能表明他們將AI作為企業(yè)戰(zhàn)略,基本能做到70%的情況下確實(shí)是原文

15.RAG提升大模型表現(xiàn)的原理是?如何處理長文本?你如何做的及結(jié)果?

我理解原理應(yīng)該是讓模型先檢索與用戶提問最相關(guān)且最新最正確的信息,然后基于這些信息進(jìn)行輸出。至于如何處理長文本……不清楚,如何做的及結(jié)果……沒做過

查了下,原理和我理解的差不多:RAG 通過檢索實(shí)時(shí)或領(lǐng)域?qū)俚耐獠恐R(shí)庫(如文檔、網(wǎng)頁、數(shù)據(jù)庫),動(dòng)態(tài)注入最新或更精準(zhǔn)的信息,提升回答的準(zhǔn)確性和時(shí)效性。

處理長文本的方法有:

1.分塊 (Chunking) : 將長文本分割成更小的、有意義的文本塊(Chunks)

2.建立索引(Indexing): 將這些文本塊進(jìn)行處理(通常是計(jì)算它們的向量嵌入表示),并存儲(chǔ)在一個(gè)可快速檢索的索引中(通常是向量數(shù)據(jù)庫)

3.相關(guān)塊檢索(Relevant Chunk Retrieval): 當(dāng)用戶提問時(shí),檢索器在文本塊的索引中進(jìn)行搜索,找出與問題最相關(guān)的一個(gè)或多個(gè)文本塊。

4. 基于塊的生成 (Chunk-based Generation):檢索到的這些相關(guān)文本塊(而不是整個(gè)長文檔)被用來增強(qiáng)用戶的原始Prompt,然后送入LLM

16.Fine-tuning是什么意思?說出一個(gè)方法和如何提升效果?你如何做的及結(jié)果?

Fine-tuning是指根據(jù)目標(biāo)任務(wù)收集相應(yīng)的數(shù)據(jù)后,用這些數(shù)據(jù)繼續(xù)訓(xùn)練模型使之能完成該任務(wù)的過程,目前我知道LoRA這個(gè)方法,但如何提升效果……我現(xiàn)在只知道數(shù)據(jù)越多越好,質(zhì)量越高越好….比較廢話哈哈哈。如何做的及結(jié)果:學(xué)生時(shí)代搭了一個(gè)CNN架構(gòu)的CIFAR-10分類器算嗎?結(jié)果好像是93%的準(zhǔn)確率

17.SFT中文或英文是啥?如何用SFT來提升大模型的表現(xiàn)?你如何做的及結(jié)果?

Supervised Fine-tuning,有監(jiān)督微調(diào)。根據(jù)目標(biāo)任務(wù)的輸入輸出收集數(shù)據(jù)并打標(biāo),然后用其來調(diào)整模型參數(shù)。至于如何做的及結(jié)果,啊抱歉,目前還沒有給大模型做過SFT

18.RL怎么提升大模型的能力?你如何做的及結(jié)果?

據(jù)我所知RL可以在兩個(gè)方面提升大模型能力:1)可以讓大模型具備推理能力,比如DeepSeek-R1-Zero就是在DeepSeek-V3-Base的基礎(chǔ)上直接通過RL涌現(xiàn)出了推理能力。2)可以讓大模型的回答對(duì)齊人類偏好,比如通過RLHF讓模型知道什么問題該回答,什么問題不該回答

19.語音生成模型中的zero-shot voice cloning原理是什么?你如何做的及結(jié)果?

這個(gè)確實(shí)不清楚……語音模型閉源的我只玩過MiniMax,開源的只玩過SparkTTS,平時(shí)用的機(jī)會(huì)不多,所以沒咋關(guān)注原理。但我沒理解這道題的是語音克隆怎么著也得先提供一個(gè)克隆樣本吧,那至少也得是one-shot才對(duì),怎么能夠做到zero-shot呢?

查了一下,zero-shot voice cloning還真是指用少量錄制的語音樣本來復(fù)制說話人的聲音,只不過這些樣本不會(huì)用來更新模型參數(shù)。行吧,看來我對(duì)zero-shot的理解有些偏差。 核心原理是模型可以將語音內(nèi)容與說話人音色特征解耦。模型從輸入的短音頻中提取代表音色特征的“聲紋”(voice embedding)。然后將這個(gè)“聲紋”與需要合成的文本內(nèi)容相結(jié)合,生成具有目標(biāo)音色的新語音。這種能力使得模型可以克隆從未聽過的聲音。

20.你在comfy ui上做過最復(fù)雜,或最滿意的的工作流是什么?你如何做的及結(jié)果?

確實(shí)挺早就聽說過comfy,但因?yàn)閼芯鸵恢睕]嘗試,直到后面在B站經(jīng)常刷到Coze,索性就都用Coze搭工作流了。最滿意的工作流是最近搭的一個(gè)幫我讀企業(yè)年報(bào)的工作流,不算多么高大上,但確實(shí)幫我解決了實(shí)際問題。情況如下:

背景:我最近需要研究企業(yè)發(fā)布AI戰(zhàn)略對(duì)業(yè)績的影響,所以找了A股2019-2023在市的570+上市公司共計(jì)3950份年報(bào),一個(gè)人讀這些年報(bào)顯然不現(xiàn)實(shí)

目標(biāo):在2天內(nèi)完成工作流搭建并讓LLM讀完所有年報(bào),判斷每份年報(bào)中是否將AI作為戰(zhàn)略

動(dòng)作:

1)確定工作流的輸入輸出:輸入是所有企業(yè)年報(bào)pdf鏈接的excel,輸出是判斷每個(gè)pdf【是否將AI作為戰(zhàn)略】、【做出判斷的原因】以及【相關(guān)原文】這三個(gè)額外字段

2)一步一步搭建工作流:

  1. 讀取excel并逐行解析pdf鏈接。聽上去好像隨便找個(gè)現(xiàn)成的庫就能解決,但實(shí)際我發(fā)現(xiàn)用代碼訪問pdf鏈接會(huì)報(bào)錯(cuò)無法解析,而用瀏覽器訪問卻又可以正常下載pdf文件。研究半天發(fā)現(xiàn)是因?yàn)檫@些鏈接的服務(wù)端返回本身就有某種神奇的錯(cuò)誤,而市面上免費(fèi)的、付費(fèi)的pdf解析API都沒法處理這種錯(cuò)誤,還偏就只有瀏覽器能解決,遂在VS Code里讓Copilot幫我寫個(gè)腳本用chromedriver以臨時(shí)文件的形式先把pdf下載到本地解析,清洗,然后再發(fā)送給工作流,這才解決了問題,否則60%的pdf都無法解析
  2. 大模型選型:年報(bào)一般比較長,所以當(dāng)然最先嘗試主打長文本的Kimi,但Kimi判斷不太準(zhǔn)不說,在Coze上還有調(diào)用次數(shù)限制,充錢也不能提升調(diào)用次數(shù)。同樣,通義Max啊,abab6.5s啊充錢也沒法多用。所以只能在DeepSeek-V3、DeepSeek-V3-0324、DeepSeek-R1、豆包1.5 pro這些充錢就能多用的模型里嘗試,最后發(fā)現(xiàn)豆包1.5 pro判斷最準(zhǔn),而且價(jià)格還比主打性價(jià)比的DeepSeek-V3便宜。但因?yàn)槎拱?.5 pro只支持32k的長度,所以我在解析pdf后強(qiáng)制只上傳前30k個(gè)中文文本,感覺這樣也可接受,畢竟企業(yè)如果真要把AI作為戰(zhàn)略,前3萬字怎么著也得說這事兒了吧。
  3. prompt設(shè)計(jì):這顯然是一個(gè)復(fù)雜任務(wù),因?yàn)槲覒?,我直接在豆包桌面端讓它幫我寫prompt,然后改了改就直接用了。
  4. 數(shù)據(jù)組裝和整合:大模型的輸出是個(gè)JSON對(duì)象,但我最后要的是excel,所以還得在coze里新增一個(gè)代碼塊做數(shù)據(jù)整合,然后再調(diào)用一個(gè)excel生成插件。這塊兒純臟活,在Coze里直接用自帶的AI編程幫我干了
  5. 嘗試通過并發(fā)來提效,但時(shí)間有限沒搞定:這套工作流處理10個(gè)pdf大概需要5分鐘,所以串行處理3950個(gè)pdf需要32個(gè)小時(shí),不可接受。所以我讓Copilot幫我做全流程并行化,雖然最后代碼是跑通了,但不知道為啥實(shí)際效果還是串行。這其中涉及到很多并行的網(wǎng)絡(luò)請(qǐng)求發(fā)送,結(jié)果查詢啥的我確實(shí)時(shí)間有限來不及研究,遂放棄。最后通過我自己的win電腦,一臺(tái)云上win電腦,再加上朋友一臺(tái)x86和一臺(tái)arm的MAC,總共四臺(tái)電腦跑了8個(gè)小時(shí)終于搞定。其中我們發(fā)現(xiàn)arm的MAC速度是真快,M2芯片確實(shí)有點(diǎn)東西哈

結(jié)果:

  • 時(shí)間成本:搭工作流花了我1.5pd,處理所有pdf花了8小時(shí)
  • 金錢成本:調(diào)用豆包1.5 pro一共花了大概60塊,云上win電腦平時(shí)也會(huì)用來玩AI,所以不算成本
  • 收益:讀完了3950份年報(bào),讓后續(xù)的分析有了數(shù)據(jù)基礎(chǔ)

如有幫助,還望點(diǎn)個(gè)贊,謝謝!

本文由 @夜雨思晗 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖由作者提供

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 太快了,太快了感覺跟不上了

    來自四川 回復(fù)
  2. 讀完這篇文章,我感慨抖音算法的復(fù)雜性和其對(duì)內(nèi)容生態(tài)的深遠(yuǎn)影響。算法透明化和興趣探索機(jī)制的結(jié)合,不僅提升了用戶體驗(yàn),還推動(dòng)了內(nèi)容的多樣性和深度。這讓我思考技術(shù)如何在滿足用戶需求的同時(shí),促進(jìn)社會(huì)價(jià)值的實(shí)現(xiàn)。

    來自山東 回復(fù)