全流程攻略:如何構(gòu)建人工智能產(chǎn)品?

2 評論 14382 瀏覽 74 收藏 33 分鐘

人工智能產(chǎn)品的構(gòu)建過程分為三個階段,每個階段都有著不同的思考方式。從挖掘行業(yè)屬性到模型的建立與調(diào)優(yōu),作者對每個階段需要注意的問題進行了分析說明,供大家一起參考學習。

在人工智能產(chǎn)品構(gòu)建過程分為很多階段,從最頂層的商業(yè)思考到下層的模型研發(fā)都有著不同的思考方式。

第一階段是商業(yè)模式設計,任何產(chǎn)品早期都會對商業(yè)模式進行細致的考慮,商業(yè)模式的設計牽扯到方方面面,我們需要重點突出產(chǎn)品的行業(yè)屬性與產(chǎn)業(yè)價值。

第二階段是數(shù)據(jù)洞察與業(yè)務轉(zhuǎn)化,我們需要去收集有意義的數(shù)據(jù)并將轉(zhuǎn)化為模型的輸入。

第三階段是產(chǎn)品建模與評估,需要前兩階段的準備對產(chǎn)品模型進行開發(fā)與測試。

(1)行業(yè)洞察:首先對行業(yè)需要有深刻的理解與洞察。

(2)價值分析:針對于產(chǎn)品具體分析給用戶帶來什么價值,什么樣的價值能夠使用戶認可。需要以用戶的視角來分析產(chǎn)品的價值所在。

(3)數(shù)據(jù)分析:針對行業(yè)的特點分析數(shù)據(jù)應如何整理,如何利用,如何構(gòu)成產(chǎn)品。

(4)資源評估:評估是否有足夠的數(shù)據(jù)與人員支持人工智能產(chǎn)品的開發(fā)。

(5)資源收集:通過各種渠道購買、收集數(shù)據(jù),以及各類人員的資源分配。

(6)設計研發(fā)方案:根據(jù)以上結(jié)論設計人工智能產(chǎn)品的模型搭建與評估方案。

一、深度挖掘行業(yè),探究產(chǎn)品價值

1. 深刻挖掘行業(yè)屬性

當前產(chǎn)業(yè)互聯(lián)網(wǎng)恰逢其時,AI技術也更多的應用于行業(yè)之中。我們開發(fā)人工智能產(chǎn)品首要問題就是需要深刻理解行業(yè)痛點,做出有價值的產(chǎn)品。如何了解一個行業(yè)也有一些實用的方法可以借鑒。

構(gòu)建產(chǎn)品之初首先需要充分了解這個行業(yè),而且也要充分了解自己。了解自己主要從自身的所學專業(yè)、興趣程度、個人性格等方面綜合考量。當今社會所做的行業(yè)與自身專業(yè)不匹配的狀況時有發(fā)生,只有充分認識自我并且充分認知行業(yè),才能做出成熟的判定。我們先不談對自己的了解,首先給出如何快速認識一個行業(yè)的切入路徑。

第一步:行業(yè)認知——行業(yè)分解認知、行業(yè)組合認知

第二步:行業(yè)分析——業(yè)務流程、產(chǎn)業(yè)鏈、商業(yè)模式

第三步:行業(yè)常識——業(yè)內(nèi)典型企業(yè)與領導者

對于行業(yè)切入路徑仍然需要作一些說明,這個方法只是一個初步了解行業(yè)的路徑。由于大家教育背景不同專業(yè)不同,各個行業(yè)壁壘有有高有底,并不要指望通過某個方法就能夠立刻深入到某個行業(yè)中,想真正深入某個行業(yè)還需要系統(tǒng)的學習行業(yè)知識,并真正在行業(yè)中沉淀一段時間,才能夠深入體會。

行業(yè)認知是切入行業(yè)的第一步,在行業(yè)認知的過程中分為2個步驟:行業(yè)分解認知與行業(yè)組合認知。

(1)行業(yè)分解認知

研究某個行業(yè)不能囫圇吞棗,首先要對行業(yè)進行分解。所謂行業(yè)分解認知是將行業(yè)細分成一個個子領域,針對這些子領域再進行一一分析的過程。對于一個未細分的行業(yè)是無法拿來研究的,只有將其分解才能各個擊破。用大家熟悉的互聯(lián)網(wǎng)產(chǎn)品經(jīng)理來舉例,現(xiàn)在產(chǎn)品經(jīng)理行業(yè)也產(chǎn)生了很多子領域,包括數(shù)據(jù)產(chǎn)品經(jīng)理、后臺產(chǎn)品經(jīng)理、人工智能產(chǎn)品經(jīng)理等。盡管這些產(chǎn)品經(jīng)理在職能方面可能有所交叉,但是分解的越細代表對產(chǎn)品經(jīng)理這個行業(yè)了解的越深入。

(2)行業(yè)組合認知

在行業(yè)分解認知之后,我們已經(jīng)對行業(yè)有了一個初步的了解,之后我們需要通過行業(yè)組合認知對行業(yè)進行綜合分析。行業(yè)組合認知是指將之前行業(yè)分解得到的子領域,統(tǒng)一回歸到整體行業(yè)的框架下思考,思考的重點是每個子領域?qū)φw行業(yè)的貢獻,以及研究各個子領域在產(chǎn)業(yè)中的關系與地位。因此,分析好每個細分子領域?qū)π袠I(yè)整體的貢獻,才能更加透徹地審視全局。

2. 探究產(chǎn)品價值

無論何種產(chǎn)品都必須要體現(xiàn)價值才能贏得商業(yè),AI產(chǎn)品當然更是如此。對于一個成功的AI產(chǎn)品,并不是重視其使用了多么先進的AI技術,而是通過技術能否真正得到行業(yè)價值。

例如,在過構(gòu)建工業(yè)知識圖譜時,如果只強調(diào)知識圖譜可以將不同的知識連接起來,則不能突出其價值。工業(yè)知識圖譜真正的價值根據(jù)不同項目,概括為在生產(chǎn)產(chǎn)生偏差時,快速尋找到相關原因?;?qū)⑺泄ば蛭募嚓P聯(lián),確保生產(chǎn)過程的合規(guī)性檢查。產(chǎn)品的價值必須符合行業(yè)屬性,并使用戶有清晰的辨識度。

針對產(chǎn)業(yè)互聯(lián)網(wǎng)而言,產(chǎn)品價值主要體現(xiàn)以下2個方面。

(1)效率價值

人工智能技術應用于產(chǎn)業(yè),最重要的一點就是提升產(chǎn)業(yè)效率。人工智能技術是對人的模仿技術,人工智能產(chǎn)品可以提供某個工序的工作效率,降低人員的參與程度,降低人員成本,提高工作準確率。

(2)創(chuàng)新價值

在效率產(chǎn)生大幅度提升時,則意味著創(chuàng)新。但是創(chuàng)新并不是僅僅是通過效率提升而產(chǎn)生的。隨著人工智能技術的發(fā)展,大規(guī)模邏輯網(wǎng)絡的形成,知識圖譜的大規(guī)模應用,已經(jīng)能夠運用此類技術構(gòu)建新知識新發(fā)現(xiàn)。

人工智能產(chǎn)品的研發(fā),首先可以先以實現(xiàn)效率價值為目標,在逐步實現(xiàn)創(chuàng)新價值。需要以行業(yè)訴求為最終的價值判別依據(jù)。

二、數(shù)據(jù)洞察與處理

1. 需求與數(shù)據(jù)

當今是一個數(shù)據(jù)爆炸的時代,數(shù)據(jù)積累的規(guī)模遠遠超過了之前人類社會數(shù)據(jù)積累規(guī)模的總和。在大數(shù)據(jù)這個概念出現(xiàn)之前,計算機并不能很好的解決需要人去做判別的一些問題。如今人工智能利用用大量的數(shù)據(jù)作導向,能夠使機器完成一些之前機器所不能完成的功能,使之前無法滿足的需求得以滿足。人工智能技術離不開數(shù)據(jù),數(shù)據(jù)與需求之間首先應該搭建起一個橋梁。

(1)從數(shù)據(jù)到需求

我們首先將經(jīng)歷聚焦到數(shù)據(jù)上來,認真分析這些積累下來的數(shù)據(jù)都有哪些?思考這些數(shù)據(jù)都能夠做些什么?哪些與我們的業(yè)務關聯(lián)性高,哪些關聯(lián)性低?例如一個外貿(mào)公司積累了之前5年的銷售流水數(shù)據(jù),那我們可以考慮用這些數(shù)據(jù)推測第六年的銷售流水。從數(shù)據(jù)到需求的階段,我們只需要考慮數(shù)據(jù)能夠做什么,暫時無需考慮數(shù)據(jù)的產(chǎn)出是否與業(yè)務相關。

(2)從需求到數(shù)據(jù)

當我們完成對數(shù)據(jù)的聚焦后,開始對需求進行聚焦。對需求的聚焦需要分析業(yè)務,重點分析的內(nèi)容是滿足這些需求都需要哪些數(shù)據(jù)來支撐。滿足一個業(yè)務需求,可能需要很多數(shù)據(jù)支持,這些數(shù)據(jù)有些已經(jīng)被積累,有些則沒有被積累。

例如一個外貿(mào)公司需要預測下一年的銷售額,需要前10年的公司銷售額,除此之外還需要上一年股市大盤的走勢數(shù)據(jù),同時也需要公司前5年的用戶數(shù)據(jù)。從需求到數(shù)據(jù)的過程是為了使公司清楚針對某一個特定需求,哪些數(shù)據(jù)已經(jīng)保留,哪些數(shù)據(jù)需要外購,哪些數(shù)據(jù)在以后的公司發(fā)展中需要保留下來。

首先從數(shù)據(jù)到需求,再由需求到數(shù)據(jù)。數(shù)據(jù)與需求是一個相互漸進、反復循環(huán)的過程,如圖所示。從數(shù)據(jù)到需求是一個數(shù)據(jù)價值提升的過程,這個過程首先數(shù)據(jù)賦予了價值;從需求到數(shù)據(jù)是一個數(shù)據(jù)升級的過程,更多圍繞需求的數(shù)據(jù)被挖掘,也更加明確了數(shù)據(jù)與需求的聯(lián)系。

數(shù)據(jù)的來源主要有2種方式,可以自己采集也可以購買。采集來的大多是用戶與業(yè)務數(shù)據(jù),這部分數(shù)據(jù)可以用來完善產(chǎn)品或者制作數(shù)據(jù)分析報告;購買的標注數(shù)據(jù)可以作為訓練集,用于構(gòu)建模型。

對于非監(jiān)督學習可以使用未標注過的訓練集進行訓練,不過在實際真正的產(chǎn)品構(gòu)建中,大家應盡量少的使用非監(jiān)督學習。非監(jiān)督學習學習效率較低,無法快速得到較好的模型效果,產(chǎn)品也就無法落地實用。非監(jiān)督學習可以更多的應用于科研或者課題研究方面。

2. 數(shù)據(jù)標注

數(shù)據(jù)質(zhì)量是影響人工智能產(chǎn)品準確性的關鍵所在,一個具有高質(zhì)量標注的數(shù)據(jù)集對于模型的提升效果,遠遠高于算法優(yōu)化帶來的效果。數(shù)據(jù)標注是通過人工或半自動的方式,將原始數(shù)據(jù)打上相應的標簽,打好標簽的原始數(shù)據(jù)稱為標注數(shù)據(jù)或者訓練集數(shù)據(jù)。

數(shù)據(jù)標注過程有2個意義:其一,使人類經(jīng)驗蘊含于標注數(shù)據(jù)之中;其二,使標注數(shù)據(jù)信息能夠符合機器的讀取方式。標注的數(shù)據(jù)的難度越高價格越昂貴,以此訓練出的模型價值就越高。

數(shù)據(jù)標注的流程通常分為五個步驟。

(1)業(yè)務分析

產(chǎn)品經(jīng)理與算法工程師要對業(yè)務進行理解,明確原始數(shù)據(jù)的意義與數(shù)據(jù)標注的價值。業(yè)務理解是所有產(chǎn)品工作的基礎。

(2)確定原始數(shù)據(jù)與標注結(jié)果

產(chǎn)品經(jīng)理需要與算法工程師共同確認原始數(shù)據(jù)及數(shù)據(jù)標準結(jié)果,并確定標注工具。數(shù)據(jù)標注的結(jié)果必須得到算法工程師確認,確保后續(xù)建模過程的順利開展。

(3)撰寫標注教程

在確認原始數(shù)據(jù)與標注結(jié)果后,產(chǎn)品經(jīng)理需要撰寫標注教程。標注教程就好像軟件說明書,需要將標注過程按順序一一列出。標注教程包含4個要素:標注軟件(平臺)、標注要求、標注對象、標注流程。撰寫的標注教程同樣需要得到算法工程師確認。

(4)數(shù)據(jù)標注

該過程為數(shù)據(jù)標注過程,產(chǎn)品經(jīng)理需要不定時進行標注結(jié)果抽查。

(5)標注結(jié)果驗收

產(chǎn)品經(jīng)理與算法工程師共同對標注結(jié)果進行質(zhì)量驗收,驗收不合格需要搞清異常原因并重新標注。對于有行業(yè)壁壘的數(shù)據(jù),標準準確性需要行業(yè)專家進行判斷。

針對不同的數(shù)據(jù)類型有不同的標注工具。圖像類標注可以使用LabelMe,文本標注可以使用Brat或DeepDive等,當然還有很多后期開發(fā)的標注平臺可以使用。

三、 模型建立與調(diào)優(yōu)

早期的人工智能系統(tǒng),被稱為專家系統(tǒng)。專家系統(tǒng)通過學習或總結(jié)人類經(jīng)驗獲得智能,并可以恰當應用這些經(jīng)驗來解決實際問題。如今隨著大數(shù)據(jù)的發(fā)展,新生事物不斷增加,各種知識層出不窮。很多領域的經(jīng)驗已經(jīng)無法總結(jié)成系統(tǒng)化的專家經(jīng)驗,而這些經(jīng)驗被包含在大量產(chǎn)生的數(shù)據(jù)之中,所以說數(shù)據(jù)是人工智能發(fā)展的基礎。

由此可見,建模的根本在于尋找人類經(jīng)驗。但根據(jù)尋找人類經(jīng)驗的方式不同,可以分為知識建模、非知識建模、混合建模3種。

知識建模屬于早期專家系統(tǒng)的建模方法,重點在于如何將總結(jié)好的知識轉(zhuǎn)化為機器可以識別、儲存、運用的形式。知識建模適用于數(shù)據(jù)難以收集,或業(yè)務邏輯相對容易總結(jié)的問題。

非知識建模不需要提取人類經(jīng)驗,甚至不需要模型具有可解釋性,通過數(shù)據(jù)特征得到對應的模型。非知識建模適用于業(yè)務邏輯難以總結(jié),而業(yè)務數(shù)據(jù)容易獲得的情況。

混合建模結(jié)合了知識建模與非知識建模2種方式,根據(jù)特定問題進行建模。

建模過程是一個系統(tǒng)而復雜的工程,需要根據(jù)業(yè)務類型、數(shù)據(jù)情況等多方面情況才能夠完成。據(jù)筆者了解,當前很多人工智能工作者只重視非知識建模的方式,認為知識建模過時了,不適用于當今人工智能的發(fā)展。這樣的認識是偏頗的,必須根據(jù)實際問題將不同建模方式結(jié)合起來才能達到較好效果。

1. 知識建模

知識建模源于人工智能起源的一大學派,該學派稱為符號主義。符號主義認為人工智能源于數(shù)理邏輯,也可以說以一種高級的推理過程。從符號主義的觀點來看,知識是信息的一種形式,知識邏輯體系是構(gòu)成智能的基礎。

人工智能的核心在于知識表示、知識推理、知識運用,知識可用符號進行描述,認知是符號的處理過程,推理是基于知識與搜索對問題的求解過程。推理過程同樣可以用符號化的語言來描述,也就構(gòu)成了我們認知的模型。符號主義認為可以建立起人類智能與機器智能的統(tǒng)一理論體系。

在知識建模中,有兩個重要問題。其一是知識的符號表示,其二是推理方法。知識的符號表示是將知識轉(zhuǎn)化為機器所能識別、儲存、運用的數(shù)據(jù)化形式。推理方法是機器運用知識解決實際問題的能力。

(1)知識的符號表示

常見的知識符號表示有方法有謂詞邏輯法、狀態(tài)空間法、問題規(guī)約法等。由于知識建模構(gòu)建的是一種推斷邏輯,所以謂詞邏輯法使用較為普遍。

謂詞是用來描述或判定客體性質(zhì)、特征或者客體之間關系的詞項。例句“小明是我的朋友”中,“是”就是謂詞,該句中只有“小明”一個客體,這樣的謂詞我們稱為一階謂詞;例句“5大于4”中,“大于”就是謂詞,該句中“大于”涉及到兩個客體,這樣的謂詞稱為二階謂詞。

使用謂詞表示知識有兩個步驟:

①確定每個謂詞的個體以及確切含義。

②利用邏輯符號連接謂詞,對知識進行表達。

[例]利用謂詞邏輯法表述以下語句

人人學雷鋒

①確定每個謂詞的個體以及確切含義。

個體:人

謂詞:學、是(“人人”隱含了“是人”的客觀事實)

定義謂詞:

people(x):x是人

learn(x,y):x學y

②利用邏輯符號連接謂詞,對知識進行表達。

(表示對于任意)

(2)推理方法

推理方法是研究機器如何模擬人類進行知識選擇,并運用這些知識分析和解決實際問題的邏輯方法。我們也可以理解為推理是依據(jù)一定的原則,從已有事實推出結(jié)論的過程。推理系統(tǒng)主要由謂詞邏輯組成的知識庫和控制推理過程的機構(gòu)組成。

常用的推理方法有3種:正向推理、逆向推理、雙向推理。

正向推理是由條件出發(fā),向結(jié)論方向進行的推理過程。它以當前的事實出發(fā),根據(jù)輸入的推理規(guī)則,向結(jié)論進行推理。例如我們知道發(fā)燒、咽痛、關節(jié)酸痛具有較高概率能夠推理出的結(jié)論是感冒。這種推理方式就是典型的正向推理。正向推理是早期專家系統(tǒng)解決問題的一個重要特征,即專家在解決問題時,首先是發(fā)現(xiàn)問題提供了什么信息,根據(jù)提供的信息再借助推理規(guī)則推導出新的信息,從而加深對問題的了解。

逆向推理是指從問題的目標狀態(tài)出發(fā),按照目標組成的邏輯順序逐級向初始狀態(tài)遞歸的問題解決策略。簡單來講,當一件事結(jié)果是正確的或客觀的,那么可以根據(jù)這一結(jié)果進行反向推理從而得到原因。當我們已經(jīng)知道患者得了感冒,可以推想他可能是受涼、感染流感病毒等多個原因?qū)е赂忻?,這就是逆向推理的思維模式。

雙向推理結(jié)合正向推理與逆向推理,它是構(gòu)成推理網(wǎng)絡的理論基礎。

知識建模是早期人工智能技術的代表,由知識建模而構(gòu)建的專家系統(tǒng)為醫(yī)學、教育、工業(yè)領域做出巨大貢獻。知識建模的優(yōu)點可以總結(jié)為以下3個方面:

  1. 知識高效表達:通過知識的符合表示方法,可以高效準確地表達難以用數(shù)學方法描述的復雜、定性的人類經(jīng)驗知識。
  2. 靈活性:知識的表達相對獨立,方便進行知識的修改和擴充,系統(tǒng)也可以快速獲得新的規(guī)則。
  3. 可解釋性:知識建模最大的特點是可解釋性。所有的推理邏輯與公式,都可以經(jīng)過嚴謹?shù)臄?shù)理證明進行解釋。這一點與當前非常流行的神經(jīng)網(wǎng)絡模型相比,具有非常大的優(yōu)勢。

任何建模方法同樣有缺點,知識建模的缺點同樣可以總結(jié)為以下3個方面:

  1. 知識獲取的困難:專家的經(jīng)驗知識加以提取、整理、轉(zhuǎn)換成各種符合表示,還要考慮知識之間的相容性等問題,這本身就是一項困難的工作。
  2. 高復雜度問題:對于復雜的知識體系,知識之間的關系以及知識庫中的節(jié)點會變得異常復雜。推理中對知識的搜索和運用分支將呈幾何級數(shù)的增加。
  3. 容錯能力差:由于知識推理具有非常嚴密推理條件與推理邏輯,知識的不完備可能會導致推理出現(xiàn)困難,從而降低了系統(tǒng)的精度。同時,如果出現(xiàn)錯誤的規(guī)則,可能導致整個推理的錯誤,并且這種錯誤不易更正。

2. 非知識建模

非知識建模是當前大數(shù)據(jù)時代的主流建模方式。由于數(shù)據(jù)中蘊含著人的知識或經(jīng)驗,但是建模過程并不需要將這種知識提取出來,而是直接通過獲取大量數(shù)據(jù)去訓練模型。非知識建模避免了知識提取的過程,也回避了建模人員對專業(yè)知識的理解問題。

由于非知識建模中不涉及到對知識的提取,所以非知識建模中最重要是數(shù)據(jù)準備工作。這些數(shù)據(jù)準備是為了構(gòu)成模型的訓練集,我們需要準備存儲格式統(tǒng)一、真實性高、標注明確合規(guī)的數(shù)據(jù)作為模型的訓練集。

在準備好訓練集后,我們可以根據(jù)具體業(yè)務進行模型的選型,根據(jù)選擇模型的特點對訓練數(shù)據(jù)進行微調(diào),以滿足不同模型的訓練要求。對于數(shù)據(jù)特征不明顯的數(shù)據(jù)集,我們也可以通過特征工程來提取數(shù)據(jù)特征,使訓練出的模型更加高效準確。模型訓練的過程如下圖所示。

在進行模型訓練時,我們需要通過某個學習算法,得到我們的目標模型。模型是否能夠得到較好效果,主要在于訓練數(shù)據(jù)的質(zhì)量,所以數(shù)據(jù)才是整個算法構(gòu)建的核心要素。非知識建模主要就是通過數(shù)據(jù)使機器自動提取某些內(nèi)在的業(yè)務特征,從而達到模型效果。模型的選擇種類也根據(jù)不同的業(yè)務,以及不同算法工程師的偏好靈活選擇。

3. 模型的評估:分類任務評價

分類最常見的機器學習任務,主要目的是數(shù)據(jù)劃歸為不同類別。分類問題包括二分類與多分類問題。識別垃圾郵件或判定是否為潛在用戶就是典型的二分類問題,用戶畫像、輔助診斷系統(tǒng)等屬于多分類問題。分類問題的評估指標主要有準確率、損失函數(shù)、精準率-召回率、曲線下面積(AUC)等。

(1)準確率

準確率是一個非常直接的評價指標,指的是分類正確的個數(shù)占總體個數(shù)的比。但是準確率并不能夠公正的評價一個模型。主要原因有2個:

第一原因是兩種分類重要程度不同。例如在癌癥診斷中,確診癌癥患者中未患有癌癥的情況(假陽性)與確診未患有癌癥患者中患癌的情況(假陰性),這兩種情況對于患者的意義截然不同;

第二個原因是數(shù)據(jù)分布不均,如果兩個分類個數(shù)相差過大,占有大樣本的一方會主導準確率的計算。

(2)平均準確率

為了處理每個類別樣本數(shù)量不一致的情況,使用平均準確率來進行度量。平均準確率將多個分類的準確率取平均值來對模型進行評價。平均準確率是對整體模型進行的評價,而并不等于某一個分類的準確率。在某個類別數(shù)量很少時,會造成該類別準確率的方差過大,使準確率可靠性降低。

(3)對數(shù)損失函數(shù)(Log-loss)

對數(shù)損失函數(shù)很像Logistic回歸的損失評價函數(shù),這些評價標準都基于概率估計。對數(shù)損失通過懲罰錯誤的分類,實現(xiàn)對分類器的準確度(Accuracy)的評價。損失函數(shù)最小意味著分類器具有最佳的性質(zhì),分類器提供的是輸入樣本所屬類別的概率值。對于多分類問題對數(shù)損失函數(shù)表示如公式(3.5.1)所示。

(4)精確率-召回率(Precision-Recall)

精確率-召回率其實是兩個評價指標,但是它們經(jīng)常同時使用。精確率是指分類器分類正確的正樣本的個數(shù)占該分類器所有分類為正樣本個數(shù)的比例。召回率是指分類器分類正確的正樣本個數(shù)占所有的正樣本個數(shù)的比例。具體解釋在后面混淆矩陣中詳細介紹。

(5)AUC (Area under the Curve, AUC)

AUC的意義為曲線下的面積,所描述的是ROC曲線(Receiver OperatingCharacteristic, ROC)。首先我們需要了解ROC曲線是如何繪制的。

ROC曲線的x與y軸的含義:

  • 橫軸:負正類率(False Postive Rate, FPR),分類器分類錯誤的負樣本個數(shù)占總負樣本個數(shù)的比例。
  • 縱軸:真正類率(True Postive Rate, TPR),分類器分類正確的正樣本個數(shù)占總正樣本個數(shù)的比例。

對于設定一個閾值,就可以對應算出一組(FPR,TPR)從而在平面中得到對應坐標點。隨著閾值的逐漸減小,越來越多的實例被劃分為正類,但是這些正類中同樣也摻雜著真正的負實例,即TPR和FPR會同時增大。閾值最大時對應坐標點為(0,0),閾值最小時對應坐標點(1,1)。

以下面一個例子解釋ROC曲線繪制過程,如圖所示數(shù)據(jù)。

如圖有20個樣本依次編號,屬性是樣本的類別,p代表正樣本,n代表負樣本,得分代表樣本被判定為正樣本的概率。在繪制ROC曲線時,每給定一個閾值計算一次(FPR,TPR)點。對于二分類器,我們可以設定閾值,認為樣本中得分大于等于這個閾值為正樣本。由于有20個樣本,閾值可以按照20個樣本的得分依次進行選取。

假設閾值1=0.9,正樣本數(shù)量為10個,負樣本數(shù)量為10個。

即認為大于等于0.9的樣本為正,其余為負樣本。根據(jù)圖3-36所示數(shù)據(jù)與FTR、TPR定義可知

FTR=0(未出現(xiàn)誤判的樣本)

TPR=0.1

我們得到第一個點為(0,0.1)。

假設閾值3=0.7,正樣本數(shù)量為10個,負樣本數(shù)量為10個。

即認為大于等于0.7的樣本為正,其余為負樣本。根據(jù)圖3-36所示數(shù)據(jù)與FTR、TPR定義可知

FTR=0.1(有一個負樣本被判定為正樣本)

TPR=0.2

我們得到第3個點為(0.1,0.2)。

如此通過設定閾值可以得到20個(FPR,TPR)點,從而繪制ROC曲線如圖3-36所示??梢娮詈玫姆诸惼魇荈PR=0%,TPR=100%,當然這是一種極端情況。如果同時比較多個分類器性能,通過ROC曲線較難實現(xiàn),我們便選取了曲線下面積(AUC)作為指標進行度量。分類器效果越好,AUC面積越大。大多數(shù)情況AUC值在0.5-1之間。

使用AUC對分類器進行評價可以避免樣本不均衡的影響。在真實情況下樣本不均衡的現(xiàn)象經(jīng)常出現(xiàn),有時正樣本個數(shù)遠遠大于負樣本個數(shù),或正負樣本個數(shù)可能隨時間而改變,在使用AUC進行評價時可以有效避免。

(6)混淆矩陣(Confusion Matrix)

混淆矩陣可以關聯(lián)上述的所有概念,也作為分類結(jié)果評價的常用手段?;煜仃囀且粋€分類的正誤表,對于二分類問題則是一個2*2矩陣,對于多分類問題是一個n*n矩陣,以二分類問題為例,如表所示。

表-二分類問題的混淆矩陣

真正(True Positive, TP):分類正確的正樣本。即本來是正樣本,分類為正樣本。
從混淆矩陣中直接提取的成為一級指標,具體含義如下:

假負(False Negative, FN):分類錯誤的正樣本。即本來是正樣本,分類為負樣本。

假正(False Positive, FP):分類錯誤的負樣本。即本來是負樣本,分類為正樣本。

真負(True Negative, TN):分類正確的負樣本。即本來是負樣本,分類為負樣本。

通過明確混淆矩陣的一級指標的含義,可以定義二級指標,如表3-3所示。

混淆矩陣可以將諸多概念加以串聯(lián),在模型評價中具有重要地位。除此之外,混淆矩陣在試驗評價等諸多領域還有廣泛的用途。

最后把封面的人工智能產(chǎn)品經(jīng)理流程圖配上,具體的內(nèi)容將在下一篇文章說明。

上述就是一個人工智能產(chǎn)品的整體構(gòu)建流程,如果還希望能夠了解的更詳細,可以關注我的新書《手把手構(gòu)建人工智能產(chǎn)品》,書中會有更詳細AI產(chǎn)品經(jīng)理項目方案。

#專欄作家#

白白,公眾號:白白說話(xiaob-talk)。人人都是產(chǎn)品經(jīng)理專欄作家,醫(yī)藥行業(yè)資深產(chǎn)品專家,負責人工智能行業(yè)類產(chǎn)品綜合架構(gòu)與技術開發(fā)。在行業(yè)云產(chǎn)品架構(gòu),藥物設計AI輔助、醫(yī)療知識圖譜等領域有深入研究。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 您好,想要了解下,如何對人工智能類產(chǎn)品設定階段性的目標以及時間節(jié)點呢?目前產(chǎn)品迭代過程中碰到的問題是,算法研發(fā)人員很難給出一個在某個時間點達到什么樣的衡量指標,麻煩幫忙解答下

    來自北京 回復
  2. 歡迎關注我的《手把手構(gòu)建人工智能產(chǎn)品》,里面有更詳細的AI產(chǎn)品攻略。

    來自北京 回復