搜索引擎中的網(wǎng)頁分類技術

1. 技術背景
分類問題是人類所面臨的一個非常重要且具有普遍意義的問題。將事物正確的分類,有助于人們認識世界,使雜亂無章的現(xiàn)實世界變得有條理。自動文本分類就是對大量的自然語言文本按照一定的主題類別進行自動分類,它是自然語言處理的一個十分重要的問題。文本分類主要應用于信息檢索,機器翻譯,自動文摘,信息過濾,郵件分類等任務。文本分類的一個關鍵問題是特征詞的選擇問題及其權重分配。
在搜索引擎中,文本分類主要有這些用途:相關性排序會根據(jù)不同的網(wǎng)頁類型做相應的排序規(guī)則;根據(jù)網(wǎng)頁是索引頁面還是信息頁面,下載調度時候會做不同的調度策略;在做頁面信息抽取的時候,會根據(jù)頁面分類的結果做不同的抽取策略;在做檢索意圖識別的時候,會根據(jù)用戶所點擊的url所屬的類別來推斷檢索串的類別等等。
2. 自動分類的原理和步驟
在分類的時候首先會遇到文檔形式化表示的問題,文檔模型有3種:向量空間模型,布爾模型和概率模型,其中我們常用的是向量空間模型。向量空間模型的核心描述如下:
- 文檔(Document):文本或文本中的片斷(句子或段落)。
- 特征項(Term):文檔內容用它所包含的基本語言單位來表示,基本語言單位包括字、詞、詞組、短語、句子、段落等,統(tǒng)稱為特征項。
- 特征項權重(Term Weight):不同的特征項對于文檔D的重要程度不同,用特征項Tk附加權重Wk 來進行量化,文檔D可表示為(T1,W1;T2,W2;…;Tn,Wn)
- 向量空間模型(Vector Space Model):對文檔進行簡化表示,在忽略特征項之間的相關信息后,一個文本就可以用一個特征向量來表示,也就是特征項空間中的一個點;而一個文本集可以表示成一個矩陣,也就是特征項空間中的一些點的集合。
- 相似度(Similarity):相似度Sim(D1,D2)用于度量兩個文檔D1和D2之間的內容相關程度。當文檔被表示為文檔空間的向量,就可以利用歐氏距離、內積距離或余弦距離等向量之間的距離計算公式來表示文檔間的相似度。
其中特征選取是文本表示的關鍵, 方法包括:文檔頻率法(DF)、信息增益法和互信息法等等。
在做特征選取之前,一般還要進行預處理的工作,要對先對網(wǎng)頁降噪。另外在實際的分類中,除了利用文檔的內容特征之外,可能還會用到實際應用中所特有的特征,比如在網(wǎng)頁分類中,可能用到url的特征、html的結構特征和標簽特征等信息。
分類的基本步驟是這樣的:定義分類體系,將預先分類過的文檔作為訓練集,從訓練集中得出分類模型,然后用訓練獲得出的分類模型對其它文檔加以分類。
3. 常用的分類算法
文檔自動分類是學術界研究多年,技術上比較成熟的一個領域。目前分類算法主要分下面這些:
其中比較常用的是:支持向量機(SVM)方法、樸素貝葉斯(NB)方法、神經(jīng)網(wǎng)絡(NN)方法、K近鄰(KNN)方法、決策樹(Decision Tree)方法等。
- 支持向量機(Support Vector Machines, SVM)由Vapnik在1995年提出,用于解決二分類模式識別問題。它通過尋找支持向量來確定決策面,并使分類間隔最大。SVM方法提供了解決 “維數(shù)災難”問題的方法。SVM方法較好的理論基礎和它在一些領域的應用中表現(xiàn)出來的優(yōu)秀的泛化性能,盡管SVM算法的性能在許多實際問題的應用中得到了驗證,但是該算法在計算上存在著一些問題,包括訓練算法速度慢、算法復雜而難以實現(xiàn)以及檢測階段運算量大等等。
- 樸素貝葉斯(Naive Bayes,NB) 概率分類器是機器學習中很常用的一種方法,其基本思想是利用單詞和分類的聯(lián)合概率來估計給定文檔的分類概率。
貝葉斯公式:P(C|X)*P(X)=P(X|C)*P(C)
特征向量:X=(x1,x2,x3…) C={C1,C2,……}
其中P(C)是每個類別的先驗概率,即,互聯(lián)網(wǎng)上各個分類所占總頁面的比例
P(X|C):條件概率,表示在類別為C的訓練集合中,X的分布情況。
P(X):每個特征值的分布,由于特征值的分布是隨機的,所以P(X)相等
- 神經(jīng)網(wǎng)絡(Neural network,NN)技術是人工智能中的成熟技術。將神經(jīng)網(wǎng)絡用于文檔分類時,需要為每個分類建立一個神經(jīng)網(wǎng)絡,通過學習得到從輸入單詞(或者更復雜的特征詞向量)到分類的非線性映射。其計算量和訓練時間非常龐大。
- KNN是著名的模式識別統(tǒng)計學方法,已經(jīng)有四十年歷史,它是最好的文本分類算法之一。KNN算法相當簡單:給定一個測試文檔,系統(tǒng)在訓練集中查找離它最近的k個鄰居,并根據(jù)這些鄰居的分類來給該文檔的候選分類評分。把鄰居文檔和測試文檔的相似度作為鄰居文檔所在分類的權重。如果這k個鄰居中的部分文檔屬于同一個分類,則該分類中的每個鄰居的權重求和并作為該分類和測試文檔的相似度。該方法的特點是允許文檔可以屬于多個分類。KNN通過查詢已知類似的例子的情況,來判斷新例子與已知例子是否屬于同一類。
通過我們對現(xiàn)實網(wǎng)頁的分類測試情況看,這些方法中SVM方法的效果是比較好的,但是性能不高; 樸素貝葉斯的分類效果雖然略差于SVM,但是性能上要好很多。
4. 網(wǎng)頁分類應用
4.1分類算法
實際應用中, 除了分類效果外, 速度是一個需要重點考慮的因素。
4.2分類類別
在搜索引擎中, 在不同的應用場景下, 會有不同的分類的標準, 比如在鏈接調度中需要信息頁、索引頁這樣的分類,不同類型的頁面更新調度的周期不一樣;排序對分類的要求又不同, 比如按表現(xiàn)形式分圖片、視頻等;按網(wǎng)站類型分為論壇、博客等,不同類型的頁面抽取策略也會不盡相同;再按內容主題分成小說、招聘和下載等類別。對網(wǎng)頁從多個維度進行分類,能更好給用戶提供更為貼切的檢索結果。
4.3 特征選取
在學術研究中, 一般比較重視分類算法的研究,在特征選擇上比較忽視。傳統(tǒng)的特征選擇一般是用TF*IDF等方法選擇內容關鍵字等,這也是我們使用的一個重要因子, 但是除內容特征之外,我們還會用到很多其它特征,比如:網(wǎng)站特征、html特征和url特征等,這些特征會明顯的提高分類的準確率和召回率。
本文來自:http://blog.qq.com/qzone/774789782/1300432753.htm
- 目前還沒評論,等你發(fā)揮!