全球?qū)@麛?shù)據(jù)要怎么玩才有趣?之 突發(fā)熱詞(四)

0 評論 416 瀏覽 2 收藏 5 分鐘

掌握突發(fā)熱詞的計算方法,可以幫我們從全球?qū)@胁蹲狡髽I(yè)最新研究熱點(diǎn)、了解某位專家近期研究熱點(diǎn)以及掌握特定區(qū)域近期研究熱點(diǎn)

一、說職場故事

在實(shí)際產(chǎn)業(yè)研究中,有這樣的研究需求:

  • 捕捉企業(yè)的最新研究熱點(diǎn)
  • 了解某位專家的近期研究熱點(diǎn)
  • 掌握特定區(qū)域近期研究熱點(diǎn)

本文將探討如何利用全球?qū)@麛?shù)據(jù)挖掘技術(shù),揭示近期的研究熱點(diǎn)。

二、熱詞的計算方法

在深入挖掘之前,我們首先需要了解熱詞的計算方法。熱詞指的是在特定時間內(nèi),出現(xiàn)頻率低但增長迅速且具有持久性的詞匯。

計算熱詞的方法主要包括:

  • 貝葉斯平均法
  • 牛頓冷卻定律

1、貝葉斯評價法

全球?qū)@麛?shù)據(jù)要怎么玩才有趣?之 突發(fā)熱詞(四)

v: 某一個詞出現(xiàn)的總頻詞

m : 所有的詞出現(xiàn)的頻次總和/詞的數(shù)量

R:某個詞當(dāng)前出現(xiàn)的次數(shù)/該詞出現(xiàn)的所有次數(shù)

C:∑ R /詞的數(shù)量,即所有詞的平均基礎(chǔ)得分

WR越大,說明熱度越大

如下計算方式:

全球?qū)@麛?shù)據(jù)要怎么玩才有趣?之 突發(fā)熱詞(四)

2、牛頓冷卻定律

全球?qū)@麛?shù)據(jù)要怎么玩才有趣?之 突發(fā)熱詞(四)

為了防止除數(shù)為0,可以將公式改為:

全球?qū)@麛?shù)據(jù)要怎么玩才有趣?之 突發(fā)熱詞(四)

冷卻系數(shù)越大說明熱度越大。

三、說應(yīng)用場景

根據(jù)不同的研究需求,我們可以選擇相應(yīng)的專利數(shù)據(jù)集,并通過分詞技術(shù)(如jieba分詞、LAC分析或大型語言模型)進(jìn)行處理。然后,根據(jù)貝葉斯平均法或牛頓冷卻定律計算候選詞的熱度,并按降序排列篩選出熱詞。

全球?qū)@麛?shù)據(jù)要怎么玩才有趣?之 突發(fā)熱詞(四)

在實(shí)際中有以下應(yīng)用場景:

  • 捕捉企業(yè)的最新研究熱點(diǎn):獲取企業(yè)專利數(shù)據(jù)集,計算最近時間內(nèi)企業(yè)出現(xiàn)的熱詞及熱度。
  • 了解某位專家的近期研究熱點(diǎn):根據(jù)專利發(fā)明人和專利申請人獲取某個專家在最近時間內(nèi)出現(xiàn)額熱詞及熱度。
  • 掌握特定技術(shù)的近期研究熱點(diǎn)根據(jù)IPC獲取專利數(shù)據(jù)集,計算某個技術(shù)最近時間內(nèi)出現(xiàn)的熱詞及熱度。
  • 揭示特定區(qū)域的近期研究熱點(diǎn):獲取區(qū)域內(nèi)專利數(shù)據(jù)集,計算區(qū)域最近時間內(nèi)出現(xiàn)的熱詞和熱度。

四、寫在后面的話

本文介紹了利用貝葉斯平均法和牛頓冷卻定律計算熱詞的方法,在實(shí)際應(yīng)用過程中注意使用的靈活性:

  • 計算方式的靈活性:在實(shí)際計算熱詞可以將貝葉斯平均法、牛頓冷卻定律結(jié)合使用,綜合熱度= a * WR + b *a(W),其中a,b可以根據(jù)實(shí)際效果不斷調(diào)參。
  • 使用對象的靈活性:熱詞挖掘方法不僅限于全球?qū)@麛?shù)據(jù),也適用于其他時間序列的文本文件,如論文、期刊和項(xiàng)目數(shù)據(jù)。

本文由 @王海濤 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!