亚洲综合精品香蕉久久网_亚洲2022国产成人精品无码区_日韩激情无码免费毛片_男人j放进女人p全黄

行業新聞

當(dang)前位置:首頁 > ;新聞中心 > 行業新聞 > 正(zheng)文

文本挖掘到底是什么鬼?

時(shi)間:2017-10-19 17:22:00 閱讀:3732 整理:廣州市場調查公司

文本(ben)挖掘是從文本(ben)數據(ju)中獲得(de)價值(zhi)信(xin)息(xi)的(de)方法,涵蓋多個(ge)學科(ke),也(ye)有(you)多種(zhong)用途。本(ben)文介紹(shao)了(le)文本(ben)挖掘的(de)主要作(zuo)用、基本(ben)操(cao)作(zuo)步驟以及操(cao)作(zuo)工具。

一、什么是文本挖掘

文本(ben)挖掘(jue)指的(de)(de)(de)是(shi)從文本(ben)數據中獲取有(you)價(jia)值的(de)(de)(de)信息和(he)知識(shi),它是(shi)數據挖掘(jue)中的(de)(de)(de)一種方(fang)法。文本(ben)挖掘(jue)中最(zui)重要最(zui)基本(ben)的(de)(de)(de)應用是(shi)實(shi)現文本(ben)的(de)(de)(de)分類和(he)聚類,前者是(shi)有(you)監督(du)的(de)(de)(de)挖掘(jue)算法,后者是(shi)無監督(du)的(de)(de)(de)挖掘(jue)算法。

文(wen)本挖掘是一個多學科混(hun)雜的(de)領域,涵蓋了(le)多種技術,包(bao)括數據(ju)挖掘技術、信息(xi)抽取、信息(xi)檢索(suo),機器學習、自然語言處理(li)(li)、計算語言學、統計數據(ju)分(fen)析、線性幾(ji)何、概率理(li)(li)論甚至還有(you)圖論。

二、文本挖掘有什么用

1、文本(ben)分類

文(wen)本分類是(shi)一種典(dian)型(xing)的機器(qi)學(xue)習方法(fa),一般分為訓練和分類兩個階(jie)段。文(wen)本分類一般采用統計方法(fa)或(huo)機器(qi)學(xue)習來實(shi)現。

2、文本聚類

文本聚類是一種典(dian)型(xing)的無監督式機(ji)器(qi)學習(xi)方(fang)法,聚類方(fang)法的選擇取決于數(shu)據類型(xing)。

首先,文(wen)(wen)(wen)檔(dang)聚類(lei)(lei)可(ke)(ke)以發(fa)現與某文(wen)(wen)(wen)檔(dang)相(xiang)(xiang)似的一批文(wen)(wen)(wen)檔(dang),幫(bang)助(zhu)知識(shi)工作者發(fa)現相(xiang)(xiang)關知識(shi);其(qi)次,文(wen)(wen)(wen)檔(dang)聚類(lei)(lei)可(ke)(ke)以將一類(lei)(lei)文(wen)(wen)(wen)檔(dang)聚類(lei)(lei)成若干個類(lei)(lei),提供一種組(zu)織文(wen)(wen)(wen)檔(dang)集合的方法;再次,文(wen)(wen)(wen)檔(dang)聚類(lei)(lei)還可(ke)(ke)以生成分類(lei)(lei)器(qi)以對文(wen)(wen)(wen)檔(dang)進行分類(lei)(lei)。

文本挖掘中的聚(ju)類可(ke)用于(yu):提供大規模文檔內容(rong)總括;識(shi)別隱(yin)藏(zang)的文檔間的相(xiang)似度;減(jian)輕(qing)瀏覽(lan)相(xiang)關、相(xiang)似信息的過程。

3、信息檢索

主要是利用(yong)計算機(ji)系統的快速計算能力,從海量文檔(dang)中(zhong)尋找用(yong)戶需要的相(xiang)關(guan)文檔(dang)。

4、信息抽取

信息(xi)抽取(qu)(qu)是把文本里包含的(de)(de)信息(xi)進(jin)行結構化(hua)處理,變(bian)成表(biao)格(ge)(ge)一(yi)樣的(de)(de)組織形(xing)式(shi)。輸入信息(xi)抽取(qu)(qu)系統的(de)(de)是原始(shi)文本,輸出的(de)(de)是固定格(ge)(ge)式(shi)的(de)(de)信息(xi)。

5、自(zi)動(dong)文摘

利用(yong)計算機自動(dong)的(de)(de)從原始(shi)文(wen)(wen)檔中提取出文(wen)(wen)檔的(de)(de)主要(yao)內容。互聯網上的(de)(de)文(wen)(wen)本信(xin)息(xi)、機構內部的(de)(de)文(wen)(wen)檔及數據庫的(de)(de)內容都在(zai)(zai)成指數級的(de)(de)速度增長,用(yong)戶在(zai)(zai)檢索信(xin)息(xi)的(de)(de)時候,可(ke)以得到(dao)成千上萬篇的(de)(de)返回結果(guo),其中許多是與其信(xin)息(xi)需(xu)求無(wu)關或(huo)關系(xi)不大的(de)(de),如果(guo)要(yao)剔(ti)除這些文(wen)(wen)檔,則(ze)必須閱(yue)讀完全文(wen)(wen),這要(yao)求用(yong)戶付出很多勞動(dong),而且效果(guo)不好。

自(zi)動(dong)文(wen)(wen)(wen)摘能夠生(sheng)成簡短的(de)關于文(wen)(wen)(wen)檔(dang)內容的(de)指示性信息,將文(wen)(wen)(wen)檔(dang)的(de)主要內容呈現給用戶(hu),以決定是(shi)否要閱(yue)讀(du)文(wen)(wen)(wen)檔(dang)的(de)原(yuan)文(wen)(wen)(wen),這樣能夠節省大量的(de)瀏覽時間。簡單地(di)(di)(di)說自(zi)動(dong)文(wen)(wen)(wen)摘就是(shi)利用計算機自(zi)動(dong)地(di)(di)(di)從原(yuan)始(shi)文(wen)(wen)(wen)檔(dang)中(zhong)提取全面準確地(di)(di)(di)反映該文(wen)(wen)(wen)檔(dang)中(zhong)心內容的(de)簡單連貫的(de)短文(wen)(wen)(wen)。

自動(dong)文摘具有以下特點(dian):

(1)自動文(wen)摘應(ying)能將原文(wen)的主(zhu)題思想或中心內容自動提取出來(lai)。

(2)文摘(zhai)應具有概況(kuang)性、客觀性、可理解性和可讀性。

(3)可適用于任意領域。

按照生成(cheng)文(wen)(wen)摘的(de)(de)(de)句子(zi)(zi)來(lai)(lai)源,自動文(wen)(wen)摘方法可以分成(cheng)兩(liang)類,一(yi)(yi)類是完(wan)全(quan)使(shi)用原文(wen)(wen)中的(de)(de)(de)句子(zi)(zi)來(lai)(lai)生成(cheng)文(wen)(wen)摘,另一(yi)(yi)類是可以自動生成(cheng)句子(zi)(zi)來(lai)(lai)表達(da)文(wen)(wen)檔的(de)(de)(de)內容。后(hou)者的(de)(de)(de)功能更(geng)強大(da)(da),但在實現的(de)(de)(de)時候,自動生成(cheng)句子(zi)(zi)是一(yi)(yi)個(ge)比較復雜的(de)(de)(de)問題,經常(chang)出現產生的(de)(de)(de)新句子(zi)(zi)不能被理(li)解的(de)(de)(de)情況,因此(ci)目前大(da)(da)多用的(de)(de)(de)是抽取生成(cheng)法。

6、自動問(wen)答

自(zi)(zi)動問(wen)答(da)是指對(dui)于用戶提出(chu)的(de)問(wen)題,計算機可以自(zi)(zi)動的(de)從相關資料中求(qiu)解答(da)案(an)(an)并作出(chu)相應(ying)的(de)回答(da)。自(zi)(zi)動問(wen)答(da)系統一般包(bao)括 3 個(ge)組成部分:問(wen)題分析、信息檢索和答(da)案(an)(an)抽取。

7、機(ji)器翻譯

利用計算機(ji)將一(yi)種源語言轉變為另一(yi)種源語言的過(guo)程。

8、信息過濾

指計算機系統可以自動的(de)進(jin)行過(guo)濾(lv)操作,將滿足(zu)條件的(de)信息(xi)保留,將不滿足(zu)條件的(de)文(wen)檔過(guo)濾(lv)掉(diao)。信息(xi)過(guo)濾(lv)技術主要(yao)用于信息(xi)安全領域。

9、自動(dong)語音(yin)識別(bie)

自(zi)動語音識別就(jiu)是將輸入(ru)計算機的自(zi)然語言(yan)轉換成文本表示的書面(mian)語。

三、文本(ben)挖掘操作步驟(zou)

1、獲取文本

現有文本(ben)(ben)數(shu)據導入,或者(zhe)通過如網(wang)絡爬蟲(chong)等技術獲取(qu)網(wang)絡文本(ben)(ben),主要是獲取(qu)網(wang)頁HTML的(de)形(xing)式。我們(men)要把網(wang)絡中的(de)文本(ben)(ben)獲取(qu)文本(ben)(ben)數(shu)據庫(數(shu)據集)。編寫爬蟲(chong)程序,抓取(qu)到(dao)網(wang)絡中的(de)信(xin)息。

2、文(wen)本預處理

指剔除噪聲文檔(dang)以改(gai)進挖掘精度,或(huo)者在文檔(dang)數量過多(duo)時(shi)僅(jin)選(xuan)取(qu)一部分(fen)樣本以提高挖掘效率。

例如網頁(ye)中存在很多不(bu)必要的信息,比如說一些廣告,導航欄,html、js代碼,注(zhu)釋等(deng)等(deng)并(bing)不(bu)需要的信息,可(ke)以刪除掉。如果是需要正(zheng)文提取,可(ke)以利(li)用(yong)標簽(qian)(qian)用(yong)途、標簽(qian)(qian)密度判定、數據挖掘思想、視覺網頁(ye)塊分(fen)析技術等(deng)等(deng)策(ce)略抽取出(chu)正(zheng)文。

3、文本的語言學處(chu)理(li)

(1)分詞

經過上面的(de)(de)(de)(de)步驟(zou),我們會(hui)得到(dao)比(bi)較干凈的(de)(de)(de)(de)素材。文(wen)本中起(qi)到(dao)關(guan)鍵作用(yong)的(de)(de)(de)(de)是一些詞,甚至(zhi)主要詞就(jiu)能起(qi)到(dao)決定文(wen)本取向。比(bi)如說一篇文(wen)章(zhang)(zhang)講的(de)(de)(de)(de)是政治(zhi)還是經濟,肯定是對(dui)文(wen)章(zhang)(zhang)中的(de)(de)(de)(de)中心詞進行分(fen)析得到(dao)的(de)(de)(de)(de)結果。 所以(yi)接下(xia)來的(de)(de)(de)(de)步驟(zou)就(jiu)是分(fen)詞。

分(fen)詞(ci)(ci)就是(shi)(shi)將連續的(de)字(zi)序列按照一(yi)定的(de)規范重新(xin)組合成詞(ci)(ci)序列的(de)過程。我們知道,在英文的(de)行文中(zhong)(zhong),單(dan)詞(ci)(ci)之間是(shi)(shi)以空格(ge)作為自然分(fen)界符(fu)的(de),而中(zhong)(zhong)文只是(shi)(shi)字(zi)、句和段能通過明(ming)顯的(de)分(fen)界符(fu)來(lai)簡單(dan)劃界,唯(wei)獨詞(ci)(ci)沒有一(yi)個(ge)形式上的(de)分(fen)界符(fu),雖然英文也同樣存在短(duan)語的(de)劃分(fen)問題,不過在詞(ci)(ci)這一(yi)層(ceng)上,中(zhong)(zhong)文比之英文要復(fu)雜得多(duo)、困難得多(duo)。

現在針(zhen)對中(zhong)文分詞,出現了很多分詞的算法,有最大(da)匹配(pei)法、最優匹配(pei)法、機械匹配(pei)法、逆向(xiang)匹配(pei)法、雙向(xiang)匹配(pei)法等等。

(2)詞性標注

同時(shi)也可以(yi)使(shi)用詞(ci)(ci)性標注。通過很多分(fen)詞(ci)(ci)工具分(fen)出來的出會出現一個詞(ci)(ci),外加該(gai)詞(ci)(ci)的詞(ci)(ci)性。比(bi)如說(shuo)啊是語氣助詞(ci)(ci)。

(3)去除停(ting)用詞

比(bi)(bi)如說句號、是(shi)、的等詞(ci)(ci),沒有(you)什么實際的意(yi)義。然(ran)(ran)而這些詞(ci)(ci)在所有(you)的文(wen)章中都大量存在,并(bing)不能(neng)反應(ying)出(chu)文(wen)本的意(yi)思,可以處理掉。當(dang)然(ran)(ran)針對不同的應(ying)用還有(you)很多其他(ta)詞(ci)(ci)性也是(shi)可以去(qu)掉的,比(bi)(bi)如形容詞(ci)(ci)等。

4、文本的數學處理-特征提(ti)取

我們希望獲取(qu)到的詞(ci)匯,既(ji)能保留(liu)文本的信息,同(tong)時又能反(fan)映它們的相對重(zhong)要(yao)性。如果對所有詞(ci)語都保留(liu),維度會特別(bie)高,矩陣將(jiang)會變得特別(bie)稀疏,嚴重(zhong)影(ying)響到挖掘結果。所以這就需要(yao)特征提(ti)取(qu)。

特征(zheng)選取的方(fang)式有4種:

(1)用映射或變換(huan)的方法把(ba)原始特征(zheng)變換(huan)為較少(shao)的新特征(zheng);

(2)從原(yuan)始(shi)特(te)征(zheng)(zheng)中挑選出一些最具代表性的特(te)征(zheng)(zheng);

(3)根據專家的知(zhi)識挑選最有影響的特征;

(4)用數學的方法(fa)進行選(xuan)取(qu),找出最具分類信息(xi)的特征,這種方法(fa)是一(yi)種比較精(jing)確的方法(fa),人(ren)為(wei)因素的干(gan)擾較少,尤其適(shi)合于(yu)文(wen)本自動(dong)分類挖掘系統的應用。

5、分(fen)類(lei)聚類(lei)

經過上面的步驟之后,我(wo)們就可以(yi)把文本集轉化成一(yi)個矩(ju)陣。我(wo)們能夠利用各種算法(fa)(fa)進(jin)行(xing)(xing)挖掘,比如(ru)(ru)說如(ru)(ru)果要對文本集進(jin)行(xing)(xing)分(fen)(fen)類(lei),分(fen)(fen)類(lei)常用的方法(fa)(fa)有:簡單(dan)貝葉(xie)斯(si)分(fen)(fen)類(lei)法(fa)(fa),矩(ju)陣變(bian)換法(fa)(fa)、K-最近鄰(lin)參照分(fen)(fen)類(lei)算法(fa)(fa)以(yi)及(ji)支持向(xiang)量機分(fen)(fen)類(lei)方法(fa)(fa)等。

聚(ju)(ju)類(lei)方法(fa)(fa)通(tong)常有:層次聚(ju)(ju)類(lei)法(fa)(fa)、平面(mian)劃分(fen)法(fa)(fa)、簡單貝(bei)葉斯聚(ju)(ju)類(lei)法(fa)(fa)、K-最近(jin)鄰聚(ju)(ju)類(lei)法(fa)(fa)、分(fen)級(ji)聚(ju)(ju)類(lei)法(fa)(fa)等。

6、數(shu)據可視(shi)化

最后一(yi)步當然(ran)就是數據(ju)結構(gou)的可(ke)(ke)視化(hua)展示,通(tong)過合適的可(ke)(ke)視化(hua)圖形(xing)生(sheng)動形(xing)象展示,讓讀者(zhe)聽眾更(geng)容易(yi)理解你所(suo)要表達的信息。

文本可視化(hua)最(zui)常用的圖(tu)形就(jiu)是詞云(yun)。

四、文(wen)本挖(wa)掘工具(ju)

1、python語言jieba、gensim、sklearn、WordCloud和(he)matplotlib包

2、R語言jieba、tm、tmcn、Rwordseg和wordcloud包

3、SAS text miner

4、SPSS Text Mining

公眾號:華夏經緯數據科技

關注公眾號:
華夏經緯數據科技
更多調研資訊>>

免責聲明:
本站文章內容以及所涉數據、圖片等資料來源于網絡,轉載目的在于傳遞更多信息。版權歸作者所有,文章僅代表作者觀點,不代表華夏經緯立場。 如涉及侵權,請聯系管理員刪除。在法律許可的范圍內,華夏經緯(廣州)數據科技股份有限公司享有最終解釋權。

QQ在線咨詢
給我們留言

咨詢電話

020-84668848

華夏經緯訂閱號

關注訂閱號

華夏經緯視頻號

關注視頻號

電話回撥