文本挖掘到底是什么鬼？-华夏经纬

文本挖掘到底是什么鬼？

時間：2017-10-19 17:22:00 閱讀：3732 整理：廣州市場調查公司

文(wen)本(ben)(ben)挖掘是從文(wen)本(ben)(ben)數據中(zhong)獲得價值信(xin)息的方(fang)法(fa)，涵(han)蓋(gai)多(duo)個學科，也(ye)有(you)多(duo)種用途。本(ben)(ben)文(wen)介紹了(le)文(wen)本(ben)(ben)挖掘的主要作(zuo)用、基本(ben)(ben)操作(zuo)步驟以(yi)及操作(zuo)工(gong)具。

一、什么是文本挖掘

文本挖掘(jue)指(zhi)的(de)是從文本數據(ju)中獲取有(you)價值的(de)信息(xi)和知識，它是數據(ju)挖掘(jue)中的(de)一(yi)種方法。文本挖掘(jue)中最重(zhong)要最基本的(de)應(ying)用是實現文本的(de)分類和聚類，前者(zhe)(zhe)是有(you)監(jian)督(du)的(de)挖掘(jue)算(suan)法，后者(zhe)(zhe)是無監(jian)督(du)的(de)挖掘(jue)算(suan)法。

文本挖掘是一個多學(xue)科混雜的領域，涵(han)蓋了多種技術，包括數(shu)據(ju)挖掘技術、信息抽取、信息檢(jian)索，機器學(xue)習、自然語言處理、計算語言學(xue)、統計數(shu)據(ju)分析、線性幾何、概率理論甚至(zhi)還有圖論。

二(er)、文本挖掘有什么用

1、文本分類(lei)

文(wen)本分(fen)類(lei)是一(yi)種典型(xing)的機(ji)(ji)器學習(xi)方法，一(yi)般分(fen)為(wei)訓練和(he)分(fen)類(lei)兩個階(jie)段。文(wen)本分(fen)類(lei)一(yi)般采用統計方法或機(ji)(ji)器學習(xi)來實(shi)現。

2、文(wen)本聚類

文本聚類(lei)是一(yi)種典型的(de)(de)無(wu)監(jian)督式機器學習方法，聚類(lei)方法的(de)(de)選(xuan)擇取決于數據類(lei)型。

首先，文檔(dang)(dang)(dang)(dang)(dang)(dang)聚類(lei)(lei)可(ke)以(yi)發(fa)現(xian)與某文檔(dang)(dang)(dang)(dang)(dang)(dang)相似的一(yi)批(pi)文檔(dang)(dang)(dang)(dang)(dang)(dang)，幫助知識(shi)工作(zuo)者發(fa)現(xian)相關知識(shi);其次，文檔(dang)(dang)(dang)(dang)(dang)(dang)聚類(lei)(lei)可(ke)以(yi)將(jiang)一(yi)類(lei)(lei)文檔(dang)(dang)(dang)(dang)(dang)(dang)聚類(lei)(lei)成(cheng)若干個類(lei)(lei)，提供一(yi)種組織文檔(dang)(dang)(dang)(dang)(dang)(dang)集合的方法;再次，文檔(dang)(dang)(dang)(dang)(dang)(dang)聚類(lei)(lei)還可(ke)以(yi)生成(cheng)分類(lei)(lei)器以(yi)對文檔(dang)(dang)(dang)(dang)(dang)(dang)進行分類(lei)(lei)。

文(wen)本挖掘中的聚(ju)類可用于：提供(gong)大規(gui)模(mo)文(wen)檔內(nei)容(rong)總括;識(shi)別隱藏(zang)的文(wen)檔間的相(xiang)似度;減輕瀏覽(lan)相(xiang)關、相(xiang)似信息的過(guo)程。

3、信息(xi)檢索

主要是(shi)利用計(ji)(ji)算機系統(tong)的快速計(ji)(ji)算能力，從海量文(wen)檔中尋找用戶需要的相關文(wen)檔。

4、信息抽取

信息(xi)抽取是把文本(ben)(ben)里(li)包含的信息(xi)進行結構(gou)化處理，變(bian)成表(biao)格一樣的組織(zhi)形式(shi)。輸(shu)(shu)入信息(xi)抽取系統的是原始文本(ben)(ben)，輸(shu)(shu)出的是固定格式(shi)的信息(xi)。

5、自動文摘

利用計算機自動的(de)(de)從原始文(wen)(wen)檔中提取出(chu)文(wen)(wen)檔的(de)(de)主要(yao)內(nei)(nei)容(rong)。互聯網上的(de)(de)文(wen)(wen)本信(xin)(xin)(xin)息、機構(gou)內(nei)(nei)部的(de)(de)文(wen)(wen)檔及數據(ju)庫(ku)的(de)(de)內(nei)(nei)容(rong)都在成指數級的(de)(de)速度(du)增長，用戶(hu)在檢(jian)索信(xin)(xin)(xin)息的(de)(de)時候(hou)，可以得(de)到成千上萬篇的(de)(de)返(fan)回結果，其中許多是(shi)與其信(xin)(xin)(xin)息需求無(wu)關(guan)(guan)或關(guan)(guan)系(xi)不(bu)大(da)的(de)(de)，如果要(yao)剔除這些(xie)文(wen)(wen)檔，則必須閱讀完全文(wen)(wen)，這要(yao)求用戶(hu)付出(chu)很多勞動，而且效果不(bu)好。

自動(dong)文(wen)(wen)(wen)摘能夠生(sheng)成簡(jian)短的(de)關于文(wen)(wen)(wen)檔(dang)(dang)內容的(de)指示性信息，將文(wen)(wen)(wen)檔(dang)(dang)的(de)主要(yao)內容呈現給(gei)用戶，以決定是否要(yao)閱讀文(wen)(wen)(wen)檔(dang)(dang)的(de)原文(wen)(wen)(wen)，這樣能夠節省(sheng)大(da)量的(de)瀏(liu)覽時(shi)間。簡(jian)單地說(shuo)自動(dong)文(wen)(wen)(wen)摘就是利(li)用計(ji)算機自動(dong)地從原始(shi)文(wen)(wen)(wen)檔(dang)(dang)中提取全(quan)面準確地反映該文(wen)(wen)(wen)檔(dang)(dang)中心內容的(de)簡(jian)單連(lian)貫的(de)短文(wen)(wen)(wen)。

自動文摘具有以下特點：

(1)自動文(wen)摘應(ying)能將(jiang)原文(wen)的主(zhu)題思想或中心內(nei)容自動提取(qu)出來。

(2)文摘應(ying)具有概(gai)況性(xing)、客觀(guan)性(xing)、可(ke)理解性(xing)和可(ke)讀性(xing)。

(3)可適用(yong)于任(ren)意領域。

按(an)照生(sheng)成(cheng)(cheng)(cheng)文摘(zhai)(zhai)的(de)句(ju)(ju)子(zi)來(lai)源，自動(dong)文摘(zhai)(zhai)方法可(ke)(ke)以分(fen)成(cheng)(cheng)(cheng)兩類(lei)，一類(lei)是(shi)(shi)完全使用(yong)原(yuan)文中的(de)句(ju)(ju)子(zi)來(lai)生(sheng)成(cheng)(cheng)(cheng)文摘(zhai)(zhai)，另一類(lei)是(shi)(shi)可(ke)(ke)以自動(dong)生(sheng)成(cheng)(cheng)(cheng)句(ju)(ju)子(zi)來(lai)表達文檔的(de)內容。后者的(de)功能更強大，但在(zai)實現的(de)時候(hou)，自動(dong)生(sheng)成(cheng)(cheng)(cheng)句(ju)(ju)子(zi)是(shi)(shi)一個(ge)比較復雜的(de)問題，經(jing)常出(chu)現產生(sheng)的(de)新句(ju)(ju)子(zi)不能被理(li)解(jie)的(de)情(qing)況，因此(ci)目前大多用(yong)的(de)是(shi)(shi)抽取生(sheng)成(cheng)(cheng)(cheng)法。

6、自動問答

自動(dong)問(wen)答是指對于用戶(hu)提出(chu)的問(wen)題，計(ji)算機可以自動(dong)的從相(xiang)關資料中求解(jie)答案并作(zuo)出(chu)相(xiang)應的回答。自動(dong)問(wen)答系統(tong)一般包括 3 個組(zu)成部(bu)分：問(wen)題分析、信息(xi)檢索和(he)答案抽(chou)取。

7、機(ji)器翻(fan)譯(yi)

利用(yong)計算機將一種(zhong)(zhong)源語(yu)(yu)言(yan)轉(zhuan)變為另一種(zhong)(zhong)源語(yu)(yu)言(yan)的過(guo)程。

8、信息過濾

指(zhi)計(ji)算機系統(tong)可(ke)以自動的進行過(guo)濾操作，將滿足(zu)條(tiao)件(jian)的信(xin)息保留(liu)，將不滿足(zu)條(tiao)件(jian)的文檔(dang)過(guo)濾掉。信(xin)息過(guo)濾技術主要用于信(xin)息安全領域。

9、自動語音識別(bie)

自動語音識(shi)別就(jiu)是將輸入計算機的自然語言(yan)轉換成文(wen)本表示的書面(mian)語。

三、文本挖掘(jue)操作(zuo)步驟

1、獲取文本

現有文(wen)本(ben)數(shu)據(ju)導入(ru)，或者通過如(ru)網(wang)(wang)絡(luo)爬蟲(chong)等技術獲(huo)取(qu)網(wang)(wang)絡(luo)文(wen)本(ben)，主要是(shi)獲(huo)取(qu)網(wang)(wang)頁(ye)HTML的形式。我們(men)要把網(wang)(wang)絡(luo)中的文(wen)本(ben)獲(huo)取(qu)文(wen)本(ben)數(shu)據(ju)庫(數(shu)據(ju)集)。編寫爬蟲(chong)程序，抓取(qu)到網(wang)(wang)絡(luo)中的信息。

2、文本預處理

指(zhi)剔(ti)除噪聲文檔(dang)以(yi)改進挖掘精(jing)度，或者在文檔(dang)數量過多(duo)時僅選取一部分樣本以(yi)提高挖掘效率。

例如網頁(ye)中存在很多不必(bi)要的(de)信息，比如說(shuo)一(yi)些廣告，導航欄，html、js代碼，注釋等(deng)(deng)等(deng)(deng)并不需要的(de)信息，可以刪除掉(diao)。如果是(shi)需要正文提取，可以利用標(biao)簽用途、標(biao)簽密度判定、數據挖掘思想(xiang)、視覺網頁(ye)塊分析(xi)技術等(deng)(deng)等(deng)(deng)策略抽取出正文。

3、文本(ben)的語言(yan)學處(chu)理

(1)分詞

經過上面(mian)的(de)步驟，我們會得(de)到比較干凈(jing)的(de)素材。文(wen)(wen)本中起到關鍵作用的(de)是(shi)一(yi)些詞，甚至主要詞就能起到決(jue)定(ding)文(wen)(wen)本取向。比如(ru)說一(yi)篇(pian)文(wen)(wen)章講(jiang)的(de)是(shi)政治還是(shi)經濟，肯定(ding)是(shi)對文(wen)(wen)章中的(de)中心詞進行分析得(de)到的(de)結果。所(suo)以(yi)接下來的(de)步驟就是(shi)分詞。

分(fen)(fen)詞就是將連(lian)續的(de)(de)字序列按照(zhao)一(yi)(yi)定的(de)(de)規范(fan)重新組合成詞序列的(de)(de)過程。我們知道，在(zai)英文的(de)(de)行文中，單詞之間是以空格作為(wei)自然(ran)分(fen)(fen)界(jie)(jie)符(fu)的(de)(de)，而中文只是字、句和(he)段(duan)能通過明顯(xian)的(de)(de)分(fen)(fen)界(jie)(jie)符(fu)來簡單劃界(jie)(jie)，唯獨詞沒有一(yi)(yi)個形式上(shang)的(de)(de)分(fen)(fen)界(jie)(jie)符(fu)，雖然(ran)英文也同樣(yang)存在(zai)短語(yu)的(de)(de)劃分(fen)(fen)問題，不(bu)過在(zai)詞這一(yi)(yi)層(ceng)上(shang)，中文比之英文要復(fu)雜(za)得多、困(kun)難得多。

現(xian)在針對中(zhong)文分詞(ci)，出現(xian)了(le)很多分詞(ci)的算法(fa)，有最(zui)大匹(pi)(pi)配(pei)(pei)(pei)法(fa)、最(zui)優匹(pi)(pi)配(pei)(pei)(pei)法(fa)、機械匹(pi)(pi)配(pei)(pei)(pei)法(fa)、逆向匹(pi)(pi)配(pei)(pei)(pei)法(fa)、雙向匹(pi)(pi)配(pei)(pei)(pei)法(fa)等等。

(2)詞性標注

同時(shi)也可以使用詞性標注。通過(guo)很多分詞工具分出(chu)來的(de)出(chu)會出(chu)現一個(ge)詞，外加該詞的(de)詞性。比如說(shuo)啊(a)是語氣助詞。

(3)去(qu)除停用(yong)詞

比如說(shuo)句號、是(shi)、的(de)等詞(ci)，沒(mei)有(you)什么(me)實際(ji)的(de)意義。然而這些詞(ci)在所有(you)的(de)文(wen)章中都大量存在，并不能反(fan)應(ying)出(chu)文(wen)本的(de)意思(si)，可以處(chu)理掉。當然針對不同的(de)應(ying)用還有(you)很多其他詞(ci)性(xing)也(ye)是(shi)可以去掉的(de)，比如形(xing)容詞(ci)等。

4、文本的(de)數學處理-特(te)征(zheng)提取

我們希望獲取到的(de)詞匯，既能保(bao)(bao)留(liu)文本的(de)信息(xi)，同時又能反(fan)映它們的(de)相(xiang)對(dui)重(zhong)要(yao)性。如果(guo)對(dui)所(suo)有(you)詞語都保(bao)(bao)留(liu)，維度(du)會特(te)(te)別高(gao)，矩陣(zhen)將會變(bian)得(de)特(te)(te)別稀疏(shu)，嚴重(zhong)影響到挖掘(jue)結(jie)果(guo)。所(suo)以這就(jiu)需要(yao)特(te)(te)征提取。

特(te)征選取(qu)的方式(shi)有4種(zhong)：

(1)用映射或變換的方法把原始特(te)征變換為較(jiao)少(shao)的新特(te)征;

(2)從原始特(te)征(zheng)中挑(tiao)選(xuan)出一(yi)些(xie)最具代表性的(de)特(te)征(zheng);

(3)根(gen)據專家的(de)知識挑選最(zui)有影響的(de)特征;

(4)用數(shu)學的(de)(de)方法(fa)進行(xing)選取，找出最具(ju)分類(lei)信息的(de)(de)特征(zheng)，這種(zhong)方法(fa)是一(yi)種(zhong)比較精確的(de)(de)方法(fa)，人為因素的(de)(de)干擾較少，尤其適合于文本自動分類(lei)挖掘系統的(de)(de)應用。

5、分類聚類

經過上(shang)面的步(bu)驟(zou)之后，我們(men)就可以(yi)把文本集轉化成一個矩(ju)陣。我們(men)能夠利用(yong)各種(zhong)算法(fa)(fa)進行(xing)挖掘(jue)，比如說如果(guo)要(yao)對文本集進行(xing)分(fen)類(lei)，分(fen)類(lei)常用(yong)的方(fang)法(fa)(fa)有：簡單貝葉斯(si)分(fen)類(lei)法(fa)(fa)，矩(ju)陣變換法(fa)(fa)、K-最(zui)近鄰參照分(fen)類(lei)算法(fa)(fa)以(yi)及支持(chi)向量機分(fen)類(lei)方(fang)法(fa)(fa)等。

聚(ju)類(lei)方法(fa)通(tong)常有：層次(ci)聚(ju)類(lei)法(fa)、平面劃分法(fa)、簡單(dan)貝葉斯聚(ju)類(lei)法(fa)、K-最(zui)近鄰聚(ju)類(lei)法(fa)、分級聚(ju)類(lei)法(fa)等。

6、數據可視化(hua)

最(zui)后(hou)一步當然就是(shi)數據結構的(de)可視化(hua)展示，通過合適的(de)可視化(hua)圖形(xing)生動形(xing)象展示，讓(rang)讀(du)者聽眾更容易理解你所要表(biao)達的(de)信息。

文(wen)本可視化最常(chang)用的圖(tu)形就(jiu)是詞云。

四、文本挖掘工(gong)具

1、python語言jieba、gensim、sklearn、WordCloud和(he)matplotlib包

2、R語(yu)言jieba、tm、tmcn、Rwordseg和wordcloud包

3、SAS text miner

4、SPSS Text Mining

關注公眾號：
華夏經緯數據科技
更多調研資訊>>

免責聲明：
本站文章內容以及所涉數據、圖片等資料來源于網絡，轉載目的在于傳遞更多信息。版權歸作者所有，文章僅代表作者觀點，不代表華夏經緯立場。如涉及侵權，請聯系管理員刪除。在法律許可的范圍內，華夏經緯（廣州）數據科技股份有限公司享有最終解釋權。

中文日韩亚洲欧美制服_亚洲精品国产精品国自产网站_四虎影院最新网址_欧美性大战久久久久xxx

行業新聞

文本挖掘到底是什么鬼？

推薦文章

精彩資訊