文本挖掘到底是什么鬼?
時間:2017-10-19 17:22:00 閱讀:3732 整理:廣州市場調查公司
文(wen)本(ben)(ben)挖掘是從文(wen)本(ben)(ben)數據中(zhong)獲得價值信(xin)息的方(fang)法(fa),涵(han)蓋(gai)多(duo)個學科,也(ye)有(you)多(duo)種用途。本(ben)(ben)文(wen)介紹了(le)文(wen)本(ben)(ben)挖掘的主要作(zuo)用、基本(ben)(ben)操作(zuo)步驟以(yi)及操作(zuo)工(gong)具。
一、什么是文本挖掘
文本挖掘(jue)指(zhi)的(de)是從文本數據(ju)中獲取有(you)價值的(de)信息(xi)和知識,它是數據(ju)挖掘(jue)中的(de)一(yi)種方法。文本挖掘(jue)中最重(zhong)要最基本的(de)應(ying)用是實現文本的(de)分類和聚類,前者(zhe)(zhe)是有(you)監(jian)督(du)的(de)挖掘(jue)算(suan)法,后者(zhe)(zhe)是無監(jian)督(du)的(de)挖掘(jue)算(suan)法。
文本挖掘是一個多學(xue)科混雜的領域,涵(han)蓋了多種技術,包括數(shu)據(ju)挖掘技術、信息抽取、信息檢(jian)索,機器學(xue)習、自然語言處理、計算語言學(xue)、統計數(shu)據(ju)分析、線性幾何、概率理論甚至(zhi)還有圖論。
二(er)、文本挖掘有什么用
1、文本分類(lei)
文(wen)本分(fen)類(lei)是一(yi)種典型(xing)的機(ji)(ji)器學習(xi)方法,一(yi)般分(fen)為(wei)訓練和(he)分(fen)類(lei)兩個階(jie)段。文(wen)本分(fen)類(lei)一(yi)般采用統計方法或機(ji)(ji)器學習(xi)來實(shi)現。
2、文(wen)本聚類
文本聚類(lei)是一(yi)種典型的(de)(de)無(wu)監(jian)督式機器學習方法,聚類(lei)方法的(de)(de)選(xuan)擇取決于數據類(lei)型。
首先,文檔(dang)(dang)(dang)(dang)(dang)(dang)聚類(lei)(lei)可(ke)以(yi)發(fa)現(xian)與某文檔(dang)(dang)(dang)(dang)(dang)(dang)相似的一(yi)批(pi)文檔(dang)(dang)(dang)(dang)(dang)(dang),幫助知識(shi)工作(zuo)者發(fa)現(xian)相關知識(shi);其次,文檔(dang)(dang)(dang)(dang)(dang)(dang)聚類(lei)(lei)可(ke)以(yi)將(jiang)一(yi)類(lei)(lei)文檔(dang)(dang)(dang)(dang)(dang)(dang)聚類(lei)(lei)成(cheng)若干個類(lei)(lei),提供一(yi)種組織文檔(dang)(dang)(dang)(dang)(dang)(dang)集合的方法;再次,文檔(dang)(dang)(dang)(dang)(dang)(dang)聚類(lei)(lei)還可(ke)以(yi)生成(cheng)分類(lei)(lei)器以(yi)對文檔(dang)(dang)(dang)(dang)(dang)(dang)進行分類(lei)(lei)。
文(wen)本挖掘中的聚(ju)類可用于:提供(gong)大規(gui)模(mo)文(wen)檔內(nei)容(rong)總括;識(shi)別隱藏(zang)的文(wen)檔間的相(xiang)似度;減輕瀏覽(lan)相(xiang)關、相(xiang)似信息的過(guo)程。
3、信息(xi)檢索
主要是(shi)利用計(ji)(ji)算機系統(tong)的快速計(ji)(ji)算能力,從海量文(wen)檔中尋找用戶需要的相關文(wen)檔。
4、信息抽取
信息(xi)抽取是把文本(ben)(ben)里(li)包含的信息(xi)進行結構(gou)化處理,變(bian)成表(biao)格一樣的組織(zhi)形式(shi)。輸(shu)(shu)入信息(xi)抽取系統的是原始文本(ben)(ben),輸(shu)(shu)出的是固定格式(shi)的信息(xi)。
5、自動文摘
利用計算機自動的(de)(de)從原始文(wen)(wen)檔中提取出(chu)文(wen)(wen)檔的(de)(de)主要(yao)內(nei)(nei)容(rong)。互聯網上的(de)(de)文(wen)(wen)本信(xin)(xin)(xin)息、機構(gou)內(nei)(nei)部的(de)(de)文(wen)(wen)檔及數據(ju)庫(ku)的(de)(de)內(nei)(nei)容(rong)都在成指數級的(de)(de)速度(du)增長,用戶(hu)在檢(jian)索信(xin)(xin)(xin)息的(de)(de)時候(hou),可以得(de)到成千上萬篇的(de)(de)返(fan)回結果,其中許多是(shi)與其信(xin)(xin)(xin)息需求無(wu)關(guan)(guan)或關(guan)(guan)系(xi)不(bu)大(da)的(de)(de),如果要(yao)剔除這些(xie)文(wen)(wen)檔,則必須閱讀完全文(wen)(wen),這要(yao)求用戶(hu)付出(chu)很多勞動,而且效果不(bu)好。
自動(dong)文(wen)(wen)(wen)摘能夠生(sheng)成簡(jian)短的(de)關于文(wen)(wen)(wen)檔(dang)(dang)內容的(de)指示性信息,將文(wen)(wen)(wen)檔(dang)(dang)的(de)主要(yao)內容呈現給(gei)用戶,以決定是否要(yao)閱讀文(wen)(wen)(wen)檔(dang)(dang)的(de)原文(wen)(wen)(wen),這樣能夠節省(sheng)大(da)量的(de)瀏(liu)覽時(shi)間。簡(jian)單地說(shuo)自動(dong)文(wen)(wen)(wen)摘就是利(li)用計(ji)算機自動(dong)地從原始(shi)文(wen)(wen)(wen)檔(dang)(dang)中提取全(quan)面準確地反映該文(wen)(wen)(wen)檔(dang)(dang)中心內容的(de)簡(jian)單連(lian)貫的(de)短文(wen)(wen)(wen)。
自動文摘具有以下特點:
(1)自動文(wen)摘應(ying)能將(jiang)原文(wen)的主(zhu)題思想或中心內(nei)容自動提取(qu)出來。
(2)文摘應(ying)具有概(gai)況性(xing)、客觀(guan)性(xing)、可(ke)理解性(xing)和可(ke)讀性(xing)。
(3)可適用(yong)于任(ren)意領域。
按(an)照生(sheng)成(cheng)(cheng)(cheng)文摘(zhai)(zhai)的(de)句(ju)(ju)子(zi)來(lai)源,自動(dong)文摘(zhai)(zhai)方法可(ke)(ke)以分(fen)成(cheng)(cheng)(cheng)兩類(lei),一類(lei)是(shi)(shi)完全使用(yong)原(yuan)文中的(de)句(ju)(ju)子(zi)來(lai)生(sheng)成(cheng)(cheng)(cheng)文摘(zhai)(zhai),另一類(lei)是(shi)(shi)可(ke)(ke)以自動(dong)生(sheng)成(cheng)(cheng)(cheng)句(ju)(ju)子(zi)來(lai)表達文檔的(de)內容。后者的(de)功能更強大,但在(zai)實現的(de)時候(hou),自動(dong)生(sheng)成(cheng)(cheng)(cheng)句(ju)(ju)子(zi)是(shi)(shi)一個(ge)比較復雜的(de)問題,經(jing)常出(chu)現產生(sheng)的(de)新句(ju)(ju)子(zi)不能被理(li)解(jie)的(de)情(qing)況,因此(ci)目前大多用(yong)的(de)是(shi)(shi)抽取生(sheng)成(cheng)(cheng)(cheng)法。
6、自動問答
自動(dong)問(wen)答是指對于用戶(hu)提出(chu)的問(wen)題,計(ji)算機可以自動(dong)的從相(xiang)關資料中求解(jie)答案并作(zuo)出(chu)相(xiang)應的回答。自動(dong)問(wen)答系統(tong)一般包括 3 個組(zu)成部(bu)分:問(wen)題分析、信息(xi)檢索和(he)答案抽(chou)取。
7、機(ji)器翻(fan)譯(yi)
利用(yong)計算機將一種(zhong)(zhong)源語(yu)(yu)言(yan)轉(zhuan)變為另一種(zhong)(zhong)源語(yu)(yu)言(yan)的過(guo)程。
8、信息過濾
指(zhi)計(ji)算機系統(tong)可(ke)以自動的進行過(guo)濾操作,將滿足(zu)條(tiao)件(jian)的信(xin)息保留(liu),將不滿足(zu)條(tiao)件(jian)的文檔(dang)過(guo)濾掉。信(xin)息過(guo)濾技術主要用于信(xin)息安全領域。
9、自動語音識別(bie)
自動語音識(shi)別就(jiu)是將輸入計算機的自然語言(yan)轉換成文(wen)本表示的書面(mian)語。
三、文本挖掘(jue)操作(zuo)步驟
1、獲取文本
現有文(wen)本(ben)數(shu)據(ju)導入(ru),或者通過如(ru)網(wang)(wang)絡(luo)爬蟲(chong)等技術獲(huo)取(qu)網(wang)(wang)絡(luo)文(wen)本(ben),主要是(shi)獲(huo)取(qu)網(wang)(wang)頁(ye)HTML的形式。我們(men)要把網(wang)(wang)絡(luo)中的文(wen)本(ben)獲(huo)取(qu)文(wen)本(ben)數(shu)據(ju)庫(數(shu)據(ju)集)。編寫爬蟲(chong)程序,抓取(qu)到網(wang)(wang)絡(luo)中的信息。
2、文本預處理
指(zhi)剔(ti)除噪聲文檔(dang)以(yi)改進挖掘精(jing)度,或者在文檔(dang)數量過多(duo)時僅選取一部分樣本以(yi)提高挖掘效率。
例如網頁(ye)中存在很多不必(bi)要的(de)信息,比如說(shuo)一(yi)些廣告,導航欄,html、js代碼,注釋等(deng)(deng)等(deng)(deng)并不需要的(de)信息,可以刪除掉(diao)。如果是(shi)需要正文提取,可以利用標(biao)簽用途、標(biao)簽密度判定、數據挖掘思想(xiang)、視覺網頁(ye)塊分析(xi)技術等(deng)(deng)等(deng)(deng)策略抽取出正文。
3、文本(ben)的語言(yan)學處(chu)理
(1)分詞
經過上面(mian)的(de)步驟,我們會得(de)到比較干凈(jing)的(de)素材。文(wen)(wen)本中起到關鍵作用的(de)是(shi)一(yi)些詞,甚至主要詞就能起到決(jue)定(ding)文(wen)(wen)本取向。比如(ru)說一(yi)篇(pian)文(wen)(wen)章講(jiang)的(de)是(shi)政治還是(shi)經濟,肯定(ding)是(shi)對文(wen)(wen)章中的(de)中心詞進行分析得(de)到的(de)結果。 所(suo)以(yi)接下來的(de)步驟就是(shi)分詞。
分(fen)(fen)詞就是將連(lian)續的(de)(de)字序列按照(zhao)一(yi)(yi)定的(de)(de)規范(fan)重新組合成詞序列的(de)(de)過程。我們知道,在(zai)英文的(de)(de)行文中,單詞之間是以空格作為(wei)自然(ran)分(fen)(fen)界(jie)(jie)符(fu)的(de)(de),而中文只是字、句和(he)段(duan)能通過明顯(xian)的(de)(de)分(fen)(fen)界(jie)(jie)符(fu)來簡單劃界(jie)(jie),唯獨詞沒有一(yi)(yi)個形式上(shang)的(de)(de)分(fen)(fen)界(jie)(jie)符(fu),雖然(ran)英文也同樣(yang)存在(zai)短語(yu)的(de)(de)劃分(fen)(fen)問題,不(bu)過在(zai)詞這一(yi)(yi)層(ceng)上(shang),中文比之英文要復(fu)雜(za)得多、困(kun)難得多。
現(xian)在針對中(zhong)文分詞(ci),出現(xian)了(le)很多分詞(ci)的算法(fa),有最(zui)大匹(pi)(pi)配(pei)(pei)(pei)法(fa)、最(zui)優匹(pi)(pi)配(pei)(pei)(pei)法(fa)、機械匹(pi)(pi)配(pei)(pei)(pei)法(fa)、逆向匹(pi)(pi)配(pei)(pei)(pei)法(fa)、雙向匹(pi)(pi)配(pei)(pei)(pei)法(fa)等等。
(2)詞性標注
同時(shi)也可以使用詞性標注。通過(guo)很多分詞工具分出(chu)來的(de)出(chu)會出(chu)現一個(ge)詞,外加該詞的(de)詞性。比如說(shuo)啊(a)是語氣助詞。
(3)去(qu)除停用(yong)詞
比如說(shuo)句號、是(shi)、的(de)等詞(ci),沒(mei)有(you)什么(me)實際(ji)的(de)意義。然而這些詞(ci)在所有(you)的(de)文(wen)章中都大量存在,并不能反(fan)應(ying)出(chu)文(wen)本的(de)意思(si),可以處(chu)理掉。當然針對不同的(de)應(ying)用還有(you)很多其他詞(ci)性(xing)也(ye)是(shi)可以去掉的(de),比如形(xing)容詞(ci)等。
4、文本的(de)數學處理-特(te)征(zheng)提取
我們希望獲取到的(de)詞匯,既能保(bao)(bao)留(liu)文本的(de)信息(xi),同時又能反(fan)映它們的(de)相(xiang)對(dui)重(zhong)要(yao)性。如果(guo)對(dui)所(suo)有(you)詞語都保(bao)(bao)留(liu),維度(du)會特(te)(te)別高(gao),矩陣(zhen)將會變(bian)得(de)特(te)(te)別稀疏(shu),嚴重(zhong)影響到挖掘(jue)結(jie)果(guo)。所(suo)以這就(jiu)需要(yao)特(te)(te)征提取。
特(te)征選取(qu)的方式(shi)有4種(zhong):
(1)用映射或變換的方法把原始特(te)征變換為較(jiao)少(shao)的新特(te)征;
(2)從原始特(te)征(zheng)中挑(tiao)選(xuan)出一(yi)些(xie)最具代表性的(de)特(te)征(zheng);
(3)根(gen)據專家的(de)知識挑選最(zui)有影響的(de)特征;
(4)用數(shu)學的(de)(de)方法(fa)進行(xing)選取,找出最具(ju)分類(lei)信息的(de)(de)特征(zheng),這種(zhong)方法(fa)是一(yi)種(zhong)比較精確的(de)(de)方法(fa),人為因素的(de)(de)干擾較少,尤其適合于文本自動分類(lei)挖掘系統的(de)(de)應用。
5、分類聚類
經過上(shang)面的步(bu)驟(zou)之后,我們(men)就可以(yi)把文本集轉化成一個矩(ju)陣。我們(men)能夠利用(yong)各種(zhong)算法(fa)(fa)進行(xing)挖掘(jue),比如說如果(guo)要(yao)對文本集進行(xing)分(fen)類(lei),分(fen)類(lei)常用(yong)的方(fang)法(fa)(fa)有:簡單貝葉斯(si)分(fen)類(lei)法(fa)(fa),矩(ju)陣變換法(fa)(fa)、K-最(zui)近鄰參照分(fen)類(lei)算法(fa)(fa)以(yi)及支持(chi)向量機分(fen)類(lei)方(fang)法(fa)(fa)等。
聚(ju)類(lei)方法(fa)通(tong)常有:層次(ci)聚(ju)類(lei)法(fa)、平面劃分法(fa)、簡單(dan)貝葉斯聚(ju)類(lei)法(fa)、K-最(zui)近鄰聚(ju)類(lei)法(fa)、分級聚(ju)類(lei)法(fa)等。
6、數據可視化(hua)
最(zui)后(hou)一步當然就是(shi)數據結構的(de)可視化(hua)展示,通過合適的(de)可視化(hua)圖形(xing)生動形(xing)象展示,讓(rang)讀(du)者聽眾更容易理解你所要表(biao)達的(de)信息。
文(wen)本可視化最常(chang)用的圖(tu)形就(jiu)是詞云。
四、文本挖掘工(gong)具
1、python語言jieba、gensim、sklearn、WordCloud和(he)matplotlib包
2、R語(yu)言jieba、tm、tmcn、Rwordseg和wordcloud包
3、SAS text miner
4、SPSS Text Mining
關注公眾號:
華夏經緯數據科技
更多調研資訊>>
本站文章內容以及所涉數據、圖片等資料來源于網絡,轉載目的在于傳遞更多信息。版權歸作者所有,文章僅代表作者觀點,不代表華夏經緯立場。 如涉及侵權,請聯系管理員刪除。在法律許可的范圍內,華夏經緯(廣州)數據科技股份有限公司享有最終解釋權。