文本智能處理作為中文信息處理的關(guān)鍵領(lǐng)域,展現(xiàn)出廣闊前景;Python以其強大的生態(tài)和易用性,已成為主流編程工具。然而,初學(xué)者如何系統(tǒng)掌握Python并將其有效應(yīng)用于文本處理仍面臨著挑戰(zhàn),本書旨在為初學(xué)者提供一條清晰實用的學(xué)習(xí)路徑。本書面向初學(xué)者,系統(tǒng)梳理了用Python進(jìn)行中文文本智能處理的完整路徑。前4章夯實語言基礎(chǔ)—數(shù)據(jù)結(jié)構(gòu)、流程控制、正則表達(dá)式與規(guī)范編程范式;第5章及以后深入應(yīng)用—語料庫構(gòu)建、網(wǎng)絡(luò)爬蟲、數(shù)據(jù)可視化,覆蓋分詞、向量化、相似度、分類聚類、情感分析及深度學(xué)習(xí),配套案例代碼,理實結(jié)合,快速上手。
更多科學(xué)出版社服務(wù),請掃碼獲取。
2000.9-2004.6 中南民族大學(xué),漢語言文學(xué)本科
2004.9-2007.6 華中師范大學(xué),攻讀語言學(xué)及應(yīng)用語言學(xué)專業(yè)碩士研究生
2007.9-2010.6 華中師范大學(xué),攻讀語言學(xué)及應(yīng)用語言學(xué)專業(yè)博士研究生
2016.9-2017.6 武漢大學(xué)自然語言處理重點實驗室,訪問學(xué)者2010.7-2017.7 信陽師范學(xué)院
2017.8-至今 四川外國語大學(xué)教授1. 國家社科基金青年項目"面向信息處理的漢語復(fù)句句法語義關(guān)系判定研究",負(fù)責(zé)人,課題編號14CYY035(結(jié)項證號20202887,本書依托項目);
2. 教育部人文社科研究基金青年項目"漢語有標(biāo)復(fù)句層次關(guān)系自動識別研究",負(fù)責(zé)人,編號12YJC740110(結(jié)項證號2016JXZ3190)
教育部學(xué)位中心評審專家
目錄
第1章 緒論 1
1.1 NLP概述 1
1.2 NLP基本流程 5
1.3 NLP的編程環(huán)境搭建 7
第2章 Python編程的數(shù)據(jù)結(jié)構(gòu) 16
2.1 數(shù)字 16
2.2 字符串 19
2.3 列表 24
2.4 元組 29
2.5 集合 31
2.6 字典 33
2.7 數(shù)據(jù)類型轉(zhuǎn)換 37
第3章 程序語句結(jié)構(gòu) 40
3.1 順序結(jié)構(gòu) 40
3.2 分支結(jié)構(gòu) 41
3.3 循環(huán)結(jié)構(gòu) 44
3.4 其他語句結(jié)構(gòu) 48
3.5 綜合應(yīng)用案例 53
第4章 正則表達(dá)式 56
4.1 初識正則表達(dá)式 56
4.2 正則表達(dá)式函數(shù) 56
4.3 正則表達(dá)式的元字符 62
4.4 正則表達(dá)式的應(yīng)用 66
第5章 文本詞匯層面的處理(上) 71
5.1 中文分詞簡介 71
5.2 中文分詞的主要方法 72
5.3 中文分詞工具jieba 77
5.4 文本詞性標(biāo)注 81
5.5 本章小結(jié) 84
第6章 文本詞匯層面的處理(下) 87
6.1 文本關(guān)鍵詞提取 87
6.2 命名實體識別 93
6.3 任務(wù):中文命名實體識別 95
6.4 文本語義角色標(biāo)記 102
第7章 圖形繪制與詞云圖的生成 111
7.1 Matplotlib與圖形繪制 111
7.2 詞云圖的生成 114
7.3 利用詞頻數(shù)據(jù)生成詞云圖 118
7.4 本章小結(jié) 121
第8章 文本向量化和文本語義相似度 126
8.1 文本向量化的概念 126
8.2 文本離散表示 126
8.3 文本分布式表示 138
8.4 文本語義相似度計算 141
第9章 文本分類與文本聚類 152
9.1 文本挖掘 152
9.2 文本分類常用算法 154
9.3 文本聚類常用算法 161
9.4 文本分類與文本聚類的步驟 171
9.5 任務(wù):垃圾短信分類 172
9.6 任務(wù):新聞文本聚類 175
9.7 本章小結(jié) 179
第10章 文本情感分析 182
10.1 文本情感分析簡介 182
10.2 情感分析的常用方法 183
10.3 常用的情感分類模型 192
10.4 任務(wù):基于情感詞典的情感分析 197
第11章 爬蟲技術(shù) 201
11.1 網(wǎng)絡(luò)爬蟲簡介 201
11.2 運用正則表達(dá)式爬取網(wǎng)頁數(shù)據(jù) 205
11.3 運用XPath爬取網(wǎng)絡(luò)小說 208
11.4 運用bs4爬取網(wǎng)頁數(shù)據(jù) 214
11.5 動態(tài)網(wǎng)頁數(shù)據(jù)獲取 217
第12章 NLP中的深度學(xué)習(xí)技術(shù) 227
12.1 前饋神經(jīng)網(wǎng)絡(luò) 227
12.2 循環(huán)神經(jīng)網(wǎng)絡(luò) 230
12.3 LSTM網(wǎng)絡(luò) 232
12.4 深度學(xué)習(xí)工具 234
12.5 基于LSTM網(wǎng)絡(luò)的文本分類與文本情感分析 237
第13章 語料庫的構(gòu)建與應(yīng)用 255
13.1 語料庫的概念 255
13.2 語料庫的種類與構(gòu)建原則 256
13.3 NLTK及其常用功能 259
13.4 語料庫資源的獲取 264
13.5 任務(wù):語料庫的構(gòu)建與使用 265
附錄 NLTK詞性標(biāo)注對照表 270
后記 272