本教材將Python自然語言處理的常用技術與真實案例相結合,深入淺出地介紹Python自然語言處理的重要內容。全書共8章,主要分為兩大部分,第1~3章為基礎篇,包括導論、文本基礎處理、文本預處理與分析,第4~8章為實踐篇,包括新聞自動分類、天問一號事件用戶評論情感分析、游客景區(qū)印象分析、論文標題自動生成,以及基于TipDM大數據挖掘建模平臺的游客景區(qū)印象分析。本教材每章都包含課后習題,通過練習和操作實踐,幫助讀者鞏固所學的內容。 本教材可以作為高校數據科學或人工智能等相關專業(yè)的教材,也可作為自然語言處理愛好者的自學用書。
徐鵬,嶺南師范學院數學與統(tǒng)計學院副教授。為本科生講授高級語言程序、Java語言程序設計等多門課程,獲得校級教研項目立項1項。主持校級實驗教學示范中心項目1項并順利結題。參與省級精品課常微分方程建設,出版教材一部。
基礎篇
第1章 導論002
1.1 自然語言處理概述003
1.1.1 發(fā)展歷程及未來展望003
1.1.2 研究內容與常見應用003
1.1.3 自然語言處理的基本流程005
1.2 自然語言處理的開發(fā)環(huán)境007
1.2.1 Python的優(yōu)勢007
1.2.2 自然語言處理開發(fā)環(huán)境配置008
1.3 自然語言與大語言模型013
本章小結015
課后習題015
第2章 文本基礎處理016
2.1 文本數據源017
2.2 語料庫017
2.2.1 語料庫的類型018
2.2.2 語料庫的用途019
2.2.3 語料庫的構建與獲取019
2.3 中文分詞023
2.3.1 常用中文分詞方法023
2.3.2 基于jieba庫的中文分詞029
2.4 詞性標注與命名實體識別031
2.4.1 詞性標注簡介與規(guī)范031
2.4.2 命名實體識別簡介與常用算法033
2.4.3 基于jieba庫的詞性標注與命名實體識別035
2.5 關鍵詞提取037
2.5.1 常用關鍵詞提取算法037
2.5.2 提取文本關鍵詞039
本章小結043
課后習題043
第3章 文本預處理與分析045
3.1 文本向量化與相似度046
3.1.1 文本向量化與相似度簡介046
3.1.2 常用文本向量化方法047
3.1.3 文本向量化實現055
3.1.4 常用文本相似度算法057
3.1.5 文本相似度算法實現060
3.2 文本分析簡介062
3.2.1 結構化分析062
3.2.2 語義化分析064
3.3 文本分析常用算法065
3.3.1 常用機器學習算法065
3.3.2 常用深度學習算法070
本章小結076
課后習題076
實踐篇
第4章 新聞類型自動分類080
4.1 業(yè)務背景與項目目標081
4.1.1 業(yè)務背景081
4.1.2 數據說明081
4.1.3 分析目標082
4.2 分析方法與過程082
4.2.1 數據采集083
4.2.2 數據探索083
4.2.3 文本預處理088
4.2.4 構建SVM模型092
4.2.5 模型評估095
本章小結096
課后習題097
第5章 天問一號事件用戶評論情感分析098
5.1 業(yè)務背景與項目目標099
5.1.1 業(yè)務背景099
5.1.2 數據說明099
5.1.3 分析目標100
5.2 分析方法與過程101
5.2.1 數據探索101
5.2.2 文本預處理106
5.2.3 繪制詞云圖110
5.2.4 模型構建與訓練114
5.2.5 模型評估119
5.2.6 模型優(yōu)化121
本章小結126
課后習題126
第6章 游客景區(qū)印象分析127
6.1 業(yè)務背景與項目目標128
6.1.1 業(yè)務背景128
6.1.2 數據說明128
6.1.3 分析目標129
6.2 分析方法與流程130
6.2.1 文本預處理130
6.2.2 景區(qū)印象分析133
6.2.3 景區(qū)特色分析134
6.2.4 提升景區(qū)美譽度的建議140
本章小結141
課后習題141
第7章 論文標題自動生成142
7.1 業(yè)務背景與項目目標143
7.1.1 業(yè)務背景143
7.1.2 數據說明144
7.1.3 分析目標144
7.2 分析方法與流程145
7.2.1 文本預處理145
7.2.2 訓練模型148
7.2.3 結果與分析154
本章小結156
課后習題156
第8章 基于TipDM大數據挖掘建模平臺的游客景區(qū)印象分析157
8.1 TipDM大數據挖掘建模平臺簡介158
8.1.1 共享庫159
8.1.2 數據連接159
8.1.3 數據集160
8.1.4 我的工程160
8.1.5 個人組件163
8.2 使用平臺實現游客景區(qū)印象分析164
8.2.1 使用平臺實現游客景區(qū)印象分析的總體流程164
8.2.2 配置數據源165
8.2.3 文本預處理167
8.2.4 景區(qū)印象分析171
8.2.5 景區(qū)特色分析174
本章小結177
課后習題178
參考文獻179