本書是面向商業(yè)和技術專業(yè)人員的大數(shù)據(jù)權威指南,清楚地介紹了大數(shù)據(jù)相關的概念、理論、術語與基礎技術,并使用真實連貫的商業(yè)案例以及簡單的圖表,幫助讀者更清晰地理解大數(shù)據(jù)技術。本書可作為高等院校相關專業(yè)“大數(shù)據(jù)基礎”、“大數(shù)據(jù)道路”等課程的教材,也可供有一定實踐經(jīng)驗的軟件開發(fā)人員、管理人員和所有對大數(shù)據(jù)感興趣的人士閱讀。
譯者序現(xiàn)今,“大數(shù)據(jù)”已經(jīng)成為全球科技界和企業(yè)界關注的熱點。數(shù)據(jù)為王的時代已經(jīng)到來,各行各業(yè)高度關注大數(shù)據(jù)的研究和應用。企業(yè)關注的重點從追求計算機的計算速度轉(zhuǎn)變?yōu)樽非蟠髷?shù)據(jù)處理能力,從以軟件編程為主轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心。在云計算技術和海量數(shù)據(jù)存儲技術的助力下,大數(shù)據(jù)已經(jīng)成為當前學術界、工業(yè)界的熱點和焦點。大數(shù)據(jù)的出現(xiàn)將會對社會各個領域產(chǎn)生深刻影響。從公司戰(zhàn)略到產(chǎn)業(yè)生態(tài),從學術研究到生產(chǎn)實踐,從城鎮(zhèn)管理到國家治理,都將發(fā)生本質(zhì)的變化,大數(shù)據(jù)將成為時代變革的力量!坝脭(shù)據(jù)來說話、用數(shù)據(jù)來管理、用數(shù)據(jù)來決策、用數(shù)據(jù)來創(chuàng)新”的文化氛圍與時代特征愈發(fā)鮮明。大數(shù)據(jù)時代需要一大批具備大數(shù)據(jù)知識的專業(yè)人才,他們應能有效地將數(shù)據(jù)科學和各行各業(yè)的應用相結(jié)合,推動新技術和新應用的發(fā)展。因此,掌握大數(shù)據(jù)核心技術且擁有專業(yè)領域知識的人才儲備成為國家大數(shù)據(jù)戰(zhàn)略布局的重中之重。
在本書中,IT暢銷書作者ThomasErl和他的團隊清楚地解釋了關鍵的大數(shù)據(jù)概念、理論和術語,以及基本的大數(shù)據(jù)技術和方法。本書分兩部分:第一部分主要從商業(yè)相關問題的討論引出大數(shù)據(jù)的驅(qū)動力,解釋了如何通過大數(shù)據(jù)推動企業(yè)的發(fā)展,介紹了大數(shù)據(jù)的應用背景和基本概念;第二部分主要是大數(shù)據(jù)技術相關問題的討論,重點介紹了大數(shù)據(jù)的存儲技術和分析方法。本書的特色在于每一章后都有案例學習,用一家大型的保險公司ETI對大數(shù)據(jù)的應用案例貫穿始終,為相關章節(jié)的知識應用提供了現(xiàn)實場景,以加深讀者對大數(shù)據(jù)實際應用的認識。另外,本書大量應用了簡單的圖表說明。這些都使得本書非常實用且通俗易懂,因此,本書特別適合作為了解大數(shù)據(jù)基本知識和相關技術的入門教材,也可以作為高校的通識課教材來使用。
在本書翻譯過程中,武漢大學計算機學院的劉歆文、李卓、史成良、陳洪洋、賀瀟雅、萬言歷、陳昊等同學做了大量輔助性工作,在此,向這些同學的辛勤工作表示衷心的感謝。
由于譯者能力有限,譯稿難免存在疏漏及不足之處,望廣大讀者不吝賜教。
?ThomasErlThomasErl是IT暢銷書作者,Arcitura教育公司的創(chuàng)始人,PrenticeHall出版社“ThomasErl的服務技術叢書”的編輯。他的書發(fā)行量超過200000冊,成為國際暢銷書,并且已經(jīng)獲得多個重要IT組織成員的正式認可,例如,IBM、Microsoft、Oracle、Intel、Accenture、IEEE、HL7、MITRE、SAP、CISCO、HP等。作為Arcitura公司的CEO,Thomas領導研發(fā)了國際公認的大數(shù)據(jù)科學專家認證(BDSCP)、云專家認證(CCP)與SOA專家認證(SOACP)的課程大綱,設立了一系列正式的、與廠商無關的工業(yè)認證,全球已有數(shù)千IT從業(yè)人員獲得了這些認證。Thomas還作為演講家與教育家,在20多個國家進行過巡回演講。Thomas已經(jīng)在諸多出刊物上發(fā)表過100多篇文章和訪談,包括《華爾街日報》與《CIO雜志》。
WajidKhattakWajidKhattak是Arcitura教育公司的大數(shù)據(jù)研究者與教育者。他的研究領域包括大數(shù)據(jù)工程與架構、數(shù)據(jù)科學、機器學習、分析學與SOA。此外,他在商務智能報告解決方案與GIS方面有著豐富的.NET軟件開發(fā)經(jīng)驗。
Wajid于2003年在英國伯明翰城市大學獲得軟件工程學士學位,于2008年在該校以杰出的成績獲得軟件工程與安全碩士學位。另外,Wajid還獲得了MCAD&MCTS(Microsoft)、SOA架構師、大數(shù)據(jù)科學家、大數(shù)據(jù)工程師以及大數(shù)據(jù)研究顧問(Arcitura)認證。
PaulBuhlerPaulBuhler博士是一位經(jīng)驗豐富的IT專家,他在商業(yè)公司、政府機構和學校均有過從業(yè)經(jīng)驗。在面向服務的計算概念、技術和實現(xiàn)方法領域,他是一位受人尊敬的研究者、實踐者與教育者。他在XaaS領域的研究已經(jīng)延伸到了云、大數(shù)據(jù)與萬物互聯(lián)網(wǎng)(IoE)。目前他的研究興趣是通過權衡響應式設計原則與基于目標的執(zhí)行方式,減少業(yè)務策略與流程執(zhí)行之間的差距。
作為Modus21的首席科學家,PaulBuhler博士根據(jù)當前業(yè)務架構與流程執(zhí)行框架的發(fā)展趨勢調(diào)整企業(yè)的戰(zhàn)略布局。目前,他還是查爾斯頓學院的合作教授,負責本科生與碩士生計算機科學課程的教學工作。PaulBuhler博士在南卡羅來納大學獲得計算機工程博士學位,在約翰霍普金斯大學獲得計算機科學碩士學位,在塞特多大學獲得計算機科學學士學位。
目 錄
譯者序
致謝
作者簡介
第一部分 大數(shù)據(jù)基礎
第1章 理解大數(shù)據(jù)3
1.1 概念與術語4
1.1.1 數(shù)據(jù)集4
1.1.2 數(shù)據(jù)分析5
1.1.3 數(shù)據(jù)分析學5
1.1.4 商務智能11
1.1.5 關鍵績效指標11
1.2 大數(shù)據(jù)特征12
1.2.1 容量12
1.2.2 速率13
1.2.3 多樣性13
1.2.4 真實性14
1.2.5 價值14
1.3 不同數(shù)據(jù)類型15
1.3.1 結(jié)構化數(shù)據(jù)16
1.3.2 非結(jié)構化數(shù)據(jù)17
1.3.3 半結(jié)構化數(shù)據(jù)17
1.3.4 元數(shù)據(jù)18
1.4 案例學習背景18
1.4.1 歷史背景18
1.4.2 技術基礎和自動化環(huán)境19
1.4.3 商業(yè)目標和障礙20
1.5 案例學習21
1.5.1 確定數(shù)據(jù)特征22
1.5.2 確定數(shù)據(jù)類型24
第2章 采用大數(shù)據(jù)的商業(yè)動機與驅(qū)動25
2.1 市場動態(tài)25
2.2 業(yè)務架構27
2.3 業(yè)務流程管理30
2.4 信息與通信技術31
2.4.1 數(shù)據(jù)分析與數(shù)據(jù)科學31
2.4.2 數(shù)字化31
2.4.3 開源技術與商用硬件32
2.4.4 社交媒體33
2.4.5 超連通社區(qū)與設備33
2.4.6 云計算34
2.5 萬物互聯(lián)網(wǎng)35
2.6 案例學習35
第3章 大數(shù)據(jù)采用及規(guī)劃考慮39
3.1 組織的先決條件40
3.2 數(shù)據(jù)獲取40
3.3 隱私性40
3.4 安全性41
3.5 數(shù)據(jù)來源42
3.6 有限的實時支持43
3.7 不同的性能挑戰(zhàn)43
3.8 不同的管理需求43
3.9 不同的方法論44
3.10 云44
3.11 大數(shù)據(jù)分析的生命周期45
3.11.1 商業(yè)案例評估45
3.11.2 數(shù)據(jù)標識47
3.11.3 數(shù)據(jù)獲取與過濾47
3.11.4 數(shù)據(jù)提取48
3.11.5 數(shù)據(jù)驗證與清理49
3.11.6 數(shù)據(jù)聚合與表示50
3.11.7 數(shù)據(jù)分析52
3.11.8 數(shù)據(jù)可視化52
3.11.9 分析結(jié)果的使用53
3.12 案例學習54
3.12.1 大數(shù)據(jù)分析的生命周期55
3.12.2 商業(yè)案例評估55
3.12.3 數(shù)據(jù)標識56
3.12.4 數(shù)據(jù)獲取與過濾56
3.12.5 數(shù)據(jù)提取57
3.12.6 數(shù)據(jù)驗證與清理57
3.12.7 數(shù)據(jù)聚合與表示57
3.12.8 數(shù)據(jù)分析57
3.12.9 數(shù)據(jù)可視化58
3.12.10 分析結(jié)果的使用58
第4章 企業(yè)級技術與大數(shù)據(jù)商務智能59
4.1 聯(lián)機事務處理60
4.2 聯(lián)機分析處理60
4.3 抽取、轉(zhuǎn)換和加載技術61
4.4 數(shù)據(jù)倉庫61
4.5 數(shù)據(jù)集市62
4.6 傳統(tǒng)商務智能62
4.6.1 即席報表63
4.6.2 儀表板63
4.7 大數(shù)據(jù)商務智能65
4.7.1 傳統(tǒng)數(shù)據(jù)可視化65
4.7.2 大數(shù)據(jù)的數(shù)據(jù)可視化66
4.8 案例學習67
4.8.1 企業(yè)技術67
4.8.2 大數(shù)據(jù)商務智能68
第二部分 存儲和分析大數(shù)據(jù)
第5章 大數(shù)據(jù)存儲的概念71
5.1 集群72
5.2 文件系統(tǒng)和分布式文件系統(tǒng)72
5.3 NoSQL73
5.4 分片74
5.5 復制75
5.5.1 主從式復制76
5.5.2 對等式復制77
5.6 分片和復制80
5.6.1 結(jié)合分片和主從式復制80
5.6.2 結(jié)合分片和對等式復制81
5.7 CAP定理82
5.8 ACID85
5.9 BASE88
5.10 案例學習91
第6章 大數(shù)據(jù)處理的概念93
6.1 并行數(shù)據(jù)處理93
6.2 分布式數(shù)據(jù)處理94
6.3 Hadoop94
6.4 處理工作量95
6.4.1 批處理型95
6.4.2 事務型95
6.5 集群96
6.6 批處理模式97
6.6.1 MapReduce批處理97
6.6.2 Map和Reduce任務98
6.6.3 MapReduce的簡單實例103
6.6.4 理解MapReduce算法104
6.7 實時模式處理107
6.7.1 SCV原則107
6.7.2 事件流處理110
6.7.3 復雜事件處理110
6.7.4 大數(shù)據(jù)實時處理與SCV110
6.7.5 大數(shù)據(jù)實時處理與MapReduce111
6.8 案例學習112
6.8.1 處理工作量112
6.8.2 批處理模式處理112
6.8.3 實時模式處理113
第7章 大數(shù)據(jù)存儲技術115
7.1 磁盤存儲設備115
7.1.1 分布式文件系統(tǒng)116
7.1.2 RDBMS數(shù)據(jù)庫117
7.1.3 NoSQL數(shù)據(jù)庫119
7.1.4 NewSQL數(shù)據(jù)庫128
7.2 內(nèi)存存儲設備129
7.2.1 內(nèi)存數(shù)據(jù)網(wǎng)格131
7.2.2 內(nèi)存數(shù)據(jù)庫138
7.3 案例學習141
第8章 大數(shù)據(jù)分析技術143
8.1 定量分析144
8.2 定性分析145
8.3 數(shù)據(jù)挖掘145
8.4 統(tǒng)計分析146
8.4.1 A/B測試146
8.4.2 相關性分析147
8.4.3 回歸性分析149
8.5 機器學習150
8.5.1 分類(有監(jiān)督的機器學習)151
8.5.2 聚類(無監(jiān)督的機器學習)152
8.5.3 異常檢測152
8.5.4 過濾153
8.6 語義分析154
8.6.1 自然語言處理155
8.6.2 文本分析155
8.6.3 情感分析156
8.7 視覺分析157
8.7.1 熱點圖157
8.7.2 時間序列圖159
8.7.3 網(wǎng)絡圖160
8.7.4 空間數(shù)據(jù)制圖161
8.8 案例學習162
8.8.1 相關性分析162
8.8.2 回歸性分析162
8.8.3 時間序列圖163
8.8.4 聚類163
8.8.5 分類163
附錄A 案例結(jié)論165
索引167