定 價:108 元
叢書名:大模型前沿技術(shù)與應(yīng)用叢書
- 作者:張朝運(yùn) 等
- 出版時間:2025/11/1
- ISBN:9787121514074
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP391;TP18
- 頁碼:212
- 紙張:
- 版次:01
- 開本:16開
隨著大語言模型(LLM)技術(shù)的突破,人工智能正從"語言專家”演變?yōu)榫邆湫袆幽芰Φ?智能體。大語言模型驅(qū)動的圖形用戶界面(GUI)智能體革新了傳統(tǒng) GUI 的自動化方式,不 再依賴腳本或規(guī)則,而是通過自然語言理解、屏幕解析和自主決策,高效、靈活地執(zhí)行任務(wù)。 本書系統(tǒng)介紹這一新興領(lǐng)域的發(fā)展背景、核心技術(shù)與應(yīng)用場景,涵蓋 GUI 智能體的架構(gòu)設(shè)計、 數(shù)據(jù)采集,以及大行動模型(LAM)構(gòu)建、關(guān)鍵評估指標(biāo)和應(yīng)用,幫助讀者掌握 GUI 智能體 的完整方法論,并深入探討 GUI 智能體當(dāng)前面臨的挑戰(zhàn)與未來發(fā)展趨勢。 全書配有豐富的圖示與實踐案例,涵蓋多種真實場景下的智能 GUI 自動化方案,幫助讀 者輕松上手。針對研究人員與開發(fā)者,本書提供了示例代碼與實踐指南,從系統(tǒng)搭建到核心算 法調(diào)參,都配有注釋。對于希望提高企業(yè)自動化能力的工程師,也可借鑒書中切實可行的落地 經(jīng)驗。針對復(fù)雜的跨平臺操作或大規(guī)模界面測試,本書給出了行之有效的思路與實現(xiàn)路徑,使 GUI 智能體自動化不再是遙不可及的概念。
張朝運(yùn)微軟首席研究員,專注于大語言模型驅(qū)動的GUI智能體與人機(jī)交互前沿技術(shù)。作為Windows系統(tǒng)首個GUI智能體——UFO的核心開發(fā)者,帶領(lǐng)團(tuán)隊實現(xiàn)了多模態(tài)交互與高效自動化,相關(guān)項目在GitHub獲得超過7000星,受到國內(nèi)外主流科技媒體廣泛報道。博士畢業(yè)于英國愛丁堡大學(xué)信息學(xué)院,獲深度學(xué)習(xí)與智能移動網(wǎng)絡(luò)方向博士學(xué)位,其間榮獲愛丁堡全球研究獎學(xué)金等多項榮譽(yù)。在國際頂級會議與期刊發(fā)表高水平論文40余篇,谷歌學(xué)術(shù)引用超5000次。作為主要發(fā)明人,擁有多項中、美發(fā)明專利。長期致力于大語言模型智能體、智能運(yùn)維等領(lǐng)域的創(chuàng)新研究,推動GUI智能體技術(shù)在桌面操作系統(tǒng)、行業(yè)生產(chǎn)力工具等場景的應(yīng)用落地。秦思微軟首席研究經(jīng)理,IEEE高級會員。博士畢業(yè)于美國維拉諾瓦大學(xué),在國際會議與期刊上發(fā)表論文50余篇,并擁有10多項授權(quán)專利。曾多次獲得國際學(xué)術(shù)獎,包括IEEE國際微波與毫米波技術(shù)會議“最佳學(xué)生論文獎”、IEEE信號處理學(xué)會“青年作者最佳論文獎”,以及歐洲信號處理協(xié)會“最佳論文獎”等,F(xiàn)專注于智能運(yùn)維和大語言模型技術(shù)研究,相關(guān)技術(shù)已成功應(yīng)用于多個微軟產(chǎn)品,曾獲“微軟亞洲研究院年度最佳技術(shù)轉(zhuǎn)化獎”及“微軟亞太研發(fā)團(tuán)隊獎”,微軟機(jī)器學(xué)習(xí)、人工智能與數(shù)據(jù)科學(xué)大會“杰出貢獻(xiàn)獎”。李立群微軟首席研究員,專注于研發(fā)基于大語言模型的智能體應(yīng)用,同時是TaskWeaver智能體開源框架的主要貢獻(xiàn)者之一。于2012年獲得中國科學(xué)院軟件研究所博士學(xué)位,2006年獲得清華大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)士學(xué)位,曾于2009年訪問密歇根州立大學(xué)。研究興趣包括物聯(lián)網(wǎng)、移動、大數(shù)據(jù)、機(jī)器學(xué)習(xí)和云計算等領(lǐng)域,在Mobisys、Mobicom、NSDI、ATC、ICSE、ESEC/FSE、ICDCS、RTSS、TPDS和TOSN等頂級會議和期刊上發(fā)表40余篇論文。2022年在ESEC/FSE會議上獲得SIGSOFT Distinguished Paper獎項。何世林現(xiàn)就職于字節(jié)跳動,曾任微軟亞洲研究院高級研究員,博士畢業(yè)于香港中文大學(xué)計算機(jī)科學(xué)與工程系。主要研究方向包括大模型、智能體及軟件智能化等。已發(fā)表40余篇國際頂級會議和期刊文章,學(xué)術(shù)引用4000余次,曾獲得FSE杰出論文獎和ISSRE 最有影響力論文獎。任FSE、ISSTA等國際頂級會議的程序委員會委員。TaskWeaver、UFO、LogPAI等開源項目的核心開發(fā)人員。GitHub總星數(shù)過萬。
前言 III
第 1 部分:基礎(chǔ)理論與背景
第 1 章 大語言模型驅(qū)動下
的人機(jī)交互革命 2
1.1 人機(jī)交互演進(jìn)簡史 3
1.1.1 從 CLI 到 GUI:易用性與效率的折中 3
1.1.2 GUI 的優(yōu)勢與局限 4
1.2 大語言模型的發(fā)展與影響 5
1.2.1 大語言模型的關(guān)鍵特征 5
1.2.2 大語言模型驅(qū)動智能體的誕生 7
1.3 大語言模型驅(qū)動的 GUI 智能體的興起 8
1.3.1 GUI 智能體的定義和意義 8
1.3.2 關(guān)鍵技術(shù)和形成動因 9
1.3.3 研究現(xiàn)狀和初步應(yīng)用概覽 11
1.4 與 API-Only 智能體的比較與互補(bǔ) 12
1.4.1 API-Only 智能體:成熟度與早期優(yōu)勢 12
1.4.2 GUI 智能體:多模態(tài)下的交互變革 13
1.4.3 關(guān)鍵差異與適用場景 13
1.4.4 融合趨勢:混合式智能體的未來 14
1.5 本章小結(jié) 15
第 2 章 GUI 自動化的發(fā)展之路 16
2.1 早期 GUI 自動化 17
2.1.1 傳統(tǒng) GUI 自動化方法概覽 17
2.1.2 典型工具與軟件 19
2.2 GUI 自動化的智能之路 .20
2.2.1 機(jī)器學(xué)習(xí)在 GUI 自動化中的作用 20
2.2.2 計算機(jī)視覺在 GUI 自動化中的作用 21
2.2.3 自然語言處理在 GUI 自動化中的作用 22
2.2.4 強(qiáng)化學(xué)習(xí)在 GUI 自動化中的獨特優(yōu)勢 22
2.3 本章小結(jié) 23
第 3 章 大語言模型與通用智能體 24
3.1 大語言模型基礎(chǔ) 25
3.1.1 預(yù)訓(xùn)練 25
3.1.2 微調(diào) 25
3.1.3 后訓(xùn)練 26
3.1.4 視覺與文本的融合 26
3.2 通用智能體 27
3.2.1 推理分析 28
3.2.2 記憶存儲 30
3.2.3 工具調(diào)用 32
3.3 本章小結(jié) 34
第 2 部分:核心技術(shù)與方法
第 4 章 GUI 智能體的體系結(jié)構(gòu)與核心設(shè)計 36
4.1 基礎(chǔ)架構(gòu)與工作流程 37
4.1.1 總體架構(gòu)概覽 37
4.1.2 工作流程總覽 38
4.2 環(huán)境感知與平臺適配 39
4.2.1 平臺特性與適配挑戰(zhàn) 39
4.2.2 環(huán)境狀態(tài)捕獲 41
4.3 提示工程 44
4.4 推理策略 47
4.4.1 規(guī)劃 47
4.4.2 動作推斷 48
4.4.3 補(bǔ)充輸出 48
4.5 動作執(zhí)行 49
4.5.1 GUI 操作 49
4.5.2 原生 API 調(diào)用 50
4.5.3 AI 工具輔助 50
4.6 記憶管理 51
4.6.1 短期記憶:支撐運(yùn)行時上下文連貫 52
4.6.2 長期記憶:沉淀經(jīng)驗與跨任務(wù)泛化 52
4.7 本章小結(jié) 54
第 5 章 GUI 智能體的高級增強(qiáng)與自我演進(jìn) 56
5.1 基于計算機(jī)視覺的 GUI 控件識別 57
5.1.1 OCR、目標(biāo)檢測與控件識別 .57
5.1.2 多模態(tài)在復(fù)雜 GUI 解析中的實踐:以 OmniParser 為例 58
5.2 多智能體協(xié)作 60
5.2.1 專業(yè)化分工 60
5.2.2 智能體間協(xié)作 61
5.3 強(qiáng)化學(xué)習(xí) 62
5.3.1 GUI 智能體在交互式環(huán)境下的建模 62
5.3.2 基于強(qiáng)化學(xué)習(xí)的 GUI 智能體訓(xùn)練 63
5.4 自我反思與自我進(jìn)化 64
5.4.1 自我反思 64
5.4.2 自我進(jìn)化 65
5.5 本章小結(jié) 67
第 3 部分:實踐案例與應(yīng)用
第 6 章 大語言模型驅(qū)動的GUI 智能體框架與平臺實踐 69
6.1 網(wǎng)頁端 GUI 智能體 70
6.1.1 常見流程與關(guān)鍵技術(shù) 70
6.1.2 典型的網(wǎng)頁端 GUI 智能體示例 71
6.2 移動端 GUI 智能體 74
6.2.1 常見流程與關(guān)鍵技術(shù) 74
6.2.2 典型的移動端 GUI 智能體示例 75
6.3 桌面端 GUI 智能體 76
6.3.1 常見流程與關(guān)鍵技術(shù) 76
6.3.2 典型桌面端 GUI 智能體示例 77
6.4 跨平臺 GUI 智能體 80
6.4.1 “一次開發(fā),多端適配”的挑戰(zhàn) 80
6.4.2 框架遷移與版本管理 80
6.4.3 典型跨平臺 GUI 智能體示例 81
6.5 工業(yè)界案例 82
6.5.1 Anthropic Computer Use 82
6.5.2 OpenAI Computer-UsingAgent 和 Operator 83
6.6 本章小結(jié) 85
第 7 章 GUI 智能體數(shù)據(jù)集的采集與構(gòu)建 87
7.1 數(shù)據(jù)的類型與來源 88
7.2 數(shù)據(jù)采集管線 89
7.3 現(xiàn)有數(shù)據(jù)集案例 89
7.3.1 網(wǎng)頁端數(shù)據(jù)集 90
7.3.2 移動端數(shù)據(jù)集 91
7.3.3 桌面端數(shù)據(jù)集 91
7.3.4 跨平臺數(shù)據(jù)集 92
7.4 本章小結(jié) 93
第 8 章 GUI 智能體的大行動模型訓(xùn)練 95
8.1 從理解到執(zhí)行:大行動模型的崛起 96
8.2 不同平臺的大行動模型應(yīng)用 97
8.2.1 網(wǎng)頁端 GUI 場景:從指令到控件操作 98
8.2.2 移動端與桌面端大行動模型的對比與關(guān)鍵技術(shù)差異 99
8.2.3 跨平臺大行動模型的融合與挑戰(zhàn) 101
8.3 模型訓(xùn)練與微調(diào) 103
8.3.1 數(shù)據(jù)收集與準(zhǔn)備 103
8.3.2 大行動模型訓(xùn)練主流框架詳解 104
8.4 大行動模型案例分析 108
8.4.1 設(shè)計思路與架構(gòu)概覽 108
8.4.2 模型訓(xùn)練方法 109
8.4.3 集成部署與在線效果評估 113
8.5 本章小結(jié) 116
第 9 章 GUI 智能體評測方法與展望 117
9.1 評測體系概覽 .118
9.2 測試用例設(shè)計 .119
9.2.1 測試用例設(shè)計中的挑戰(zhàn) 119
9.2.2 設(shè)計原則 120
9.2.3 用例類型 121
9.3 評估指標(biāo) 122
9.3.1 成功率維度 122
9.3.2 效率維度 122
9.3.3 合規(guī)性與安全性維度 123
9.3.4 穩(wěn)健性維度 123
9.3.5 用戶滿意度維度 124
9.4 度量標(biāo)準(zhǔn) 124
9.4.1 文本匹配 124
9.4.2 圖像匹配 125
9.4.3 元素匹配 125
9.4.4 動作匹配 126
9.4.5 狀態(tài)校驗 126
9.5 常見評測平臺與基準(zhǔn)集 126
9.5.1 主流評測平臺介紹 126
9.5.2 GUI 智能體評測基準(zhǔn)示例 128
9.6 未來發(fā)展展望 .131
9.7 本章小結(jié) 132
第 10 章 詳解 WindowsGUI 智能體UFO 133
10.1 項目背景與時代意義 134
10.1.1 Windows 平臺的自動化挑戰(zhàn) 134
10.1.2 UFO 項目的提出與定位 134
10.2 UFO 系統(tǒng)總體架構(gòu) 134
10.2.1 架構(gòu)設(shè)計理念 134
10.2.2 核心架構(gòu)流程總覽 134
10.2.3 虛擬化與安全隔離設(shè)計 135
10.2.4 多智能體協(xié)同模式 135
10.3 HostAgent:系統(tǒng)級編排與執(zhí)行控制 136
10.3.1 模塊定位與功能概述 136
10.3.2 體系結(jié)構(gòu)與主要流程 136
10.3.3 工程實現(xiàn)細(xì)節(jié) 137
10.3.4 有限狀態(tài)機(jī)與可靠性保障 138
10.3.5 內(nèi)存管理與狀態(tài)同步機(jī)制 139
10.4 AppAgent:應(yīng)用專屬智能體 139
10.4.1 模塊定位與功能概述 139
10.4.2 架構(gòu)原理與工作機(jī)制 139
10.4.3 本地有限狀態(tài)機(jī) 141
10.4.4 內(nèi)存管理與狀態(tài)協(xié)同 142
10.5 關(guān)鍵技術(shù)模塊詳解 142
10.5.1 混合控件檢測機(jī)制 142
10.5.2 統(tǒng)一 GUI-API 動作編排引擎 143
10.5.3 知識基座與持續(xù)增強(qiáng)機(jī)制 145
10.5.4 推測性多步動作執(zhí)行優(yōu)化 146
10.6 典型使用流程與案例分析 147
10.6.1 典型流程與案例解析 147
10.6.2 實踐建議與常見問題 149
10.7 本章小結(jié) 150
第 11 章 GUI 智能體的商業(yè)化落地與應(yīng)用 151
11.1 GUI 智能體應(yīng)用現(xiàn)狀概覽 152
11.2 GUI 智能體產(chǎn)品分析 152
11.2.1 基于網(wǎng)頁瀏覽器的GUI 智能體 152
11.2.2 跨平臺 GUI 智能體 154
11.2.3 中國本土化 GUI 智能體產(chǎn)品 156
11.3 按應(yīng)用場景分類的實際落地案例 157
11.3.1 企業(yè)辦公自動化 157
11.3.2 電子商務(wù)與客戶服務(wù) 158
11.3.3 軟件開發(fā)與測試 159
11.4 實施經(jīng)驗與挑戰(zhàn)分析 160
11.4.1 成功實施的關(guān)鍵因素 160
11.4.2 常見挑戰(zhàn)與解決方案 161
11.5 新興技術(shù)與未來趨勢 161
11.5.1 多智能體協(xié)作技術(shù) 161
11.5.2 無代碼 GUI 自動化平臺 162
11.5.3 行業(yè)特定解決方案 162
11.6 實施教訓(xùn)與最佳實踐 162
11.6.1 從失敗案例中汲取的經(jīng)驗 162
11.6.2 最佳實踐建議 163
11.7 結(jié)論與建議 .163
11.7.1 總體評估 163
11.7.2 企業(yè)應(yīng)用建議 163
11.8 本章小結(jié) 164
第 4 部分:未來展望與挑戰(zhàn)
第 12 章 面向未來的挑戰(zhàn)與研究方向 166
12.1 隱私保護(hù):桌面端智能體的核心壁壘 167
12.1.1 背景與挑戰(zhàn) 167
12.1.2 研究與工程應(yīng)對策略 167
12.2 延遲、性能與交互流暢性 167
12.2.1 背景與挑戰(zhàn) 167
12.2.2 研究與工程應(yīng)對策略 168
12.3 安全性與可靠性:守住自動化底線 168
12.3.1 背景與挑戰(zhàn) 168
12.3.2 研究與工程應(yīng)對策略 168
12.4 人機(jī)協(xié)作與交互智能 169
12.4.1 背景與挑戰(zhàn) 169
12.4.2 研究與工程應(yīng)對策略 169
12.5 個性化與用戶定制 170
12.5.1 背景與挑戰(zhàn) 170
12.5.2 研究與工程應(yīng)對策略 170
12.6 倫理與合規(guī)治理 171
12.6.1 背景與挑戰(zhàn) 171
12.6.2 研究與工程應(yīng)對策略 171
12.7 大規(guī)模泛化與可持續(xù)進(jìn)化 171
12.7.1 背景與挑戰(zhàn) 171
12.7.2 研究與工程應(yīng)對策略 171
12.8 本章小結(jié) 172
第 13 章 本書總結(jié) 173
13.1 內(nèi)容回顧與關(guān)鍵技術(shù)總結(jié) 174
13.2 實際應(yīng)用與案例啟示 174
13.3 面臨的挑戰(zhàn)與應(yīng)對策略 174
13.4 未來研究方向與發(fā)展趨勢 174
13.5 結(jié)語 175
參考文獻(xiàn) 176