視覺(jué)語(yǔ)言模型VLM原理與實(shí)戰(zhàn)
定 價(jià):99 元
當(dāng)前圖書(shū)已被 9 所學(xué)校薦購(gòu)過(guò)!
查看明細(xì)
- 作者:吳建明、吳一昊 編著
- 出版時(shí)間:2025/9/1
- ISBN:9787122478733
- 出 版 社:化學(xué)工業(yè)出版社
- 中圖法分類(lèi):TP391
- 頁(yè)碼:267
- 紙張:
- 版次:01
- 開(kāi)本:小16開(kāi)
本書(shū)系統(tǒng)闡述了視覺(jué)語(yǔ)言模型的理論體系與技術(shù)實(shí)踐。全書(shū)共15章,分為三大部分:基礎(chǔ)綜述(第1章)、關(guān)鍵技術(shù)(第2~14章)與未來(lái)展望(第15章)。
第一部分詳解視覺(jué)語(yǔ)言模型的網(wǎng)絡(luò)架構(gòu)、預(yù)訓(xùn)練目標(biāo)、評(píng)估方法及數(shù)據(jù)集體系,對(duì)比分析對(duì)抗訓(xùn)練、生成式預(yù)訓(xùn)練等范式,并建立性能評(píng)估基準(zhǔn)。第二部分:第2章通過(guò)多個(gè)案例展示技術(shù)多樣性;第3~5章深入探討少樣本學(xué)習(xí)、魯棒微調(diào)等關(guān)鍵問(wèn)題,提出約束線性探測(cè)等原創(chuàng)方法;第6~10章聚焦模型擴(kuò)展性,涵蓋InternVL億級(jí)參數(shù)訓(xùn)練、VinVL視覺(jué)表征重構(gòu)等前沿實(shí)踐;第11~14章探索提示工程、異常檢測(cè)等應(yīng)用場(chǎng)景,包含MATCHER一次性分割等突破性方案。第三部分展望多模態(tài)生成、組合推理等未來(lái)方向。
本書(shū)系統(tǒng)性與前沿性并重,理論與實(shí)踐結(jié)合,非常適合AI算法工程師、大模型及多模態(tài)人工智能研究者學(xué)習(xí),也可用作高等院校相關(guān)專(zhuān)業(yè)的教材及參考書(shū)。
第1章 視覺(jué)任務(wù)的視覺(jué)語(yǔ)言模型綜述 001~035
1.1 視覺(jué)語(yǔ)言模型摘要 001
1.2 視覺(jué)語(yǔ)言模型問(wèn)題提出 001
1.3 視覺(jué)語(yǔ)言模型背景 003
1.3.1 視覺(jué)識(shí)別的訓(xùn)練范式 003
1.3.2 用于視覺(jué)識(shí)別的VLM 的開(kāi)發(fā) 004
1.3.3 相關(guān)調(diào)查 006
1.4 VLM 基礎(chǔ) 006
1.4.1 網(wǎng)絡(luò)架構(gòu) 006
1.4.2 VLM 預(yù)訓(xùn)練目標(biāo) 007
1.4.3 VLM 預(yù)訓(xùn)練框架 009
1.4.4 評(píng)估設(shè)置和下游任務(wù) 010
1.5 數(shù)據(jù)集 011
1.5.1 預(yù)訓(xùn)練VLM 的數(shù)據(jù)集 012
1.5.2 VLM 評(píng)估數(shù)據(jù)集 013
1.6 視覺(jué)語(yǔ)言模型預(yù)訓(xùn)練 013
1.6.1 具有對(duì)抗目標(biāo)的VLM 預(yù)訓(xùn)練 015
1.6.2 具有生成目標(biāo)的VLM 預(yù)訓(xùn)練 017
1.6.3 帶有對(duì)齊目標(biāo)的VLM 預(yù)訓(xùn)練 019
1.7 VLM 遷移學(xué)習(xí) 020
1.7.1 遷移學(xué)習(xí)的動(dòng)機(jī) 020
1.7.2 遷移學(xué)習(xí)的常見(jiàn)設(shè)置 020
1.7.3 常見(jiàn)的遷移學(xué)習(xí)方法 020
1.8 視覺(jué)大模型語(yǔ)言知識(shí)提煉 024
1.8.1 從VLM 中提取知識(shí)的動(dòng)機(jī) 025
1.8.2 常識(shí)提煉方法 025
1.9 性能比較 027
1.9.1 VLM 預(yù)訓(xùn)練的表現(xiàn) 027
1.9.2 VLM 遷移學(xué)習(xí)的性能 030
1.9.3 VLM 知識(shí)提取的性能 032
1.10 未來(lái)發(fā)展方向 033
1.11 小結(jié) 035
第2章 視覺(jué)語(yǔ)言模型各種示例 036~065
2.1 通過(guò)模仿和自我監(jiān)督學(xué)習(xí)創(chuàng)建多模態(tài)交互代理 036
2.2 DEPT:用于參數(shù)高效微調(diào)的分解式快速調(diào)諧 037
2.3 基于聚類(lèi)掩蔽的高效視覺(jué)語(yǔ)言預(yù)訓(xùn)練 039
2.4 來(lái)自并行文本世界的LLM 訓(xùn)練的體現(xiàn)多模態(tài)智能體 041
2.5 在豐富的監(jiān)督下加強(qiáng)視覺(jué)語(yǔ)言預(yù)訓(xùn)練 043
2.6 FairCLIP:在視覺(jué)和語(yǔ)言學(xué)習(xí)中強(qiáng)調(diào)公平 043
2.7 用于開(kāi)放式目標(biāo)檢測(cè)的生成區(qū)域語(yǔ)言預(yù)訓(xùn)練 044
2.8 FROSTER:凍結(jié)的CLIP 是開(kāi)放詞匯動(dòng)作識(shí)別的有力教師 048
2.9 Ins-DetCLIP:對(duì)齊檢測(cè)模型以遵循人類(lèi)語(yǔ)言指令 049
2.10 MMICL:通過(guò)多模態(tài)語(yǔ)境學(xué)習(xí)增強(qiáng)視覺(jué)語(yǔ)言模型的能力 052
2.11 學(xué)習(xí)提示分割任何模型 055
2.12 NEMESIS:視覺(jué)語(yǔ)言模型軟性向量的歸一化 057
2.13 非自回歸序列到序列視覺(jué)語(yǔ)言模型 057
2.14 一個(gè)提示詞足以提高預(yù)訓(xùn)練視覺(jué)語(yǔ)言模型的對(duì)抗魯棒性 059
2.15 連續(xù)學(xué)習(xí)的快速梯度投影 060
2.16 檢索增強(qiáng)對(duì)比視覺(jué)文本模型 062
2.17 TCP:基于文本的類(lèi)感知可視化語(yǔ)言模型的提示調(diào)優(yōu) 064
2.18 聯(lián)合學(xué)習(xí)中視覺(jué)語(yǔ)言模型的文本驅(qū)動(dòng)提示生成 065
第3章 大視覺(jué)語(yǔ)言模型的少數(shù)樣本任務(wù)適配 066~079
3.1 少數(shù)樣本任務(wù)適配概述 066
3.2 少數(shù)樣本任務(wù)適配相關(guān)知識(shí) 066
3.2.1 少數(shù)樣本任務(wù)適配歷史淵源 066
3.2.2 相關(guān)工作概述 069
3.3 少數(shù)樣本任務(wù)適配準(zhǔn)備工作 069
3.3.1 對(duì)比視覺(jué)語(yǔ)言預(yù)訓(xùn)練大規(guī)模VLM 069
3.3.2 可遷移性 070
3.3.3 使用適配器進(jìn)行高效遷移學(xué)習(xí) 070
3.3.4 現(xiàn)有少樣本任務(wù)ETL 方法的陷阱 071
3.4 少樣本任務(wù)擬議辦法 071
3.4.1 重新審視線性探測(cè) 071
3.4.2 約束線性探測(cè) 072
3.4.3 線性探測(cè)的類(lèi)自適應(yīng)約束 073
3.5 少樣本任務(wù)實(shí)驗(yàn) 075
3.5.1 安裝程序 075
3.5.2 少樣本任務(wù)測(cè)試結(jié)果 076
3.5.3 少樣本任務(wù)消融實(shí)驗(yàn) 078
3.6 少樣本任務(wù)限制 079
第4章 基于錨點(diǎn)的視覺(jué)語(yǔ)言模型魯棒微調(diào) 080~091
4.1 錨點(diǎn)視覺(jué)語(yǔ)言模型魯棒微調(diào)概要 080
4.2 錨點(diǎn)視覺(jué)語(yǔ)言模型魯棒微調(diào)相關(guān)技術(shù) 080
4.2.1 錨點(diǎn)視覺(jué)語(yǔ)言模型魯棒微調(diào)問(wèn)題提出 080
4.2.2 錨點(diǎn)視覺(jué)語(yǔ)言模型魯棒微調(diào)相關(guān)工作 082
4.3 錨點(diǎn)視覺(jué)語(yǔ)言模型魯棒微調(diào)準(zhǔn)備工作 083
4.3.1 符號(hào)摘要 083
4.3.2 對(duì)比視覺(jué)語(yǔ)言模型 083
4.4 錨點(diǎn)視覺(jué)語(yǔ)言模型魯棒微調(diào)方法 084
4.4.1 問(wèn)題設(shè)置 084
4.4.2 基于錨點(diǎn)的穩(wěn)健微調(diào)概述 085
4.5 錨點(diǎn)視覺(jué)語(yǔ)言模型魯棒微調(diào)實(shí)驗(yàn) 087
4.5.1 域轉(zhuǎn)換下的評(píng)估 087
4.5.2 零樣本學(xué)習(xí)下的評(píng)價(jià) 089
4.5.3 消融研究 090
4.5.4 錨的定性示例 091
4.6 小結(jié) 091
第5章 視覺(jué)語(yǔ)言模型的一致性引導(dǎo)快速學(xué)習(xí) 092~104
5.1 一致性引導(dǎo)快速學(xué)習(xí)摘要 092
5.2 一致性引導(dǎo)快速學(xué)習(xí)問(wèn)題提出及相關(guān)工作 092
5.2.1 一致性引導(dǎo)快速學(xué)習(xí)問(wèn)題提出 092
5.2.2 一致性引導(dǎo)快速學(xué)習(xí)相關(guān)工作 094
5.3 一致性引導(dǎo)快速學(xué)習(xí)方法 095
5.3.1 準(zhǔn)備工作 095
5.3.2 協(xié)同學(xué)習(xí):以一致性為導(dǎo)向的快速學(xué)習(xí) 096
5.4 一致性引導(dǎo)快速學(xué)習(xí)4 個(gè)實(shí)驗(yàn) 098
5.4.1 實(shí)驗(yàn)設(shè)置 098
5.4.2 新概括的基礎(chǔ) 098
5.4.3 跨數(shù)據(jù)集評(píng)估 099
5.4.4 域泛化 100
5.4.5 消融研究 100
5.4.6 參數(shù)和計(jì)算復(fù)雜度 103
5.5 小結(jié) 104
第6章 InternVL:擴(kuò)展視覺(jué)基礎(chǔ)模型并對(duì)齊通用視覺(jué)語(yǔ)言任務(wù) 105~133
6.1 InternVL 擴(kuò)展視覺(jué)基礎(chǔ)模型并對(duì)齊摘要 105
6.2 擴(kuò)展視覺(jué)基礎(chǔ)模型并對(duì)齊問(wèn)題提出及相關(guān)工作 105
6.2.1 擴(kuò)展視覺(jué)基礎(chǔ)模型并對(duì)齊問(wèn)題提出 105
6.2.2 擴(kuò)展視覺(jué)基礎(chǔ)模型并對(duì)齊相關(guān)工作 107
6.3 擴(kuò)展視覺(jué)基礎(chǔ)模型并對(duì)齊擬議方法 108
6.3.1 總體架構(gòu) 108
6.3.2 模型設(shè)計(jì) 109
6.3.3 對(duì)齊策略 111
6.4 擴(kuò)展視覺(jué)基礎(chǔ)模型并對(duì)齊實(shí)驗(yàn) 113
6.4.1 實(shí)施細(xì)節(jié) 113
6.4.2 視覺(jué)感知基準(zhǔn) 113
6.4.3 視覺(jué)語(yǔ)言基準(zhǔn) 114
6.4.4 多模式對(duì)話基準(zhǔn) 118
6.4.5 消融研究 118
6.5 擴(kuò)展視覺(jué)基礎(chǔ)模型并對(duì)齊結(jié)論 119
6.6 擴(kuò)展視覺(jué)基礎(chǔ)模型并對(duì)齊補(bǔ)充材料 120
6.6.1 更多實(shí)驗(yàn) 120
6.6.2 更多消融研究 123
6.6.3 詳細(xì)訓(xùn)練設(shè)置 124
6.6.4 預(yù)訓(xùn)練數(shù)據(jù)準(zhǔn)備 127
6.6.5 SFT 的數(shù)據(jù)準(zhǔn)備 131
第7章 提高大型視覺(jué)語(yǔ)言模型組合性的迭代學(xué)習(xí) 134~146
7.1 迭代學(xué)習(xí)摘要 134
7.2 迭代學(xué)習(xí)問(wèn)題提出及相關(guān)工作 134
7.2.1 迭代學(xué)習(xí)問(wèn)題提出 134
7.2.2 迭代學(xué)習(xí)相關(guān)工作 136
7.3 迭代學(xué)習(xí)方法 137
7.3.1 將視覺(jué)語(yǔ)言對(duì)抗學(xué)習(xí)重構(gòu)為劉易斯信號(hào)博弈 137
7.3.2 用于規(guī)范表示的共享碼本 137
7.3.3 訓(xùn)練中的迭代學(xué)習(xí) 138
7.4 迭代學(xué)習(xí)實(shí)驗(yàn) 140
7.4.1 實(shí)驗(yàn)設(shè)置 140
7.4.2 迭代學(xué)習(xí)提高了組合性 140
7.4.3 迭代學(xué)習(xí)不會(huì)損害識(shí)別 141
7.4.4 迭代學(xué)習(xí)分析 142
7.4.5 消融研究 145
7.5 小結(jié) 146
第8章 MATCHER:使用通用特征匹配一次性分割任何內(nèi)容 147~158
8.1 特征匹配一次性分割摘要 147
8.2 特征匹配一次性分割問(wèn)題提出及相關(guān)工作 147
8.2.1 特征匹配一次性分割問(wèn)題提出 147
8.2.2 特征匹配一次性分割相關(guān)工作 149
8.3 特征匹配一次性分割方法 150
8.3.1 對(duì)應(yīng)矩陣提取 150
8.3.2 提示生成 151
8.3.3 可控掩模生成 152
8.4 特征匹配一次性分割實(shí)驗(yàn) 153
8.4.1 實(shí)驗(yàn)設(shè)置 153
8.4.2 少樣本點(diǎn)語(yǔ)義分割 153
8.4.3 單樣本任務(wù)物體部分分割 154
8.4.4 視頻對(duì)象分割 155
8.4.5 消融研究 156
8.4.6 定性結(jié)果 157
8.5 小結(jié) 158
第9章 視覺(jué)啟發(fā)語(yǔ)言模型 159~172
9.1 視覺(jué)啟發(fā)摘要 159
9.2 視覺(jué)啟發(fā)問(wèn)題提出及相關(guān)工作 159
9.2.1 視覺(jué)啟發(fā)問(wèn)題提出 159
9.2.2 視覺(jué)啟發(fā)相關(guān)工作 161
9.3 視覺(jué)啟發(fā)方法 162
9.3.1 準(zhǔn)備工作 162
9.3.2 特征金字塔視覺(jué)提取器 163
9.3.3 深度視覺(jué)條件提示 165
9.4 視覺(jué)啟發(fā)實(shí)驗(yàn)結(jié)果 166
9.4.1 實(shí)驗(yàn)細(xì)節(jié) 166
9.4.2 方法的數(shù)據(jù)效率 167
9.4.3 科學(xué)QA 168
9.4.4 圖像字幕 169
9.4.5 視覺(jué)問(wèn)答實(shí)驗(yàn)與問(wèn)答任務(wù) 170
9.4.6 消融研究 170
9.5 小結(jié) 172
第10章 VinVL:重新審視視覺(jué)語(yǔ)言模型中的視覺(jué)表示 173~185
10.1 審視視覺(jué)表示摘要 173
10.2 審視視覺(jué)表示問(wèn)題提出與相關(guān)工作 173
10.2.1 審視視覺(jué)表示問(wèn)題提出 173
10.2.2 提高視覺(jué)語(yǔ)言的視覺(jué)能力 175
10.2.3 VL 任務(wù)的高效區(qū)域特征提取器 177
10.3 OSCAR+ 預(yù)訓(xùn)練 177
10.3.1 預(yù)訓(xùn)練語(yǔ)料庫(kù) 178
10.3.2 預(yù)訓(xùn)練目標(biāo) 178
10.3.3 預(yù)訓(xùn)練模型 179
10.3.4 適應(yīng)VL 任務(wù) 179
10.4 審視視覺(jué)表示實(shí)驗(yàn)與分析 179
10.4.1 主要成果 179
10.4.2 消融分析 182
10.5 小結(jié) 185
第11章 視覺(jué)語(yǔ)境提示 186~200
11.1 視覺(jué)語(yǔ)境提示摘要 186
11.2 視覺(jué)語(yǔ)境提示問(wèn)題提出與相關(guān)工作 187
11.3 視覺(jué)語(yǔ)境提示方法 190
11.3.1 分段任務(wù)的統(tǒng)一公式 190
11.3.2 視覺(jué)提示公式 191
11.3.3 快速采樣 192
11.3.4 解碼器查詢公式 193
11.4 視覺(jué)語(yǔ)境提示實(shí)驗(yàn) 194
11.4.1 安裝程序 194
11.4.2 通用分割和檢測(cè) 194
11.4.3 視頻對(duì)象分割 196
11.4.4 消融方法 197
11.5 視覺(jué)語(yǔ)境提示相關(guān)工程 199
11.5.1 通過(guò)文本提示進(jìn)行視覺(jué)感知 199
11.5.2 通過(guò)圖像示例進(jìn)行視覺(jué)感知 199
11.5.3 通過(guò)視覺(jué)提示進(jìn)行視覺(jué)感知 200
11.6 小結(jié) 200
第12章 ViTamin:在視覺(jué)語(yǔ)言時(shí)代設(shè)計(jì)可擴(kuò)展的視覺(jué)模型 201~214
12.1 設(shè)計(jì)可擴(kuò)展摘要 201
12.2 設(shè)計(jì)可擴(kuò)展導(dǎo)言 201
12.3 設(shè)計(jì)可擴(kuò)展相關(guān)工作 204
12.4 設(shè)計(jì)可擴(kuò)展方法 204
12.4.1 CLIP 和訓(xùn)練協(xié)議 204
12.4.2 CLIP 環(huán)境中視覺(jué)模型的基準(zhǔn)測(cè)試 205
12.4.3 ViTamin 的設(shè)計(jì) 207
12.5 設(shè)計(jì)可擴(kuò)展實(shí)驗(yàn) 209
12.5.1 實(shí)施細(xì)節(jié) 209
12.5.2 主要成果 210
12.5.3 新的下游任務(wù)套件 213
12.6 小結(jié) 214
第13章 AnomalyCLIP:用于零樣本異常檢測(cè)的對(duì)象診斷快速學(xué)習(xí) 215~228
13.1 零樣本異常檢測(cè)診斷摘要 215
13.2 零樣本異常檢測(cè)診斷簡(jiǎn)介 215
13.3 零樣本異常檢測(cè)診斷的計(jì)算 217
13.4 AnomalyCLIP:對(duì)象- 語(yǔ)義提示學(xué)習(xí) 218
13.4.1 方法概述 218
13.4.2 對(duì)象- 語(yǔ)義文本提示設(shè)計(jì) 219
13.4.3 學(xué)習(xí)一般異常和正常提示 220
13.5 零樣本異常檢測(cè)診斷實(shí)驗(yàn) 222
13.5.1 實(shí)驗(yàn)設(shè)置 222
13.5.2 主要結(jié)果 222
13.5.3 消融研究 226
13.6 零樣本異常檢測(cè)診斷相關(guān)工作 228
13.7 小結(jié) 228
第14章 任何促使分布泛化的轉(zhuǎn)變 229~241
14.1 分布泛化摘要 229
14.2 分布泛化導(dǎo)言 229
14.3 分布泛化基礎(chǔ)知識(shí) 230
14.4 分布泛化任何移位提示 232
14.4.1 快速建模 232
14.4.2 訓(xùn)練和推理 233
14.5 分布泛化相關(guān)工作 235
14.6 分布泛化實(shí)驗(yàn) 236
14.6.1 各種分配變動(dòng)的結(jié)果 237
14.6.2 消融研究 240
14.7 小結(jié) 241
第15章 探索視覺(jué)語(yǔ)言模型的前沿:當(dāng)前方法和未來(lái)方向綜述 242~264
15.1 視覺(jué)語(yǔ)言模型前沿摘要 242
15.2 視覺(jué)語(yǔ)言模型前沿導(dǎo)言 242
15.3 視覺(jué)語(yǔ)言模型類(lèi)型 243
15.3.1 視覺(jué)語(yǔ)言理解 245
15.3.2 使用多模式輸入生成文本 246
15.3.3 多模態(tài)輸出與多模態(tài)輸入 262
15.4 視覺(jué)語(yǔ)言模型未來(lái)發(fā)展方向 263
15.5 小結(jié) 264
參考文獻(xiàn) 265~267