注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)挖掘/數(shù)據(jù)倉(cāng)庫(kù)向量數(shù)據(jù)庫(kù):大模型驅(qū)動(dòng)的智能檢索與應(yīng)用

向量數(shù)據(jù)庫(kù):大模型驅(qū)動(dòng)的智能檢索與應(yīng)用

向量數(shù)據(jù)庫(kù):大模型驅(qū)動(dòng)的智能檢索與應(yīng)用

定 價(jià):¥119.00

作 者: 梁楠
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787302685647 出版時(shí)間: 2025-04-01 包裝: 平裝-膠訂
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《向量數(shù)據(jù)庫(kù):大模型驅(qū)動(dòng)的智能檢索與應(yīng)用》系統(tǒng)地介紹向量數(shù)據(jù)庫(kù)的原理、技術(shù)實(shí)現(xiàn)及其應(yīng)用,重點(diǎn)分析傳統(tǒng)數(shù)據(jù)庫(kù)在處理高維向量數(shù)據(jù)時(shí)的局限性,并提供相應(yīng)的解決方案。《向量數(shù)據(jù)庫(kù):大模型驅(qū)動(dòng)的智能檢索與應(yīng)用》分為4個(gè)部分,共13章,內(nèi)容涵蓋從理論基礎(chǔ)到技術(shù)實(shí)踐的多個(gè)方面,詳細(xì)討論高維向量表示中的信息丟失、嵌入空間誤差和維度詛咒等問(wèn)題,結(jié)合FAISS和Milvus等主流開(kāi)源工具,深入剖析向量數(shù)據(jù)庫(kù)的索引機(jī)制、搜索算法和優(yōu)化策略。通過(guò)實(shí)際案例,展示向量數(shù)據(jù)庫(kù)在推薦系統(tǒng)、行為分析、智能診斷、語(yǔ)義搜索等領(lǐng)域的應(yīng)用,并特別強(qiáng)調(diào)企業(yè)級(jí)語(yǔ)義搜索系統(tǒng)的開(kāi)發(fā)與部署經(jīng)驗(yàn)。《向量數(shù)據(jù)庫(kù):大模型驅(qū)動(dòng)的智能檢索與應(yīng)用》不僅提供深度的理論指導(dǎo),還通過(guò)豐富的案例幫助讀者掌握如何構(gòu)建高效的向量搜索引擎,適合從事搜索引擎與推薦系統(tǒng)開(kāi)發(fā)的工程師,數(shù)據(jù)科學(xué)、人工智能及相關(guān)領(lǐng)域的從業(yè)者、研究人員,以及對(duì)向量數(shù)據(jù)庫(kù)與相似性搜索感興趣的讀者,也可作為培訓(xùn)機(jī)構(gòu)和高校相關(guān)課程的教學(xué)用書(shū)。

作者簡(jiǎn)介

  梁楠,博士,畢業(yè)于北京航空航天大學(xué),高級(jí)職稱(chēng),長(zhǎng)期從事模式識(shí)別、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)理論的研究與應(yīng)用,負(fù)責(zé)或參與科研項(xiàng)目多項(xiàng),專(zhuān)注于人工智能、大語(yǔ)言模型的應(yīng)用與開(kāi)發(fā),對(duì)深度學(xué)習(xí)、數(shù)據(jù)分析與預(yù)測(cè)等有獨(dú)到見(jiàn)解。

圖書(shū)目錄

第1部分  理論基礎(chǔ)
第1章  為何需要向量數(shù)據(jù)庫(kù) 3
1.1  大語(yǔ)言模型的缺陷 3
1.1.1  高維向量表示中的信息丟失問(wèn)題 3
1.1.2  嵌入空間對(duì)語(yǔ)義相似度的誤差影響 8
1.2  高維數(shù)據(jù)存儲(chǔ)與檢索的技術(shù)瓶頸 11
1.2.1  高維數(shù)據(jù)的特性與存儲(chǔ)難點(diǎn)分析 11
1.2.2  高維空間中的“維度詛咒”問(wèn)題簡(jiǎn)介 12
1.2.3  高效檢索:索引結(jié)構(gòu)與搜索算法簡(jiǎn)介 14
1.3  傳統(tǒng)數(shù)據(jù)庫(kù)與向量數(shù)據(jù)庫(kù)的對(duì)比分析 15
1.3.1  傳統(tǒng)數(shù)據(jù)庫(kù)的設(shè)計(jì)原理與局限性 15
1.3.2  高維向量檢索在傳統(tǒng)數(shù)據(jù)庫(kù)中的實(shí)現(xiàn)難點(diǎn) 16
1.3.3  傳統(tǒng)數(shù)據(jù)庫(kù)與向量數(shù)據(jù)庫(kù)的性能對(duì)比分析 17
1.4  向量數(shù)據(jù)庫(kù)的優(yōu)勢(shì) 19
1.5  本章小結(jié) 20
1.6  思考題 21
第2章  向量數(shù)據(jù)庫(kù)基礎(chǔ) 22
2.1  向量數(shù)據(jù)庫(kù)的核心概念與基本數(shù)據(jù)結(jié)構(gòu) 22
2.1.1  向量數(shù)據(jù)庫(kù)的定義與發(fā)展背景 22
2.1.2  向量數(shù)據(jù)庫(kù)常見(jiàn)的數(shù)據(jù)結(jié)構(gòu):倒排索引、圖索引與分區(qū)技術(shù) 23
2.1.3  向量數(shù)據(jù)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)邏輯對(duì)比 26
2.2  特征提取與向量表示:從數(shù)據(jù)到高維坐標(biāo)系 28
2.2.1  特征提取的基本方法 28
2.2.2  嵌入向量生成 31
2.2.3  數(shù)據(jù)預(yù)處理對(duì)向量質(zhì)量的影響 32
2.3  高維空間特性與“維度詛咒”問(wèn)題解析 34
2.3.1  高維空間中的稀疏性與數(shù)據(jù)分布特性 34
2.3.2  距離度量的退化:歐氏距離與余弦相似度 36
2.3.3  維度詛咒:降維與索引優(yōu)化 38
2.4  本章小結(jié) 39
2.5  思考題 40
第2部分  核心技術(shù)與算法原理
第3章  向量嵌入 43
3.1  靜態(tài)向量嵌入 43
3.1.1  傳統(tǒng)詞向量模型:Word2Vec與GloVe 43
3.1.2  靜態(tài)嵌入的局限性:語(yǔ)義多義性與上下文缺失 46
3.1.3  靜態(tài)向量嵌入在特定領(lǐng)域的應(yīng)用 48
3.2  動(dòng)態(tài)向量嵌入 50
3.2.1  動(dòng)態(tài)詞向量的生成:BERT與GPT的嵌入機(jī)制 50
3.2.2  動(dòng)態(tài)嵌入的優(yōu)勢(shì):上下文敏感性與語(yǔ)義一致性 53
3.2.3  動(dòng)態(tài)向量嵌入的實(shí)時(shí)生成與優(yōu)化 55
3.3  均勻分布與空間覆蓋率 57
3.3.1  高維向量分布分析 57
3.3.2  嵌入向量的均勻性測(cè)量方法 59
3.3.3  空間覆蓋率對(duì)檢索性能的影響 61
3.4  嵌入向量?jī)?yōu)化 63
3.4.1  主成分分析與奇異值分解的降維應(yīng)用 63
3.4.2  t-SNE與UMAP降維技術(shù) 65
3.4.3  降維對(duì)嵌入語(yǔ)義保留與性能的權(quán)衡分析 67
3.5  本章小結(jié) 70
3.6  思考題 70
第4章  向量相似性搜索初步 72
4.1  基于暴力搜索的向量相似性檢索 72
4.1.1  暴力搜索的原理與實(shí)現(xiàn) 72
4.1.2  暴力搜索優(yōu)化 74
4.2  歐氏距離與余弦相似度 77
4.2.1  距離與相似度的數(shù)學(xué)定義 77
4.2.2  不同相似度指標(biāo)的適用場(chǎng)景分析 79
4.3  向量搜索的精度與召回率 81
4.3.1  精度、召回率與F1評(píng)分的計(jì)算方法 81
4.3.2  向量搜索性能提升方案 84
4.4  本章小結(jié) 87
4.5  思考題 87
第5章  分層定位與局部敏感哈希 89
5.1  HNSW的核心原理:圖結(jié)構(gòu)與分層搜索路徑優(yōu)化 89
5.1.1  基于圖結(jié)構(gòu)的近鄰搜索模型 89
5.1.2  分層搜索路徑的構(gòu)建與更新 93
5.1.3  HNSW索引時(shí)間復(fù)雜度分析 96
5.2  局部敏感哈希的設(shè)計(jì)與性能調(diào)優(yōu) 99
5.2.1  哈希函數(shù)的設(shè)計(jì)與向量分區(qū)原理 100
5.2.2  LSH桶化與參數(shù)調(diào)優(yōu) 103
5.2.3  LSH的內(nèi)存占用與計(jì)算性能分析 106
5.3  HNSW與LSH的具體應(yīng)用 108
5.3.1  HNSW在推薦系統(tǒng)中的應(yīng)用 109
5.3.2  LSH在文本和圖像檢索中的應(yīng)用 114
5.3.3  HNSW與LSH的組合應(yīng)用:多模態(tài)檢索實(shí)例 117
5.4  本章小結(jié) 121
5.5  思考題 121
第6章  LSH搜索優(yōu)化 123
6.1  BallTree算法的工作原理 123
6.1.1  BallTree的節(jié)點(diǎn)分割與索引構(gòu)建 123
6.1.2  BallTree查詢(xún)過(guò)程與復(fù)雜度分析 126
6.2  Annoy搜索算法 130
6.2.1  Annoy的索引結(jié)構(gòu)設(shè)計(jì)與分區(qū)原理 130
6.2.2  Annoy在大規(guī)模向量檢索中的性能優(yōu)化 131
6.3  隨機(jī)投影在LSH中的應(yīng)用 136
6.3.1  隨機(jī)投影的數(shù)學(xué)基礎(chǔ) 136
6.3.2  隨機(jī)投影在高維數(shù)據(jù)降維與檢索中的實(shí)際應(yīng)用 138
6.3.3  隨機(jī)投影在用戶(hù)畫(huà)像降維與檢索中的應(yīng)用 140
6.4  本章小結(jié) 143
6.5  思考題 143
第3部分  工具與系統(tǒng)構(gòu)建
第7章  相似性測(cè)量初步 147
7.1  從曼哈頓距離到切比雪夫距離 147
7.1.1  曼哈頓距離的幾何意義與公式推導(dǎo) 147
7.1.2  切比雪夫距離在棋盤(pán)模型中的應(yīng)用 149
7.1.3  不同距離度量的適用場(chǎng)景分析 151
7.2  相似性測(cè)量的時(shí)間復(fù)雜度與優(yōu)化 153
7.2.1  向量間距離計(jì)算的時(shí)間復(fù)雜度分析 153
7.2.2  減少距離計(jì)算的分區(qū)優(yōu)化技術(shù) 155
7.2.3  并行化與硬件加速在相似性測(cè)量中的應(yīng)用 157
7.2.4  廣告分發(fā)系統(tǒng)案例:基于相似性測(cè)量的高效推薦 159
7.3  本章小結(jié) 163
7.4  思考題 163
第8章  測(cè)量進(jìn)階:點(diǎn)積相似度與杰卡德相似度 165
8.1  點(diǎn)積相似度測(cè)量 165
8.1.1  點(diǎn)積相似度測(cè)量實(shí)現(xiàn) 165
8.1.2  點(diǎn)積相似度在推薦系統(tǒng)中的應(yīng)用案例 167
8.1.3  點(diǎn)積相似度在醫(yī)療領(lǐng)域的應(yīng)用案例:患者治療方案匹配 170
8.2  杰卡德相似度在稀疏向量中的應(yīng)用 173
8.2.1  稀疏向量的構(gòu)造與稀疏性分析 173
8.2.2  杰卡德相似度案例分析 175
8.2.3  基于杰卡德相似度的犯罪嫌疑人關(guān)系網(wǎng)絡(luò)分析 177
8.3  跨模態(tài)醫(yī)療數(shù)據(jù)相似性分析與智能診斷系統(tǒng) 180
8.4  本章小結(jié) 187
8.5  思考題 187
第9章  元數(shù)據(jù)過(guò)濾與犯罪行為分析系統(tǒng) 189
9.1  元數(shù)據(jù)與向量檢索 189
9.1.1  元數(shù)據(jù)在混合檢索中的作用 189
9.1.2  元數(shù)據(jù)標(biāo)簽的定義與標(biāo)準(zhǔn)化 191
9.1.3  智能多條件推薦系統(tǒng) 192
9.2  多條件檢索實(shí)現(xiàn) 195
9.2.1  多維度條件組合檢索 195
9.2.2  基于元數(shù)據(jù)優(yōu)先級(jí)的排序算法 197
9.2.3  基于元數(shù)據(jù)的酒店智能化推薦案例分析 199
9.3  元數(shù)據(jù)索引的構(gòu)建與優(yōu)化 204
9.3.1  元數(shù)據(jù)索引構(gòu)建 204
9.3.2  動(dòng)態(tài)元數(shù)據(jù)的更新與重建 206
9.4  實(shí)時(shí)檢索與元數(shù)據(jù)緩存 208
9.4.1  基于緩存的高性能檢索架構(gòu) 209
9.4.2  元數(shù)據(jù)緩存失效與一致性管理 211
9.5  基于元數(shù)據(jù)的犯罪行為分析與實(shí)時(shí)預(yù)警系統(tǒng) 213
9.5.1  模塊開(kāi)發(fā)劃分 213
9.5.2  逐模塊開(kāi)發(fā) 214
9.5.3  犯罪分析與預(yù)警系統(tǒng)綜合測(cè)試 223
9.6  本章小結(jié) 227
9.7  思考題 227
第10章  FAISS向量數(shù)據(jù)庫(kù)開(kāi)發(fā)基礎(chǔ) 229
10.1  FAISS庫(kù)的安裝與快速上手 229
10.1.1  FAISS初步開(kāi)發(fā)以及CPU、GPU的版本差異 229
10.1.2  加載數(shù)據(jù)與基本查詢(xún)示例 232
10.2  基于FAISS的索引構(gòu)建與參數(shù)調(diào)整 234
10.2.1  不同索引類(lèi)型:Flat、IVF與HNSW 234
10.2.2  參數(shù)調(diào)整對(duì)搜索精度與速度的影響 236
10.3  大規(guī)模向量搜索的分片與分布式實(shí)現(xiàn) 238
10.3.1  數(shù)據(jù)分片與動(dòng)態(tài)分片 239
10.3.2  基于分布式框架的FAISS部署 241
10.4  FAISS中的內(nèi)存優(yōu)化與GPU加速 243
10.4.1  壓縮索引與量化技術(shù) 244
10.4.2  多GPU的并行處理 245
10.5  本章小結(jié) 247
10.6  思考題 247
第11章  Milvus向量數(shù)據(jù)庫(kù)開(kāi)發(fā)基礎(chǔ) 249
11.1  Milvus的架構(gòu)設(shè)計(jì)與功能模塊解析 249
11.1.1  Milvus的初步使用及集群架構(gòu)與組件通信 249
11.1.2  數(shù)據(jù)分區(qū)與高可用設(shè)計(jì) 253
11.2  使用Milvus進(jìn)行向量插入、檢索與過(guò)濾 255
11.2.1  向量數(shù)據(jù)預(yù)處理與批量插入 255
11.2.2  復(fù)雜查詢(xún)條件實(shí)現(xiàn) 257
11.3  Milvus的索引類(lèi)型與性能調(diào)優(yōu) 259
11.3.1  索引類(lèi)型的選擇與適用場(chǎng)景分析 259
11.3.2  并行優(yōu)化與索引更新 261
11.4  Milvus在企業(yè)級(jí)應(yīng)用中的部署與擴(kuò)展方案 264
11.4.1  基于容器化的高可用部署 264
11.4.2  動(dòng)態(tài)擴(kuò)展與監(jiān)控集成方案 267
11.5  本章小結(jié) 269
11.6  思考題 269
第4部分  實(shí)戰(zhàn)與案例分析
第12章  基于FAISS的自動(dòng)駕駛泊車(chē)數(shù)據(jù)檢索系統(tǒng) 273
12.1  項(xiàng)目背景介紹 273
12.1.1  系統(tǒng)架構(gòu) 273
12.1.2  應(yīng)用流程 274
12.1.3  案例特色 275
12.2  模塊劃分 275
12.3  模塊化開(kāi)發(fā) 276
12.3.1  數(shù)據(jù)預(yù)處理模塊 276
12.3.2  向量生成模塊 278
12.3.3  索引構(gòu)建與存儲(chǔ)模塊 281
12.3.4  實(shí)時(shí)檢索模塊 282
12.3.5  動(dòng)態(tài)更新模塊 284
12.3.6  系統(tǒng)監(jiān)控與優(yōu)化模塊 286
12.4  系統(tǒng)綜合測(cè)試 288
12.5  API接口開(kāi)發(fā)與云端部署 291
12.5.1  API接口開(kāi)發(fā) 291
12.5.2  云端部署完整系統(tǒng) 294
12.6  本章小結(jié) 298
12.7  思考題 298
第13章  基于語(yǔ)義搜索的向量數(shù)據(jù)庫(kù)開(kāi)發(fā)實(shí)戰(zhàn) 301
13.1  語(yǔ)義嵌入生成與優(yōu)化 301
13.1.1  使用預(yù)訓(xùn)練模型生成語(yǔ)義向量嵌入 301
13.1.2  動(dòng)態(tài)分詞與文本預(yù)處理 303
13.1.3  領(lǐng)域微調(diào)技術(shù) 305
13.2  構(gòu)建向量索引與語(yǔ)義檢索框架 308
13.2.1  選擇合適的向量索引類(lèi)型 308
13.2.2  構(gòu)建Milvus向量索引 310
13.2.3  語(yǔ)義向量檢索與關(guān)鍵詞過(guò)濾 313
13.2.4  結(jié)合元數(shù)據(jù)與篩選條件實(shí)現(xiàn)多維度語(yǔ)義搜索 315
13.3  語(yǔ)義搜索系統(tǒng)的性能調(diào)優(yōu) 318
13.3.1  GPU加速優(yōu)化檢索 319
13.3.2  批量查詢(xún)與異步IO技術(shù) 320
13.3.3  實(shí)現(xiàn)基于分布式架構(gòu)的語(yǔ)義搜索系統(tǒng) 322
13.4  企業(yè)級(jí)語(yǔ)義搜索應(yīng)用集成與部署 325
13.4.1  構(gòu)建語(yǔ)義搜索RESTful接口 325
13.4.2  使用Docker與Kubernetes實(shí)現(xiàn)語(yǔ)義搜索系統(tǒng)的容器化 327
13.4.3  日志監(jiān)控與錯(cuò)誤診斷模塊 329
13.4.4  基于語(yǔ)義搜索的文檔檢索系統(tǒng)集成與部署 332
13.4.5  大型圖書(shū)館圖書(shū)檢索的測(cè)試案例 335
13.5  本章小結(jié) 337
13.6  思考題 337

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.stefanvlieger.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)