1 概述 1
1.1 圖像搜索與識別概述 1
1.2 圖像搜索與識別技術的發(fā)展和應用 3
1.3 深度學習與圖像搜索和識別 4
1.4 本書結構 6
2 深度卷積神經網絡 8
2.1 概述 8
2.1.1 深度學習背景 8
2.1.2 深度卷積神經網絡 9
2.2 CNN基礎操作 11
2.2.1 卷積操作 11
2.2.2 池化操作 12
2.2.3 全連接層 13
2.2.4 激活層 14
2.2.5 批歸一化層 14
2.2.6 小結 16
2.3 常見的CNN模型結構 16
2.3.1 網絡結構超參數(shù) 17
2.3.2 單分支網絡結構 19
2.3.3 多分支網絡結構 24
2.3.4 小結 38
2.4 常見目標損失函數(shù) 38
2.5 本章總結 40
2.6 參考資料 40
3 圖像分類 43
3.1 概述 43
3.2 單標記分類 44
3.2.1 常用數(shù)據集及評價指標 44
3.2.2 損失函數(shù) 45
3.2.3 提升分類精度的實用技巧 47
3.2.4 基于搜索的圖像分類 50
3.3 細粒度圖像分類 51
3.3.1 概述 51
3.3.2 基于部件對齊的細粒度分類方法 52
3.3.3 基于高階特征池化的細粒度分類方法 55
3.3.4 小結 56
3.4 多標記圖像分類 56
3.4.1 概述 56
3.4.2 baseline:一階方法 58
3.4.3 標記關系建模 59
3.4.4 小結 60
3.5 代碼實踐 61
3.6 本章總結 63
3.7 參考資料 63
4 目標檢測 66
4.1 概述 66
4.2 兩階段目標檢測算法 68
4.2.1 候選框生成 69
4.2.2 特征抽取 71
4.2.3 訓練策略 73
4.2.4 小結 76
4.3 單階段目標檢測算法 76
4.3.1 YOLO算法 76
4.3.2 SSD算法 78
4.3.3 RetinaNet算法 81
4.3.4 無錨點框檢測算法 83
4.3.5 小結 87
4.4 代碼實踐 88
4.5 本章總結 91
4.6 參考資料 92
5 圖像分割 95
5.1 概述 95
5.2 語義分割 96
5.2.1 概述 96
5.2.2 全卷積神經網絡 97
5.2.3 空洞卷積 99
5.2.4 U-Net結構 100
5.2.5 條件隨機場關系建模 101
5.2.6 Look Wider to See Better 103
5.2.7 Atrous Spatial Pyramid Pooling算法 104
5.2.8 Context Encoding for Semantic Segmentation 104
5.2.9 多卡同步批歸一化 107
5.2.10 小結 107
5.3 實例分割 108
5.3.1 概述 108
5.3.2 FCIS 109
5.3.3 Mask R-CNN 111
5.3.4 Hybrid Task Cascade框架 113
5.3.5 小結 115
5.4 代碼實踐 115
5.5 本章總結 120
5.6 參考資料 120
6 特征學習 124
6.1 概述 124
6.2 基于分類識別的特征訓練 126
6.2.1 Sigmoid函數(shù) 127
6.2.2 Softmax函數(shù) 128
6.2.3 Weighted Softmax函數(shù) 129
6.2.4 Large-Margin Softmax函數(shù) 130
6.2.5 ArcFace函數(shù) 132
6.2.6 小結 133
6.3 基于度量學習的特征訓練 134
6.3.1 Contrastive損失函數(shù) 135
6.3.2 Triplet損失函數(shù) 137
6.3.3 三元組損失函數(shù)在行人再識別中的應用 139
6.3.4 Quadruplet損失函數(shù) 140
6.3.5 Listwise Learning 141
6.3.6 組合損失函數(shù) 142
6.3.7 小結 142
6.4 代碼實踐 143
6.5 本章總結 143
6.6 參考資料 144
7 向量檢索 147
7.1 概述 147
7.2 局部敏感哈希算法 149
7.2.1 預處理 150
7.2.2 搜索 151
7.2.3 小結 152
7.3 乘積量化系列算法 152
7.3.1 PQ算法 153
7.3.2 IVFPQ算法 155
7.3.3 OPQ算法 156
7.3.4 小結 157
7.4 圖搜索算法 157
7.4.1 NSW算法 158
7.4.2 Kgraph算法 161
7.4.3 HNSW算法 163
7.4.4 圖搜索算法實驗對比 165
7.4.5 小結 165
7.5 代碼實踐 166
7.6 本章總結 167
7.7 參考資料 168
8 圖文理解 171
8.1 概述 171
8.2 圖文識別 172
8.2.1 概述 172
8.2.2 數(shù)據集和評測標準 174
8.2.3 特征融合方法 176
8.2.4 小結 182
8.3 圖文搜索 182
8.3.1 概述 182
8.3.2 數(shù)據集和評測標準 184
8.3.3 Dual Attention Networks 185
8.3.4 Bottom-Up Attention 187
8.3.5 圖文搜索的損失函數(shù) 189
8.3.6 小結 190
8.4 代碼實踐 191
8.5 本章總結 194
8.6 參考資料 194
9 阿里巴巴圖像搜索識別系統(tǒng) 197
9.1 概述 197
9.2 背景介紹 198
9.3 圖像搜索架構 200
9.3.1 類目預測模塊 200
9.3.2 目標檢測和特征聯(lián)合學習 201
9.3.3 圖像索引和檢索 205
9.4 實驗和結果分析 207
9.5 本章總結 210
9.6 參考資料 211