注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)計(jì)算機(jī)科學(xué)理論與基礎(chǔ)知識視覺問答:理論與實(shí)踐

視覺問答:理論與實(shí)踐

視覺問答:理論與實(shí)踐

定 價(jià):¥118.00

作 者: Qi Wu(吳琦),Peng Wang(王鵬 ),Xin Wang(王鑫),Xiaodong He(何曉冬),Wenwu Zhu(朱文武)
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787121475313 出版時(shí)間: 2024-07-01 包裝: 平裝-膠訂
開本: 32開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  視覺問答任務(wù)要求機(jī)器根據(jù)指定的視覺圖像內(nèi)容, 對單輪或多輪的自然語言問題進(jìn)行作答。其本質(zhì)上是一個(gè)多學(xué)科的研究問題,涉及計(jì)算機(jī)視覺、自然語言處理、知識表示與推理等。本書共5 部分,第1 部分介紹在計(jì)算機(jī)視覺和自然語言處理領(lǐng)域廣泛使用的基本方法和技術(shù),包括卷積神經(jīng)網(wǎng)絡(luò)、序列建模和注意力機(jī)制等。本書將視覺問答分為圖像和視頻方法。第2 部分將圖像視覺問答進(jìn)一步分為五類,即聯(lián)合嵌入、注意力機(jī)制、記憶網(wǎng)絡(luò)、組合推理和圖神經(jīng)網(wǎng)絡(luò)。此外,概述基于圖像的其他視覺問答任務(wù),例如基于知識的視覺問答、視覺問答的視覺和語言預(yù)訓(xùn)練。第3 部分討論基于視頻的視覺問答及其相關(guān)模型。第4 部分討論與視覺問答相關(guān)的高級任務(wù),包括具身視覺問答、醫(yī)學(xué)視覺問答、基于文本的視覺問答、視覺問題生成、視覺對話和指代表達(dá)理解,它們是視覺問答任務(wù)的擴(kuò)展。第5 部分對該領(lǐng)域進(jìn)行總結(jié)和展望,討論視覺問答領(lǐng)域的未來研究方向。

作者簡介

  吳琦,澳大利亞阿德萊德大學(xué)高級講師(副教授),博士生導(dǎo)師,澳大利亞青年學(xué)者基金獲得者 (Australian Research Council DECRA Fellow),澳大利亞機(jī)器人視覺研究中心(ACRV)vision-language課題組組長,澳大利亞科學(xué)院羅素獎獲得者。吳琦博士于2015年在英國巴斯大學(xué)獲得博士學(xué)位,致力于計(jì)算機(jī)視覺領(lǐng)域研究,尤其關(guān)注于計(jì)算機(jī)視覺-自然語言相關(guān)領(lǐng)域的研究。吳琦博士在CVPR,ICCV,ECCV, NeurIPS, TPAMI等多個(gè)國際會議和期刊發(fā)表論文七十余篇,吳琦博士亦擔(dān)任TPAMI,IJCV,TIP,CVPR,NIPS,ACL等學(xué)術(shù)期刊會議審稿人以及ICCV2021 領(lǐng)域主席。

圖書目錄

目錄
第1 章簡介..................................................................1
1.1 視覺問答的動機(jī)........................................................1
1.2 人工智能任務(wù)中的視覺問答...........................................4
1.3 視覺問答類別..........................................................5
1.3.1 數(shù)據(jù)分類驅(qū)動......................................................6
1.3.2 任務(wù)分類驅(qū)動......................................................7
1.3.3 其他..............................................................7
參考文獻(xiàn).....................................................................8
第1 部分基礎(chǔ)理論
第2 章深度學(xué)習(xí)基礎(chǔ)......................................................15
2.1 神經(jīng)網(wǎng)絡(luò)...............................................................15
2.2 卷積神經(jīng)網(wǎng)絡(luò)..........................................................17
2.3 循環(huán)神經(jīng)網(wǎng)絡(luò)及變體...................................................18
2.4 編碼器-解碼器結(jié)構(gòu)....................................................20
2.5 注意力機(jī)制.............................................................20
2.6 記憶網(wǎng)絡(luò)...............................................................21
2.7 Transformer 網(wǎng)絡(luò)和BERT............................................22
2.8 圖神經(jīng)網(wǎng)絡(luò).............................................................24
參考文獻(xiàn).....................................................................25
第3 章問答基礎(chǔ)知識......................................................27
3.1 基于規(guī)則的方法........................................................27
3.2 基于信息檢索的方法...................................................28
3.3 問答的神經(jīng)語義解析...................................................29
3.4 問答知識庫.............................................................29
參考文獻(xiàn).....................................................................30
第2 部分圖像視覺問答
第4 章經(jīng)典視覺問答......................................................35
4.1 簡介....................................................................35
4.2 數(shù)據(jù)集..................................................................36
4.3 生成與分類:兩種回答策略...........................................40
4.4 聯(lián)合嵌入...............................................................40
4.4.1 序列到序列編碼器-解碼器模型......................................40
4.4.2 雙線性編碼模型....................................................43
4.5 注意力機(jī)制.............................................................45
4.5.1 堆疊注意力網(wǎng)絡(luò)....................................................45
4.5.2 分層問題-圖像協(xié)同注意力..........................................47
4.5.3 自底向上和自頂向下的注意力.......................................49
4.6 記憶網(wǎng)絡(luò)...............................................................51
4.6.1 改進(jìn)的動態(tài)記憶網(wǎng)絡(luò)...............................................51
4.6.2 記憶增強(qiáng)網(wǎng)絡(luò)......................................................52
4.7 組合推理...............................................................54
4.7.1 神經(jīng)模塊網(wǎng)絡(luò)......................................................55
4.7.2 動態(tài)神經(jīng)模塊網(wǎng)絡(luò)..................................................56
4.8 圖神經(jīng)網(wǎng)絡(luò).............................................................58
4.8.1 圖卷積網(wǎng)絡(luò)........................................................58
4.8.2 圖注意力網(wǎng)絡(luò)......................................................60
4.8.3 視覺問答圖卷積網(wǎng)絡(luò)...............................................62
4.8.4 視覺問答圖注意力網(wǎng)絡(luò).............................................63
參考文獻(xiàn).....................................................................66
第5 章基于知識的視覺問答..............................................71
5.1 簡介....................................................................71
5.2 數(shù)據(jù)集..................................................................72
5.3 知識庫..................................................................74
5.3.1 數(shù)據(jù)庫百科........................................................74
5.3.2 ConceptNet........................................................74
5.4 知識嵌入...............................................................75
5.4.1 文字對矢量表示法..................................................75
5.4.2 基于BERT 的表征.................................................78
5.5 問題-查詢轉(zhuǎn)換.........................................................79
5.5.1 基于查詢映射的方法...............................................79
5.5.2 基于學(xué)習(xí)的方法....................................................81
5.6 查詢知識庫的方法.....................................................82
5.6.1 RDF ..............................................................82
5.6.2 記憶網(wǎng)查詢........................................................83
參考文獻(xiàn).....................................................................84
第6 章視覺問答的視覺和語言預(yù)訓(xùn)練..................................88
6.1 簡介....................................................................88
6.2 常規(guī)預(yù)訓(xùn)練模型........................................................89
6.2.1 ELMo .............................................................89
6.2.2 GPT ..............................................................89
6.2.3 MLM .............................................................90
6.3 視覺和語言預(yù)訓(xùn)練的常用方法.........................................93
6.3.1 單流方法..........................................................94
6.3.2 雙流方法..........................................................96
6.4 視覺問答及其下游任務(wù)微調(diào)...........................................98
參考文獻(xiàn).....................................................................101
第3 部分視頻視覺問答
第7 章視頻表征學(xué)習(xí).....................................................·105
7.1 人工標(biāo)注的局部視頻描述符...........................................105
7.2 數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)的視頻特征表示.................................107
7.3 視頻表征的自監(jiān)督學(xué)習(xí)................................................109
參考文獻(xiàn).....................................................................110
第8 章視頻問答...........................................................·112
8.1 簡介....................................................................112
8.2 數(shù)據(jù)集..................................................................112
8.2.1 多步推理數(shù)據(jù)集....................................................113
8.2.2 單步推理數(shù)據(jù)集....................................................116
8.3 使用編碼器-解碼器結(jié)構(gòu)的傳統(tǒng)視頻時(shí)空推理.........................118
參考文獻(xiàn).....................................................................123
第9 章視頻問答的高級模型.............................................·126
9.1 時(shí)空特征注意力........................................................126
9.2 記憶網(wǎng)絡(luò)...............................................................129
9.3 時(shí)空圖神經(jīng)網(wǎng)絡(luò)........................................................130
參考文獻(xiàn).....................................................................132
第4 部分視覺問答高級任務(wù)
第10 章具身視覺問答...................................................·137
10.1 簡介...................................................................137
10.2 模擬器、數(shù)據(jù)集和評估標(biāo)準(zhǔn)..........................................138
10.2.1 模擬器...........................................................138
10.2.2 數(shù)據(jù)集...........................................................140
10.2.3 評估指標(biāo).........................................................141
10.3 語言引導(dǎo)的視覺導(dǎo)航................................

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.stefanvlieger.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號