目錄
前言
第1章 緒論 1
1.1 研究背景及意義 1
1.2 抄襲檢測的研究現狀及發(fā)展趨勢 2
1.2.1 抄襲檢測任務簡介 2
1.2.2 抄襲語料構建 3
1.2.3 源檢索的查詢生成 5
1.2.4 源檢索的檢索結果過濾 6
1.2.5 釋義抄襲文本匹配 7
1.2.6 抄襲片段對齊 10
1.3 研究的主要目標、內容和結構 12
參考文獻 14
第2章 抄襲檢測的概念、類型和框架 20
2.1 引言 20
2.2 文本復用的概念和方式 20
2.2.1 文本復用的概念 20
2.2.2 文本復用的方式 21
2.3 抄襲的概念和歷史 22
2.3.1 抄襲的概念 22
2.3.2 抄襲的歷史 23
2.4 抄襲的類型 24
2.5 抄襲檢測的框架 26
2.5.1 外部抄襲檢測的一般檢索過程 27
2.5.2 抄襲源檢索的過程框架 27
2.5.3 文本對齊的過程框架 29
2.5.4 內部抄襲檢測的過程框架 29
2.5.5 跨語言抄襲檢測的過程框架 30
2.6 本章小結 32
參考文獻 32
第3章 抄襲檢測的方法綜述 35
3.1 引言 35
3.2 基于指紋的抄襲檢測方法 35
3.2.1 指紋的生成 36
3.2.2 指紋的匹配 40
3.3 基于詞袋模型的抄襲檢測方法 41
3.4 基于TFIDF模型的抄襲檢測方法 46
3.5 基于n-gram模型的抄襲檢測方法 48
3.6 基于句法的抄襲檢測方法 52
3.7 基于語言連續(xù)表示的抄襲檢測方法 53
3.7.1 基于跨語言明確語義分析的跨語言抄襲檢測方法 53
3.7.2 基于跨語言潛在語義分析的跨語言抄襲檢測方法 54
3.8 本章小結 55
參考文獻 55
第4章 基于自然標注的抄襲語料構建方法 60
4.1 引言 60
4.2 現有抄襲語料構建方法和問題分析 60
4.2.1 Webis系列抄襲檢測語料庫 61
4.2.2 CPSA語料庫 68
4.2.3 METER語料庫 69
4.2.4 其他語料 71
4.2.5 抄襲檢測語料庫構建總結 77
4.3 基于自然標注的抄襲語料構建 80
4.3.1 自然標注的基本思想 80
4.3.2 基于自然標注構建抄襲語料的可行性 80
4.3.3 抄襲語料構建算法 82
4.3.4 抄襲文本對齊的評價標準 87
4.4 語料質量分析 89
4.4.1 數據的收集和參數的設置 90
4.4.2 數據集的統(tǒng)計信息 90
4.4.3 數據集質量的評價 91
4.5 本章小結 93
參考文獻 93
第5章 基于排序學習的源檢索查詢生成模型 98
5.1 引言 98
5.2 查詢對源檢索性能影響分析 99
5.3 基于排序學習的源檢索查詢生成框架 101
5.4 構建訓練數據 102
5.5 構建查詢生成模型 104
5.5.1 排序備選查詢的學習算法 105
5.5.2 排序模型的特征 107
5.6 實驗與分析 109
5.6.1 數據集 109
5.6.2 評價指標 109
5.6.3 實驗設置 111
5.6.4 實驗結果與分析 113
5.6.5 實驗結果的進一步討論 118
5.7 本章小結 119
參考文獻 120
第6章 關注檢索結果聚合性的源檢索過濾模型 122
6.1 引言 122
6.2 源檢索過濾問題分析 123
6.2.1 源檢索中分類模型和排序模型的判別能力分析 123
6.2.2 源檢索結果的聚合性分析 124
6.3 基于聚合性的源檢索過濾 126
6.3.1 源檢索過濾的排序學習框架 126
6.3.2 基于邏輯回歸的排序學習算法 127
6.3.3 關注檢索結果聚合性的源檢索過濾模型 129
6.4 實驗與分析 131
6.4.1 數據集 131
6.4.2 評價指標 131
6.4.3 實驗設置 132
6.4.4 實驗結果與分析 136
6.5 本章小結 141
參考文獻 142
第7章 基于排序學習的抄襲文本匹配模型 143
7.1 引言 143
7.2 抄襲文本匹配的問題分析 144
7.3 基于排序學習的抄襲檢測文本匹配 145
7.3.1 抄襲文本匹配模型 145
7.3.2 抄襲文本匹配的排序學習算法 148
7.3.3 基于METEOR評價指標的特征 149
7.4 實驗與分析 150
7.4.1 數據集 151
7.4.2 評價指標 151
7.4.3 實驗設置 152
7.4.4 實驗結果與分析 153
7.5 本章小結 163
參考文獻 164
第8章 句法和語義交互的釋義文本深度匹配模型 166
8.1 引言 166
8.2 釋義文本匹配分析 167
8.3 句法和語義交互的釋義文本深度匹配 171
8.3.1 釋義文本深度匹配模型概述 171
8.3.2 基于張量交互句法和語義的句子表達 172
8.3.3 基于卷積神經網的釋義句匹配 173
8.3.4 融合詞匯特征的釋義文本深度匹配模型 176
8.4 實驗與分析 177
8.4.1 數據集 177
8.4.2 評價指標 180
8.4.3 實驗設置 181
8.4.4 實驗結果與分析 184
8.5 本章小結 188
參考文獻 188
第9章 基于序列標注的文本對齊模型 192
9.1 引言 192
9.2 抄襲文本對齊問題分析 193
9.3 基于序列標注的文本對齊 196
9.3.1 文本對齊的機器學習框架 196
9.3.2 模型選擇 197
9.3.3 基于條件隨機場的抄襲文本對齊模型 199
9.4 實驗與分析 203
9.4.1 數據集 203
9.4.2 實驗設置 204
9.4.3 實驗結果與分析 205
9.5 本章小結 209
參考文獻 209
結論 212
彩圖