出版者的話
譯者序
前言
第1章 搜索引擎和信息檢索
1.1 什么是信息檢索
1.2 重要問題
1.3 搜索引擎
1.4 搜索工程師
參考文獻和深入閱讀
練習
第2章 搜索引擎的架構
2.1 什么是軟件架構
2.2 基本的構件
2.3 組件及其功能
2.3.1 文本采集
2.3.2 文本轉換
2.3.3 索引的創(chuàng)建
2.3.4 用戶交互
2.3.5 排序
2.3.6 評價
2.4 搜索引擎是如何工作的
參考文獻和深入閱讀
練習
第3章 信息采集和信息源
3.1 確定搜索的內容
3.2 網絡信息爬取
3.2.1 抓取網頁
3.2.2 網絡爬蟲
3.2.3 時新性
3.2.4 面向主題的信息采集
3.2.5 深層網絡
3.2.6 網站地圖
3.2.7 分布式信息采集
3.3 文檔和電子郵件的信息采集
3.4 文檔信息源
3.5 轉換問題
3.6 存儲文檔
3.6.1 使用數(shù)據(jù)庫系統(tǒng)
3.6.2 隨機存取
3.6.3 壓縮和大規(guī)模文件
3.6.4 更新
3.6.5 BigTable
3.7 重復檢測
3.8 去除噪聲
參考文獻和深入閱讀
練習
第4章 文本處理
4.1 從詞到詞項
4.2 文本統(tǒng)計
4.2.1 詞表增長
4.2.2 估計數(shù)據(jù)集和結果集大小
4.3 文檔解析
4.3.1 概述
4.3.2 詞素切分
4.3.3 停用詞去除
4.3.4 詞干提取
4.3.5 短語和n元串
4.4 文檔結構和標記
4.5 鏈接分析
4.5.1 錨文本
4.5.2 PageRank
4.5.3 鏈接質量
4.6 信息抽取
4.7 國際化
參考文獻和深入閱讀
練習
第5章 基于索引的相關排序
5.1 概述
5.2 抽象的相關排序模型
5.3 倒排索引
5.3.1 文檔
5.3.2 計數(shù)
5.3.3 位置
5.3.4 域與范圍
5.3.5 分數(shù)
5.3.6 排列
5.4 壓縮
5.4.1 熵與歧義
5.4.2 Delta編碼
5.4.3 位對齊碼
5.4.4 字節(jié)對齊碼
5.4.5 實際應用中的壓縮
5.4.6 展望
5.4.7 跳轉和跳轉指針
5.5 輔助結構
5.6 索引構建
5.6.1 簡單構建
5.6.2 融合
5.6.3 并行與分布式
5.6.4 更新
5.7 查詢處理
5.7.1 document-at-a-time評價
5.7.2 term-at-a-time評價
5.7.3 優(yōu)化技術
5.7.4 結構化查詢
5.7.5 分布式的評價
5.7.6 緩存
參考文獻和深入閱讀
練習
第6章 查詢與界面
6.1 信息需求與查詢
6.2 查詢轉換與提煉
6.2.1 停用詞去除和詞干提取
6.2.2 拼寫檢查和建議
6.2.3 查詢擴展
6.2.4 相關反饋
6.2.5 上下文和個性化
6.3 搜索結果顯示
6.3.1 搜索結果頁面與頁面摘要
6.3.2 廣告與搜索
6.3.3 結果聚類
6.4 跨語言搜索
參考文獻和深入閱讀
練習
第7章 檢索模型
7.1 檢索模型概述
7.1.1 布爾檢索
7.1.2 向量空間模型
7.2 概率模型
7.2.1 將信息檢索作為分類問題
7.2.2 BM25排序算法
7.3 基于排序的語言模型
7.3.1 查詢項似然排序
7.3.2 相關性模型和偽相關反饋
7.4 復雜查詢和證據(jù)整合
7.4.1 推理網絡模型
7.4.2 Galago查詢語言
7.5 網絡搜索
7.6 機器學習和信息檢索
7.6.1 排序學習
7.6.2 主題模型和詞匯不匹配
7.7 基于應用的模型
參考文獻和深入閱讀
練習
第8章 搜索引擎評價
8.1 搜索引擎評價的意義
8.2 評價語料
8.3 日志
8.4 效果評價
8.4.1 召回率和準確率
8.4.2 平均化和插值
8.4.3 關注排序靠前的文檔
8.4.4 使用用戶偏好
8.5 效率評價
8.6 訓練、測試和統(tǒng)計
8.6.1 顯著性檢驗
8.6.2 設置參數(shù)值
8.6.3 在線測試
8.7 基本要點
參考文獻和深入閱讀
練習
第9章 分類和聚類
9.1 分類
9.1.1 樸素貝葉斯
9.1.2 支持向量機
9.1.3 評價
9.1.4 分類器和特征選擇
9.1.5 垃圾、情感及在線廣告
9.2 聚類
9.2.1 層次聚類和K均值聚類
9.2.2 K近鄰聚類
9.2.3 評價
9.2.4 如何選擇K
9.2.5 聚類和搜索
參考文獻和深入閱讀
練習
第10章 社會化搜索
10.1 什么是社會化搜索
10.2 用戶標簽和人工索引
10.2.1 搜索標簽
10.2.2 推測缺失的標簽
10.2.3 瀏覽和標簽云
10.3 社區(qū)內搜索
10.3.1 什么是社區(qū)
10.3.2 社區(qū)發(fā)現(xiàn)
10.3.3 基于社區(qū)的問答
10.3.4 協(xié)同搜索
10.4 過濾和推薦
10.4.1 文檔過濾
10.4.2 協(xié)同過濾
10.5 P2P搜索和元搜索
10.5.1 分布式搜索
10.5.2 P2P網絡
參考文獻和深入閱讀
練習
第11章 超越詞袋
11.1 概述
11.2 基于特征的檢索模型
11.3 詞項依賴模型
11.4 再談結構化
11.4.1 XML檢索
11.4.2 實體搜索
11.5 問題越長,答案越好
11.6 詞語、圖片和音樂
11.7 搜索能否適用于所有情況
參考文獻和深入閱讀
練習
參考文獻