注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡軟件工程及軟件方法學網絡爬蟲全解析:技術、原理與實踐

網絡爬蟲全解析:技術、原理與實踐

網絡爬蟲全解析:技術、原理與實踐

定 價:¥79.00

作 者: 羅剛 著
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 計算機?網絡 軟件工程及軟件方法學

ISBN: 9787121310713 出版時間: 2017-03-01 包裝: 平裝
開本: 16開 頁數: 444 字數:  

內容簡介

  本書介紹了如何開發(fā)網絡爬蟲。內容主要包括開發(fā)網絡爬蟲所需要的Java語法基礎和網絡爬蟲的工作原理,如何使用開源組件HttpClient和爬蟲框架Crawler4j抓取網頁信息,以及針對抓取到的文本進行有效信息的提取。為了擴展抓取能力,本書介紹了實現(xiàn)分布式網絡爬蟲的關鍵技術。另外,本書介紹了從圖像和語音等多媒體格式文件中提取文本信息,以及如何使用大數據技術存儲抓取到的信息。最后,以實戰(zhàn)為例,介紹了如何抓取微信和微博,以及在電商、醫(yī)藥、金融等領域的案例應用。其中,電商領域的應用介紹了使用網絡爬蟲抓取商品信息入庫到網上商店的數據庫表。醫(yī)藥領域的案例介紹了抓取PubMed醫(yī)藥論文庫。金融領域的案例介紹了抓取股票信息,以及從年報PDF文檔中提取表格等。本書適用于對開發(fā)信息采集軟件感興趣的自學者。也可以供有Java或程序設計基礎的開發(fā)人員參考。

作者簡介

  羅剛,獵兔搜索創(chuàng)始人,帶領獵兔搜索技術開發(fā)團隊先后開發(fā)出獵兔中文分詞系統(tǒng)、獵兔信息提取系統(tǒng)、獵兔智能垂直搜索系統(tǒng)以及網絡信息監(jiān)測系統(tǒng)等,實現(xiàn)互聯(lián)網信息的采集、過濾、搜索和實時監(jiān)測。曾編寫出版《自己動手寫搜索引擎》、《自己動手寫網絡爬蟲》、《使用C#開發(fā)搜索引擎》,獲得廣泛好評。在北京和上海等地均有獵兔培訓的學員。

圖書目錄

第1章 技術基礎\t1
1.1 第一個程序\t1
1.2 準備開發(fā)環(huán)境\t2
1.2.1 JDK\t2
1.2.2 Eclipse\t3
1.3 類和對象\t4
1.4 常量\t5
1.5 命名規(guī)范\t6
1.6 基本語法\t6
1.7 條件判斷\t7
1.8 循環(huán)\t8
1.9 數組\t9
1.10 位運算\t11
1.11 枚舉類型\t13
1.12 比較器\t14
1.13 方法\t14
1.14 集合類\t15
1.14.1 動態(tài)數組\t15
1.14.2 散列表\t15
1.15 文件\t19
1.15.1 文本文件\t19
1.15.2 二進制文件\t23
1.16 多線程\t27
1.16.1 基本的多線程\t28
1.16.2 線程池\t30
1.17 折半查找\t31
1.18 處理圖片\t34
1.19 本章小結\t35
第2章 網絡爬蟲入門\t36
2.1 獲取信息\t36
2.1.1 提取鏈接\t37
2.1.2 采集新聞\t37
2.2 各種網絡爬蟲\t38
2.2.1 信息采集器\t40
2.2.2 廣度優(yōu)先遍歷\t41
2.2.3 分布式爬蟲\t42
2.3 爬蟲相關協(xié)議\t43
2.3.1 網站地圖\t44
2.3.2 Robots協(xié)議\t45
2.4 爬蟲架構\t48
2.4.1 基本架構\t48
2.4.2 分布式爬蟲架構\t51
2.4.3 垂直爬蟲架構\t54
2.5 自己寫網絡爬蟲\t55
2.6 URL地址查新\t57
2.6.1 嵌入式數據庫\t58
2.6.2 布隆過濾器\t60
2.6.3 實現(xiàn)布隆過濾器\t61
2.7 部署爬蟲\t63
2.7.1 部署到Windows\t64
2.7.2 部署到Linux\t64
2.8 本章小結\t65
第3章 定向采集\t69
3.1 下載網頁的基本方法\t69
3.1.1 網卡\t70
3.1.2 下載網頁\t70
3.2 HTTP基礎\t75
3.2.1 協(xié)議\t75
3.2.2 URI\t77
3.2.3 DNS\t84
3.3 使用HttpClient下載網頁\t84
3.3.1 HttpCore\t94
3.3.2 狀態(tài)碼\t98
3.3.3 創(chuàng)建\t99
3.3.4 模擬瀏覽器\t99
3.3.5 重試\t100
3.3.6 抓取壓縮的網頁\t102
3.3.7 HttpContext\t104
3.3.8 下載中文網站\t105
3.3.9 抓取需要登錄的網頁\t106
3.3.10 代理\t111
3.3.11 DNS緩存\t112
3.3.12 并行下載\t113
3.4 下載網絡資源\t115
3.4.1 重定向\t115
3.4.2 解決套接字連接限制\t118
3.4.3 下載圖片\t119
3.4.4 抓取視頻\t122
3.4.5 抓取FTP\t122
3.4.6 網頁更新\t122
3.4.7 抓取限制應對方法\t126
3.4.8 URL地址提取\t131
3.4.9 解析URL地址\t134
3.4.10 歸一化\t135
3.4.11 增量采集\t135
3.4.12 iframe\t136
3.4.13 抓取JavaScript動態(tài)頁面\t137
3.4.14 抓取即時信息\t141
3.4.15 抓取暗網\t141
3.5 PhantomJS\t144
3.6 Selenium\t145
3.7 信息過濾\t146
3.7.1 匹配算法\t147
3.7.2 分布式過濾\t153
3.8 采集新聞\t153
3.8.1 網頁過濾器\t154
3.8.2 列表頁\t159
3.8.3 用機器學習的方法抓取新聞\t160
3.8.4 自動查找目錄頁\t161
3.8.5 詳細頁\t162
3.8.6 增量采集\t164
3.8.7 處理圖片\t164
3.9 遍歷信息\t164
3.10 并行抓取\t165
3.10.1 多線程爬蟲\t165
3.10.2 垂直搜索的多線程爬蟲\t168
3.10.3 異步IO\t172
3.11 分布式爬蟲\t176
3.11.1 JGroups\t176
3.11.2 監(jiān)控\t179
3.12 增量抓取\t180
3.13 管理界面\t180
3.14 本章小結\t181
第4章 數據存儲\t182
4.1 存儲提取內容\t182
4.1.1 SQLite\t183
4.1.2 Access數據庫\t185
4.1.3 MySQL\t186
4.1.4 寫入維基\t187
4.2 HBase\t187
4.3 Web圖\t189
4.4 本章小結\t193
第5章 信息提取\t194
5.1 從文本提取信息\t194
5.2 從HTML文件中提取文本\t195
5.2.1 字符集編碼\t195
5.2.2 識別網頁的編碼\t198
5.2.3 網頁編碼轉換為字符串編碼\t201
5.2.4 使用正則表達式提取數據\t202
5.2.5 結構化信息提取\t206
5.2.6 表格\t209
5.2.7 網頁的DOM結構\t210
5.2.8 使用Jsoup提取信息\t211
5.2.9 使用XPath提取信息\t217
5.2.10 HTMLUnit提取數據\t219
5.2.11 網頁結構相似度計算\t220
5.2.12 提取標題\t222
5.2.13 提取日期\t224
5.2.14 提取模板\t225
5.2.15 提取RDF信息\t227
5.2.16 網頁解析器原理\t227
5.3 RSS\t229
5.3.1 Jsoup解析RSS\t230
5.3.2 ROME\t231
5.3.3 抓取流程\t231
5.4 網頁去噪\t233
5.4.1 NekoHTML\t234
5.4.2 Jsoup\t238
5.4.3 提取正文\t240
5.5 從非HTML文件中提取文本\t241
5.5.1 PDF文件\t242
5.5.2 Word文件\t245
5.5.3 Rtf文件\t247
5.5.4 Excel文件\t253
5.5.5 PowerPoint文件\t254
5.6 提取標題\t254
5.6.1 提取標題的一般方法\t255
5.6.2 從PDF文件中提取標題\t259
5.6.3 從Word文件中提取標題\t261
5.6.4 從Rtf文件中提取標題\t261
5.6.5 從Excel文件中提取標題\t267
5.6.6 從PowerPoint文件中提取標題\t270
5.7 圖像的OCR識別\t270
5.7.1 讀入圖像\t271
5.7.2 準備訓練集\t272
5.7.3 圖像二值化\t274
5.7.4 切分圖像\t279
5.7.5 SVM分類\t283
5.7.6 識別漢字\t287
5.7.7 訓練OCR\t289
5.7.8 檢測行\(zhòng)t290
5.7.9 識別驗證碼\t291
5.7.10 JavaOCR\t292
5.8 提取地域信息\t292
5.8.1 IP地址\t293
5.8.2 手機\t315
5.9 提取新聞\t316
5.10 流媒體內容提取\t317
5.10.1 音頻流內容提取\t317
5.10.2 視頻流內容提取\t321
5.11 內容糾錯\t322
5.11.1 模糊匹配問題\t325
5.11.2 英文拼寫檢查\t331
5.11.3 中文拼寫檢查\t333
5.12 術語\t336
5.13 本章小結\t336
第6章 Crawler4j\t338
6.1 使用Crawler4j\t338
6.1.1 大眾點評\t339
6.1.2 日志\t342
6.2 crawler4j原理\t342
6.2.1 代碼分析\t343
6.2.2 使用Berkeley DB\t344
6.2.3 縮短URL地址\t347
6.2.4 網頁編碼\t349
6.2.5 并發(fā)\t349
6.3 本章小結\t352
第7章 網頁排重\t353
7.1 語義指紋\t354
7.2 SimHash\t357
7.3 分布式文檔排重\t367
7.4 本章小結\t369
第8章 網頁分類\t370
8.1 關鍵詞加權法\t371
8.2 機器學習的分類方法\t378
8.2.1 特征提取\t380
8.2.2 樸素貝葉斯\t384
8.2.3 支持向量機\t393
8.2.4 多級分類\t401
8.2.5 網頁分類\t403
8.3 本章小結\t403
第9章 案例分析\t404
9.1 金融爬蟲\t404
9.1.1 中國能源政策數據\t404
9.1.2 世界原油現(xiàn)貨交易和期貨交易數據\t405
9.1.3 股票數據\t405
9.1.4 從PDF文件中提取表格\t408
9.2 商品搜索\t408
9.2.1 遍歷商品\t410
9.2.2 使用HttpClient\t415
9.2.3 提取價格\t416
9.2.4 水印\t419
9.2.5 數據導入ECShop\t420
9.2.6 采集淘寶\t423
9.3 自動化行業(yè)采集\t424
9.4 社會化信息采集\t424
9.5 微博爬蟲\t424
9.6 微信爬蟲\t426
9.7 海關數據\t426
9.8 醫(yī)藥數據\t427
9.9 本章小結\t429
后記\t430

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.stefanvlieger.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號