本書介紹了如何開發(fā)網絡爬蟲。內容主要包括開發(fā)網絡爬蟲所需要的Java語法基礎和網絡爬蟲的工作原理,如何使用開源組件HttpClient和爬蟲框架Crawler4j抓取網頁信息,以及針對抓取到的文本進行有效信息的提取。為了擴展抓取能力,本書介紹了實現(xiàn)分布式網絡爬蟲的關鍵技術。另外,本書介紹了從圖像和語音等多媒體格式文件中提取文本信息,以及如何使用大數據技術存儲抓取到的信息。最后,以實戰(zhàn)為例,介紹了如何抓取微信和微博,以及在電商、醫(yī)藥、金融等領域的案例應用。其中,電商領域的應用介紹了使用網絡爬蟲抓取商品信息入庫到網上商店的數據庫表。醫(yī)藥領域的案例介紹了抓取PubMed醫(yī)藥論文庫。金融領域的案例介紹了抓取股票信息,以及從年報PDF文檔中提取表格等。本書適用于對開發(fā)信息采集軟件感興趣的自學者。也可以供有Java或程序設計基礎的開發(fā)人員參考。