注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)操作系統(tǒng)Scrapy網(wǎng)絡(luò)爬蟲開發(fā)實戰(zhàn)

Scrapy網(wǎng)絡(luò)爬蟲開發(fā)實戰(zhàn)

Scrapy網(wǎng)絡(luò)爬蟲開發(fā)實戰(zhàn)

定 價:¥69.80

作 者: 羅剛
出版社: 清華大學(xué)出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787302658580 出版時間: 2024-05-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  《Scrapy網(wǎng)絡(luò)爬蟲開發(fā)實戰(zhàn)》介紹如何學(xué)習(xí)和使用流行的Scrapy框架開發(fā)網(wǎng)絡(luò)爬蟲應(yīng)用,主要內(nèi)容使用Python開發(fā)網(wǎng)絡(luò)爬蟲,識別網(wǎng)頁的編碼,結(jié)構(gòu)化信息的提取,Scrapy爬蟲的示例使用,Scrapy Playwright抓取動態(tài)JS網(wǎng)站,將抓取的數(shù)據(jù)保存到數(shù)據(jù)庫,部署、調(diào)度和運行Scrapy爬蟲等。《Scrapy網(wǎng)絡(luò)爬蟲開發(fā)實戰(zhàn)》適合作為高等院校計算機、軟件工程專業(yè)本科生、研究生的參考書目,也適用于對Python網(wǎng)絡(luò)爬蟲領(lǐng)域感興趣的人士參考閱讀。

作者簡介

  羅剛,2004年開始創(chuàng)建獵兔搜索技術(shù),10多年來一直從事搜索引擎、自然語言處理、圖像識別等技術(shù)的研發(fā)和團(tuán)隊管理工作。 曾經(jīng)擔(dān)任新東方公司研究員,國防大學(xué)科研處技術(shù)顧問,工信部輿情開發(fā)顧問,紅象云騰公司技術(shù)顧問,青島大快搜索公司首席架構(gòu)師,中和云技術(shù)合伙人,東南大學(xué)社會導(dǎo)師,北京石油化工學(xué)院社會導(dǎo)師。近幾年同時開展了學(xué)員就業(yè)培訓(xùn)工作,成功培訓(xùn)了50多位專業(yè)的軟件工程師,培養(yǎng)的工程師目前分布在百度、美團(tuán)、Nuance、云知聲、攝星等相關(guān)公司研發(fā)中心

圖書目錄

第1章?網(wǎng)絡(luò)爬蟲快速入門
1.1 各種網(wǎng)絡(luò)爬蟲
1.1.1 通用爬蟲
1.1.2 定向爬蟲
1.2 網(wǎng)絡(luò)爬蟲基本技術(shù)
1.3 Windows命令行
1.4 上手Scrapy網(wǎng)絡(luò)爬蟲開發(fā)
1.5?本章小結(jié)
第2章?Python開發(fā)快速入門
2.1?變量
2.2?注釋
2.3?簡單數(shù)據(jù)類型
2.3.1?數(shù)值
2.3.2?字符串
2.3.3?數(shù)組
2.4?字面值
2.5?控制流
2.5.1?if語句
2.5.2?循環(huán)
2.6?列表
2.7?元組
2.8?集合
2.9?字典
2.10?函數(shù)
2.11?模塊
2.12?檢查字符串是否包含子字符串
2.13?面向?qū)ο缶幊?br />2.14?泛型
2.15?日志記錄
2.16?數(shù)據(jù)庫
2.17?本章小結(jié)
第3章?使用Python開發(fā)網(wǎng)絡(luò)爬蟲
3.1?使用BeautifulSoup實現(xiàn)定向采集
3.2?URL基礎(chǔ)
3.2.1?URI
3.2.2?解析相對地址
3.2.3?DNS解析
3.3?網(wǎng)絡(luò)爬蟲抓取原理
3.4?爬蟲架構(gòu)
3.4.1?基本架構(gòu)
3.4.2?分布式爬蟲架構(gòu)
3.4.3?垂直爬蟲架構(gòu)
3.5 下載網(wǎng)頁
3.5.1 HTTP
3.5.2?HTML文檔
3.5.3?使用curl命令下載網(wǎng)絡(luò)資源
3.5.4?使用wget命令下載網(wǎng)頁
3.5.5?下載靜態(tài)網(wǎng)頁
3.5.6?使用Selenium下載動態(tài)內(nèi)容
3.5.7?重試
3.6?下載圖片
3.7?網(wǎng)絡(luò)爬蟲的遍歷與實現(xiàn)
3.8 robots協(xié)議
3.9 連接池
3.10?URL地址查新
3.10.1?Redis數(shù)據(jù)庫
3.10.2?布隆過濾器
3.11?抓取RSS
3.12?網(wǎng)頁更新
3.13?進(jìn)度條
3.14?垂直行業(yè)抓取
3.15?抓取限制的應(yīng)對方法
3.15.1?模擬瀏覽器訪問
3.15.2?使用代理IP
3.15.3?抓取需要登錄的網(wǎng)頁
3.16?保存信息
3.16.1?SQLite數(shù)據(jù)庫
3.16.2?MySQL數(shù)據(jù)庫
3.16.3?MongoDB數(shù)據(jù)庫
3.16.4?存入Elasticsearch搜索引擎
3.17?本章小結(jié)
第4章?從互聯(lián)網(wǎng)提取信息
4.1?識別網(wǎng)頁的編碼
4.1.1?二進(jìn)制流的編碼
4.1.2?識別編碼的整體流程
4.2?正則表達(dá)式
4.3?結(jié)構(gòu)化信息的提取
4.3.1?解析JSON
4.3.2?解析XML
4.3.3?XML接口
4.3.4?lxml處理網(wǎng)頁
4.3.5?使用XPath提取信息
4.3.6?在Chrome瀏覽器中查找Selenium WebDriver的XPath
4.3.7?CSS選擇器
4.3.8?使用Parsel
4.3.9?提取文本
4.3.10?網(wǎng)頁正文提取
4.4?從文件提取信息
4.5?本章小結(jié)
第5章?使用Scrapy開發(fā)爬蟲
5.1?一個示例爬蟲的演練
5.2?Scrapy Playwright指南:渲染和抓取動態(tài)JS網(wǎng)站
5.3?將抓取的數(shù)據(jù)保存到SQLite數(shù)據(jù)庫
5.4?將抓取的數(shù)據(jù)保存到MySQL數(shù)據(jù)庫
5.5?將抓取的數(shù)據(jù)保存到Postgres數(shù)據(jù)庫
5.6?Scrapyd:部署、調(diào)度和運行Scrapy爬蟲
5.7?Scrapy Cloud托管爬蟲
5.8?Twisted框架
5.9?本章小結(jié)
第6章?分布式爬蟲開發(fā)
6.1?簡單的Celery任務(wù)
6.2?從任務(wù)進(jìn)行分布式抓取
6.3?本章小結(jié)
第7章?開發(fā)網(wǎng)絡(luò)爬蟲用戶界面
7.1?Tkinter簡介
7.2?網(wǎng)絡(luò)爬蟲圖形用戶界面
7.3?本章小結(jié)
第8章?案例分析
8.1?影視采集器
8.2?暗網(wǎng)爬蟲
8.3 本章小結(jié)
 
 

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.stefanvlieger.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號