注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡數(shù)據(jù)庫數(shù)據(jù)庫設計/管理基于R語言的自動數(shù)據(jù)收集:網(wǎng)絡抓取和文本挖掘實用指南

基于R語言的自動數(shù)據(jù)收集:網(wǎng)絡抓取和文本挖掘實用指南

基于R語言的自動數(shù)據(jù)收集:網(wǎng)絡抓取和文本挖掘實用指南

定 價:¥99.00

作 者: (德)西蒙·蒙策爾特等
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 計算機/網(wǎng)絡 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 數(shù)據(jù)庫

購買這本書可以去


ISBN: 9787111527503 出版時間: 2016-03-01 包裝: 平裝
開本: 16開 頁數(shù): 366 字數(shù):  

內容簡介

暫缺《基于R語言的自動數(shù)據(jù)收集:網(wǎng)絡抓取和文本挖掘實用指南》簡介

作者簡介

暫缺《基于R語言的自動數(shù)據(jù)收集:網(wǎng)絡抓取和文本挖掘實用指南》作者簡介

圖書目錄

譯者序

前  言

第1章概述

1.1案例研究:瀕危世界遺產(chǎn)地

1.2有關網(wǎng)絡數(shù)據(jù)質量的一些討論

1.3傳播、提取和保存網(wǎng)絡數(shù)據(jù)的技術

1.3.1在網(wǎng)絡上傳播內容的技術

1.3.2從Web文檔中提取信息的

技術

1.3.3  數(shù)據(jù)保存的技術

1.4本書的結構

第一部分網(wǎng)絡和數(shù)據(jù)技術入門

第2章HTML

2.1瀏覽器顯示及源代碼

2.2語法規(guī)則

2.2.1標簽、元素和屬性

2.2.2樹形結構

2.2.3注釋

2.2.4保留字符和特殊字符

2.2.5文檔類型定義

2.2.6  空格和換行

2.3標簽和屬性

2.3.1  錨標簽

2.3.2  元數(shù)據(jù)標簽

2.3.3  外部引用標簽

2.3.4  強調標簽、和



2.3.5段落標簽

2.3.6  標題標簽、、



2.3.7  通過、和

列舉內容

2.3.8組織型標簽和



2.3.9 標簽及其同伴

2.3.10  外部腳本標簽

2.3.11  表格標簽、、



2.4解析

2.4.1  解析簡介

2.4.2丟棄節(jié)點

2.4.3在創(chuàng)建過程中提取信息

小結

延伸閱讀

習題

第3章  XML和JSON

3.1  XML文檔示例

3.2 XML語法規(guī)則

3.2.1  元素和屬性

3.2.2 XML結構

第4章xpath

第5章HTTP

第6章AJAX

第7章SQL和關系型數(shù)據(jù)庫

第8章正則表達式和基本字符串函數(shù)

第二部分網(wǎng)絡抓取和文本挖掘實用工具箱

第9章網(wǎng)絡抓取

第10章統(tǒng)計性文本處理

第11章管理數(shù)據(jù)項目

第三部分一組案例分析

第12章美國參議院里的合作網(wǎng)絡

第13章從半結構化文檔解析信息

第14章利用Twitter預測2014年奧斯卡獎

第15章繪制姓氏地理分布圖

第16章采集關于手機的數(shù)據(jù)

第17章分析產(chǎn)品評論里的情緒  

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.stefanvlieger.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號