点击选择搜索分类
首页 - 党政读物- 正文
☆☆☆☆☆
||
陈欢,林世飞 著
出版社: 人民邮电出版社 ISBN:9787115422286 版次:1 商品编码:11923673 包装:平装 丛书名: 图灵原创 开本:16开 出版时间:2016-05-01 用纸:胶版纸 页数:210 正文语种:中文
2.腾讯专家首次分享Spark实践,作者均为腾讯一线员工,拥有丰富的实战经验
3.基于真实数据,用案例分析全面解读大数据应用设计
4.腾讯杰出研发者的Spark实践,揭秘广告和推荐系统核心技术
林世飞,腾讯杰出研究员,2005年加入腾讯,先后在无线产品、安全中心、搜索平台、开放平台、社交与效果广告部等部门从事开发和团队管理工作。他对网络安全、搜索引擎、数据挖掘、机器学习有一定了解,热衷知识传播和分享,曾获腾讯学院2009年年度杰出讲师。目前,他就职于社交与效果广告部,负责广告系统相关的研发工作。
1.1 大数据的发展及现状 1
1.1.1 大数据时代所面临的问题 1
1.1.2 谷歌的大数据解决方案 2
1.1.3 Hadoop 生态系统 3
1.2 Spark 应时而生 4
1.2.1 Spark 的起源 4
1.2.2 Spark 的特点 5
1.2.3 Spark 的未来发展 6
第2 章 Spark 基础 8
2.1 Spark 本地单机模式体验 8
2.1.1 安装虚拟机 8
2.1.2 安装JDK 19
2.1.3 下载Spark 预编译包 21
2.1.4 本地体验Spark 22
2.2 高可用Spark 分布式集群部署 25
2.2.1 集群总览 26
2.2.2 集群机器的型号选择 28
2.2.3 初始化集群机器环境 29
2.2.4 部署ZooKeeper 集群 33
2.2.5 编译Spark 35
2.2.6 部署Spark Standalone 集群 37
2.2.7 高可用Hadoop 集群 40
2.2.8 让Spark 运行在YARN 上 40
2.2.9 一键部署高可用Hadoop +
Spark 集群 42
2.3 Spark 编程指南 43
2.3.1 交互式编程 43
2.3.2 RDD 创建 44
2.3.3 RDD 操作 47
2.3.4 使用其他语言开发Spark 程序 54
2.4 打包和提交 54
2.4.1 编译、链接、打包 54
2.4.2 提交 56
第3 章 Spark 工作机制 58
3.1 调度管理 58
3.1.1 集群概述及名词解释 58
3.1.2 Spark 程序之间的调度 60
3.1.3 Spark 程序内部的调度 63
3.2 内存管理 65
3.2.1 RDD 持久化 65
3.2.2 共享变量 66
3.3 容错机制 67
3.3.1 容错体系概述 67
3.3.2 Master 节点失效 68
3.3.3 Slave 节点失效 69
3.4 监控管理 69
3.4.1 Web 界面 69
3.4.2 REST API 72
3.4.3 Metrics 指标体系 73
3.4.4 其他监控工具 73
3.5 Spark 程序配置管理 73
3.5.1 Spark 程序配置加载过程 74
3.5.2 环境变量配置 74
3.5.3 Spark 属性项配置 74
3.5.4 查看当前的配置 76
3.5.5 配置Spark 日志 76
第4 章 Spark 内核讲解 77
4.1 Spark 核心数据结构RDD 77
4.1.1 RDD 的定义 78
4.1.2 RDD 的Transformation 80
4.1.3 RDD 的Action 82
4.1.4 Shuffle 83
4.2 SparkContext 84
4.2.1 SparkConf 配置 84
4.2.2 初始化过程 85
4.2.3 其他功能接口 87
4.3 DAG 调度 87
4.3.1 DAGScheduler 87
4.3.2 TaskScheduler 90
第5 章 Spark SQL 与数据仓库 92
5.1 Spark SQL 基础 93
5.1.1 分布式SQL 引擎 93
5.1.2 支持的SQL 语法 97
5.1.3 支持的数据类型 98
5.1.4 DataFrame 99
5.1.5 DataFrame 数据源 103
5.1.6 性能调优 104
5.2 Spark SQL 原理和运行机制 104
5.2.1 Spark SQL 整体架构 105
5.2.2 Catalyst 执行优化器 105
5.3 应用场景:基于淘宝数据建立电商
数据仓库 110
5.3.1 电商数据仓库场景 111
5.3.2 数据准备和表设计 111
5.3.3 用Spark SQL 来完成日常运营
数据分析 115
5.3.4 Spark SQL 在大规模数据下的
性能表现 120
第6 章 Spark 流式计算 122
6.1 Spark Streaming 基础知识 123
6.1.1 入门简单示例 123
6.1.2 基本概念 124
6.1.3 高级操作 129
6.2 深入理解Spark Streaming 132
6.2.1 DStream 的两类操作 132
6.2.2 容错处理 134
6.2.3 性能调优 136
6.2.4 与Storm 的对比 137
6.3 应用场景:一个类似百度统计的流式
实时系统 139
6.3.1 Web log 实时统计场景 139
6.3.2 日志实时采集 140
6.3.3 流式分析系统实现 140
第7 章 Spark 图计算 149
7.1 什么是图计算 149
7.1.1 图的基本概念 149
7.1.2 图计算的应用 150
7.2 Spark GraphX 简介 151
7.2.1 GraphX 实现 151
7.2.2 GraphX 常用API 介绍 152
7.3 应用场景:基于新浪微博数据的社交
网络分析 153
7.3.1 社交网络分析的主要应用 153
7.3.2 社区发现算法简介 154
7.3.3 用GraphX 实现Louvain
算法 156
7.3.4 小试牛刀:谁是你的闺蜜 162
7.3.5 真实的场景:新浪微博关系
分析 164
第8 章 Spark MLlib 169
8.1 机器学习简介 169
8.1.1 什么是机器学习 169
8.1.2 机器学习示例 171
8.1.3 机器学习的基本方法 172
8.1.4 机器学习的常见技巧 173
8.1.5 机器学习参考资料 174
8.2 MLlib 库简介 174
8.2.1 基础数据类型 174
8.2.2 主要的库 175
8.2.3 附带的示例程序 176
8.3 应用场景:搜索广告点击率
预估系统 178
8.3.1 应用场景 178
8.3.2 逻辑回归 179
8.3.3 学习算法 181
8.3.4 模型评估 184
8.3.5 数据准备 186
8.3.6 模型训练 187
8.3.7 模型调优 195
附录 Scala 语言参考 197
Spark最佳实践 电子书 下载 mobi epub pdf txt
Spark最佳实践-so88
Spark最佳实践 pdf epub mobi txt 电子书 下载 2022
图书介绍
☆☆☆☆☆
||
陈欢,林世飞 著
出版社: 人民邮电出版社 ISBN:9787115422286 版次:1 商品编码:11923673 包装:平装 丛书名: 图灵原创 开本:16开 出版时间:2016-05-01 用纸:胶版纸 页数:210 正文语种:中文
编辑推荐
1.UCloud季昕华、Databricks连城,阿里胡熠,棒米科技武泽胜,腾讯肖磊靳志辉徐羽等联袂推荐!2.腾讯专家首次分享Spark实践,作者均为腾讯一线员工,拥有丰富的实战经验
3.基于真实数据,用案例分析全面解读大数据应用设计
4.腾讯杰出研发者的Spark实践,揭秘广告和推荐系统核心技术
内容简介
本书是Spark实战指南,全书共分8章。前4章介绍Spark的部署、工作机制和内核,后4章分别通过实战项目介绍SparkSQL、SparkStreaming、SparkGraphX和SparkMLib功能模块。此外,本书详细介绍了常见的实战问题,比如大数据环境下的配置设置、程序调优等。本书附带的一键安装脚本,更能为初学者提供很大帮助。作者简介
陈欢,腾讯杰出程序员,15年编码经验,曾任职网络安全、互联网金融等部门,亲手从零建设了财付通业务的Spark集群,并使之同时支持SQL、实时计算、机器学习等多种数据计算场景。他目前就职于腾讯社交与效果广告部,从事大数据分析工作。林世飞,腾讯杰出研究员,2005年加入腾讯,先后在无线产品、安全中心、搜索平台、开放平台、社交与效果广告部等部门从事开发和团队管理工作。他对网络安全、搜索引擎、数据挖掘、机器学习有一定了解,热衷知识传播和分享,曾获腾讯学院2009年年度杰出讲师。目前,他就职于社交与效果广告部,负责广告系统相关的研发工作。
目录
第1 章 Spark 与大数据 11.1 大数据的发展及现状 1
1.1.1 大数据时代所面临的问题 1
1.1.2 谷歌的大数据解决方案 2
1.1.3 Hadoop 生态系统 3
1.2 Spark 应时而生 4
1.2.1 Spark 的起源 4
1.2.2 Spark 的特点 5
1.2.3 Spark 的未来发展 6
第2 章 Spark 基础 8
2.1 Spark 本地单机模式体验 8
2.1.1 安装虚拟机 8
2.1.2 安装JDK 19
2.1.3 下载Spark 预编译包 21
2.1.4 本地体验Spark 22
2.2 高可用Spark 分布式集群部署 25
2.2.1 集群总览 26
2.2.2 集群机器的型号选择 28
2.2.3 初始化集群机器环境 29
2.2.4 部署ZooKeeper 集群 33
2.2.5 编译Spark 35
2.2.6 部署Spark Standalone 集群 37
2.2.7 高可用Hadoop 集群 40
2.2.8 让Spark 运行在YARN 上 40
2.2.9 一键部署高可用Hadoop +
Spark 集群 42
2.3 Spark 编程指南 43
2.3.1 交互式编程 43
2.3.2 RDD 创建 44
2.3.3 RDD 操作 47
2.3.4 使用其他语言开发Spark 程序 54
2.4 打包和提交 54
2.4.1 编译、链接、打包 54
2.4.2 提交 56
第3 章 Spark 工作机制 58
3.1 调度管理 58
3.1.1 集群概述及名词解释 58
3.1.2 Spark 程序之间的调度 60
3.1.3 Spark 程序内部的调度 63
3.2 内存管理 65
3.2.1 RDD 持久化 65
3.2.2 共享变量 66
3.3 容错机制 67
3.3.1 容错体系概述 67
3.3.2 Master 节点失效 68
3.3.3 Slave 节点失效 69
3.4 监控管理 69
3.4.1 Web 界面 69
3.4.2 REST API 72
3.4.3 Metrics 指标体系 73
3.4.4 其他监控工具 73
3.5 Spark 程序配置管理 73
3.5.1 Spark 程序配置加载过程 74
3.5.2 环境变量配置 74
3.5.3 Spark 属性项配置 74
3.5.4 查看当前的配置 76
3.5.5 配置Spark 日志 76
第4 章 Spark 内核讲解 77
4.1 Spark 核心数据结构RDD 77
4.1.1 RDD 的定义 78
4.1.2 RDD 的Transformation 80
4.1.3 RDD 的Action 82
4.1.4 Shuffle 83
4.2 SparkContext 84
4.2.1 SparkConf 配置 84
4.2.2 初始化过程 85
4.2.3 其他功能接口 87
4.3 DAG 调度 87
4.3.1 DAGScheduler 87
4.3.2 TaskScheduler 90
第5 章 Spark SQL 与数据仓库 92
5.1 Spark SQL 基础 93
5.1.1 分布式SQL 引擎 93
5.1.2 支持的SQL 语法 97
5.1.3 支持的数据类型 98
5.1.4 DataFrame 99
5.1.5 DataFrame 数据源 103
5.1.6 性能调优 104
5.2 Spark SQL 原理和运行机制 104
5.2.1 Spark SQL 整体架构 105
5.2.2 Catalyst 执行优化器 105
5.3 应用场景:基于淘宝数据建立电商
数据仓库 110
5.3.1 电商数据仓库场景 111
5.3.2 数据准备和表设计 111
5.3.3 用Spark SQL 来完成日常运营
数据分析 115
5.3.4 Spark SQL 在大规模数据下的
性能表现 120
第6 章 Spark 流式计算 122
6.1 Spark Streaming 基础知识 123
6.1.1 入门简单示例 123
6.1.2 基本概念 124
6.1.3 高级操作 129
6.2 深入理解Spark Streaming 132
6.2.1 DStream 的两类操作 132
6.2.2 容错处理 134
6.2.3 性能调优 136
6.2.4 与Storm 的对比 137
6.3 应用场景:一个类似百度统计的流式
实时系统 139
6.3.1 Web log 实时统计场景 139
6.3.2 日志实时采集 140
6.3.3 流式分析系统实现 140
第7 章 Spark 图计算 149
7.1 什么是图计算 149
7.1.1 图的基本概念 149
7.1.2 图计算的应用 150
7.2 Spark GraphX 简介 151
7.2.1 GraphX 实现 151
7.2.2 GraphX 常用API 介绍 152
7.3 应用场景:基于新浪微博数据的社交
网络分析 153
7.3.1 社交网络分析的主要应用 153
7.3.2 社区发现算法简介 154
7.3.3 用GraphX 实现Louvain
算法 156
7.3.4 小试牛刀:谁是你的闺蜜 162
7.3.5 真实的场景:新浪微博关系
分析 164
第8 章 Spark MLlib 169
8.1 机器学习简介 169
8.1.1 什么是机器学习 169
8.1.2 机器学习示例 171
8.1.3 机器学习的基本方法 172
8.1.4 机器学习的常见技巧 173
8.1.5 机器学习参考资料 174
8.2 MLlib 库简介 174
8.2.1 基础数据类型 174
8.2.2 主要的库 175
8.2.3 附带的示例程序 176
8.3 应用场景:搜索广告点击率
预估系统 178
8.3.1 应用场景 178
8.3.2 逻辑回归 179
8.3.3 学习算法 181
8.3.4 模型评估 184
8.3.5 数据准备 186
8.3.6 模型训练 187
8.3.7 模型调优 195
附录 Scala 语言参考 197
前言/序言
Spark最佳实践 电子书 下载 mobi epub pdf txt
电子书下载地址:
相关电子书推荐:
- 文件名
- E博士电力科普漫画系列 安全用电我知道
- 实证会计理论与方法
- 淌过博物馆(XX版) 梁进
- 分享经济的爆发
- 推动丛书物理系列:宇宙的结构 【美】布莱恩R.格林
- 关羽斩子 艺术 书籍
- 植物的运动领 科学素养文库 科学典丛书 英 达尔文 著 科普读物 生物世界书 植物生理学图书籍 北京
- 阿克洛夫、斯彭斯和斯蒂格利茨论文精选
- 青少年科学简史读本
- 芭蕾性格舞蹈教材教学法配套曲集(钢琴伴奏 附光盘) [Piano accompanimts of character dance in ballet]
- 三角形与四边形-小牛顿数学王
- 吴昌硕书法集 全2册16开精装铜版纸印刷 吴昌硕书法作品汉字法书作品集 篆书七言联楷书
- 雅鲁藏布大峡谷探险 科普读物 书籍
- 世界是红的:看懂中国经济格局的一本书(团购,请致电010-57993149) 湖北新华书
- 发现自然 美青少年科普经典 (美)伊丽莎白劳拉 王永亭 等 帕特·