点击选择搜索分类
首页 - 中国文学- 正文
☆☆☆☆☆
||
[印度] Rishi,Yadav(亚达夫) 著,顾星竹,刘见康 译
出版社: 人民邮电出版社 ISBN:9787115429667 版次:01 商品编码:11987407 品牌:异步图书 包装:平装 开本:16开 出版时间:2016-10-01 页数:190 正文语种:中文
这是一本为数据工程师、应用开发人员、数据科学家而编写的,非常利于学习和运用Spark的杰出指南。
本书内容分为12章,从认识Apache Spark开始讲解,陆续介绍了Spark的使用、外部数据源、Spark SQL、Spark Streaming、机器学习、监督学习中的回归和分类、无监督学习、推荐系统、图像处理、优化及调优等内容。
本书适合大数据领域的技术人员,可以帮助他们更好地洞悉大数据,本书也适合想要学习Spark进行大数据处理的人员,它将是一本**的参考教程。
第1章 开始使用Apache Spark 1
1.1 简介 1
1.2 使用二进制文件安装Spark 2
1.3 通过Maven构建Spark源码 5
1.4 在Amazon EC2上部署Spark 7
1.5 在集群上以独立模式部署
Spark 13
1.6 在集群上使用Mesos部署Spark 18
1.7 在集群上使用YARN部署 19
1.8 使用Tachyon作为堆外存储层 22
第2章 使用Spark开发应用 27
2.1 简介 27
2.2 探索Spark shell 27
2.3 在Eclipse中使用Maven开发Spark应用 29
2.4 在Eclipse中使用SBT开发Spark应用 33
2.5 在Intellij IDEA中使用Maven开发Spark应用 34
2.6 在Intellij IDEA中使用SBT开发Spark应用 36
第3章 外部数据源 38
3.1 简介 38
3.2 从本地文件系统加载数据 39
3.3 从HDFS加载数据 40
3.4 从HDFS加载自定义输入格式的数据 45
3.5 从Amazon S3加载数据 46
3.6 从Apache Cassandra加载数据 49
3.7 从关系型数据库加载数据 54
第4章 Spark SQL 57
4.1 简介 57
4.2 理解Catalyst优化器 60
4.3 创建HiveContext 63
4.4 使用case类生成数据格式 66
4.5 编程指定数据格式 67
4.6 使用Parquet格式载入及存储数据 69
4.7 使用JSON格式载入及存储数据 73
4.8 从关系型数据库载入及存储数据 75
4.9 从任意数据源载入及存储数据 78
第5章 Spark Streaming 80
5.1 简介 80
5.2 使用Streaming统计字数 82
5.3 Twitter流数据处理 84
5.4 Kafka流数据处理 88
第6章 机器学习——MLlib 94
6.1 简介 94
6.2 创建向量 95
6.3 创建向量标签 97
6.4 创建矩阵 99
6.5 计算概述统计量 101
6.6 计算相关性 102
6.7 进行假设检验 104
6.8 使用ML创建机器学习
流水线 106
第7章 监督学习之回归——MLlib 109
7.1 简介 109
7.2 使用线性回归 110
7.3 理解代价函数 112
7.4 使用Lasso线性回归 116
7.5 使用岭回归 117
第8章 监督学习之分类——MLlib 119
8.1 简介 119
8.2 逻辑回归分类 119
8.3 支持向量机二元分类 124
8.4 决策树分类 127
8.5 随机森林分类 134
8.6 梯度提升树(GBTs)分类 139
8.7 朴素贝叶斯分类 140
第9章 无监督学习——MLlib 143
9.1 简介 143
9.2 使用k-means聚类 144
9.3 主成分分析的降维 149
9.4 奇异值分解降维 155
第10章 推荐系统 159
10.1 简介 159
10.2 显性反馈的协同过滤 161
10.3 隐性反馈的协同过滤 164
第11章 图像处理——GraphX 169
11.1 简介 169
11.2 基本图像运算 170
11.3 使用PageRank 171
11.4 查找连通分量 174
11.5 相邻聚合实现 177
第12章 优化及调优 180
12.1 简介 180
12.2 内存优化 183
12.3 使用压缩提升性能 185
12.4 使用序列化提升性能 186
12.5 优化垃圾回收 187
12.6 优化并行度的级别 187
12.7 理解未来的优化——Tungsten
项目 188
Spark Cookbook 中文版 电子书 下载 mobi epub pdf txt
Spark Cookbook 中文版-so88
Spark Cookbook 中文版 pdf epub mobi txt 电子书 下载 2022
图书介绍
☆☆☆☆☆
||
[印度] Rishi,Yadav(亚达夫) 著,顾星竹,刘见康 译
出版社: 人民邮电出版社 ISBN:9787115429667 版次:01 商品编码:11987407 品牌:异步图书 包装:平装 开本:16开 出版时间:2016-10-01 页数:190 正文语种:中文
编辑推荐
Spark是新兴的大数据处理引擎,在大数据处理方面有:超快速、多语言支持、复杂查询支持、实时流处理、集成Hadoop及Hadoop已有功能、活跃的用户社区等优势。这是一本为数据工程师、应用开发人员、数据科学家而编写的,非常利于学习和运用Spark的杰出指南。
内容简介
Spark是一个基于内存计算的开源集群计算系统,它非常小巧玲珑,让数据分析更加快速,已逐渐成为新一代大数据处理平台中的佼佼者。本书内容分为12章,从认识Apache Spark开始讲解,陆续介绍了Spark的使用、外部数据源、Spark SQL、Spark Streaming、机器学习、监督学习中的回归和分类、无监督学习、推荐系统、图像处理、优化及调优等内容。
本书适合大数据领域的技术人员,可以帮助他们更好地洞悉大数据,本书也适合想要学习Spark进行大数据处理的人员,它将是一本**的参考教程。
作者简介
Rishi Yadav拥有17年设计和开发企业级应用的经验。他是一位开源软件专家,引领了美国公司的大数据趋势。Rish被评为2014年40位40岁以下硅谷杰出工程师之一。他于1998年获得杰出的印度理工学院(Indian Institute of Technology,IIT)德里分校的学士学位。大约在10年前,Rishi创办了InfoObjects,这是一家以深度探索数据为宗旨的企业。该公司已连续4年被列入发展快公司5000强。InfoObjects也被授予了2014及2015年度湾区杰出工作地点首名的桂冠。Rishi还是一位开源社区贡献者和活跃的博主。目录
目录第1章 开始使用Apache Spark 1
1.1 简介 1
1.2 使用二进制文件安装Spark 2
1.3 通过Maven构建Spark源码 5
1.4 在Amazon EC2上部署Spark 7
1.5 在集群上以独立模式部署
Spark 13
1.6 在集群上使用Mesos部署Spark 18
1.7 在集群上使用YARN部署 19
1.8 使用Tachyon作为堆外存储层 22
第2章 使用Spark开发应用 27
2.1 简介 27
2.2 探索Spark shell 27
2.3 在Eclipse中使用Maven开发Spark应用 29
2.4 在Eclipse中使用SBT开发Spark应用 33
2.5 在Intellij IDEA中使用Maven开发Spark应用 34
2.6 在Intellij IDEA中使用SBT开发Spark应用 36
第3章 外部数据源 38
3.1 简介 38
3.2 从本地文件系统加载数据 39
3.3 从HDFS加载数据 40
3.4 从HDFS加载自定义输入格式的数据 45
3.5 从Amazon S3加载数据 46
3.6 从Apache Cassandra加载数据 49
3.7 从关系型数据库加载数据 54
第4章 Spark SQL 57
4.1 简介 57
4.2 理解Catalyst优化器 60
4.3 创建HiveContext 63
4.4 使用case类生成数据格式 66
4.5 编程指定数据格式 67
4.6 使用Parquet格式载入及存储数据 69
4.7 使用JSON格式载入及存储数据 73
4.8 从关系型数据库载入及存储数据 75
4.9 从任意数据源载入及存储数据 78
第5章 Spark Streaming 80
5.1 简介 80
5.2 使用Streaming统计字数 82
5.3 Twitter流数据处理 84
5.4 Kafka流数据处理 88
第6章 机器学习——MLlib 94
6.1 简介 94
6.2 创建向量 95
6.3 创建向量标签 97
6.4 创建矩阵 99
6.5 计算概述统计量 101
6.6 计算相关性 102
6.7 进行假设检验 104
6.8 使用ML创建机器学习
流水线 106
第7章 监督学习之回归——MLlib 109
7.1 简介 109
7.2 使用线性回归 110
7.3 理解代价函数 112
7.4 使用Lasso线性回归 116
7.5 使用岭回归 117
第8章 监督学习之分类——MLlib 119
8.1 简介 119
8.2 逻辑回归分类 119
8.3 支持向量机二元分类 124
8.4 决策树分类 127
8.5 随机森林分类 134
8.6 梯度提升树(GBTs)分类 139
8.7 朴素贝叶斯分类 140
第9章 无监督学习——MLlib 143
9.1 简介 143
9.2 使用k-means聚类 144
9.3 主成分分析的降维 149
9.4 奇异值分解降维 155
第10章 推荐系统 159
10.1 简介 159
10.2 显性反馈的协同过滤 161
10.3 隐性反馈的协同过滤 164
第11章 图像处理——GraphX 169
11.1 简介 169
11.2 基本图像运算 170
11.3 使用PageRank 171
11.4 查找连通分量 174
11.5 相邻聚合实现 177
第12章 优化及调优 180
12.1 简介 180
12.2 内存优化 183
12.3 使用压缩提升性能 185
12.4 使用序列化提升性能 186
12.5 优化垃圾回收 187
12.6 优化并行度的级别 187
12.7 理解未来的优化——Tungsten
项目 188
Spark Cookbook 中文版 电子书 下载 mobi epub pdf txt
电子书下载地址:
相关电子书推荐:
- 文件名
- 大自然的启示-马小跳发现之旅 马小跳和他的小伙伴要去探索在大自然的启示下,人类的发明和发
- AI时代 慢养的勇气 林美慧
- {RT}节约用水知识读本-刘俊良,李会东,张小燕 化学工业出版社 978712228359
- di一次做准爸比 准爸爸新爸爸孕期指导书 孕妇健康饮食按摩 心理压力缓解方法小技巧书籍
- {RT}天人和谐:生态文明与绿色行动-郭耕 山东教育出版社 9787532891191
- 千字文-国学经典规范读本-彩图版
- {RT}生命的历程-《生命的历程》编写组 世界图书出版公司 9787510016196
- 新妈妈*想要的月子书:月子就要这样坐 孕产后坐月子基础知识书籍 产后育儿恢复训练书 月子期
- 狡猾的发明 绝妙的机器 9787200107487
- 正版 0-1岁 郑玉巧育儿经(婴儿卷全新修订彩色版) 0-1-2-3岁育儿百科书籍 孕
- 恐龙-走进大自然百科图鉴
- 放飞时刻:写给大学生父母
- 蝴蝶-第一次发现丛书
- 正版 世界经典胎教故事 书籍 婴幼儿保养保健 睡前胎教故事书 图画绘本故事书 为准父母和3
- BF-科技失控-用科技思维重新看透未来-温德尔·瓦拉赫 萧黎黎 江苏文艺出版社 9787