点击选择搜索分类
首页 - 建筑- 正文
☆☆☆☆☆
||
王家林,夏阳 著
出版社: 清华大学出版社 ISBN:9787302464914 版次:1 商品编码:12177748 包装:平装 开本:16开 出版时间:2017-04-01 用纸:胶版纸 页数:251 字数:264000 正文语种:中文
本书涵盖Spark Streaming的内部技术原理、源码分析、性能调优方法以及对未来Spark Streaming新版本的新功能分析。
本书适合大数据领域CTO、架构师、高级软件工程师,尤其是Spark领域已有Spark Streaming基础知识的从业人员阅读,也可供需要深入学习Spark、Spark Streaming的高校研究生和高年级本科生参考。
夏阳,系统架构师,从事平台和应用软件研发工作多年,行业阅历丰富,对行业技术发展有独到见解和精准判断,近几年先后就职于中创中间件公司、蚁坊软件公司、任子行网络技术股份有限公司,从事大数据相关的技术研发工作。对大数据处理、机器学习、图计算、文本处理等技术领域有丰富工作经验和浓厚兴趣。
1.1 Spark Streaming应用案例 ·······2
1.2 Spark Streaming应用剖析 ·····13
第2章 Spark Streaming基本原理 ····15
2.1 Spark Core简介 ··················16
2.2 Spark Streaming设计思想 ·····26
2.3 Spark Streaming整体架构 ·····30
2.4 编程接口 ·························33
第3章 Spark Streaming运行流程详解·············39
3.1 从StreamingContext的初始化到启动 ··········40
3.2 数据接收 ·························54
3.3 数据处理 ·························91
3.4 数据清理 ························115
3.5 容错机制 ························127
3.5.1 容错原理 ·························128
3.5.2 Driver容错机制 ·················152
3.5.3 Executor容错机制 ··············161
3.6 No Receiver方式 ···············167
3.7 输出不重复 ·····················175
3.8 消费速率的动态控制 ·········176
3.9 状态操作 ························189
3.10 窗口操作 ·······················212
3.11 页面展示 ·······················216
3.12 Spark Streaming应用程序的停止··········227
第4章Spark Streaming 性能调优机制···········237
4.1 并行度解析 ·····················238
4.1.1 数据接收的并行度 ·············238
4.1.2 数据处理的并行度 ·············240
4.2 内存······························240
4.3 序列化 ···························240
4.4 Batch Interval ···················241
4.5 Task ·······························242
4.6 JVM GC ·························242
第5章Spark 2.0中的流计算 ··········245
5.1 连续应用程序 ··················246
5.2 无边界表unbounded table ····248
5.3 增量输出模式 ··················249
5.4 API简化 ··························250
5.5 其他改进 ························250
Spark Streaming技术内幕及源码剖析 电子书 下载 mobi epub pdf txt
Spark Streaming技术内幕及源码剖析-so88
Spark Streaming技术内幕及源码剖析 pdf epub mobi txt 电子书 下载 2022
图书介绍
☆☆☆☆☆
||
王家林,夏阳 著
出版社: 清华大学出版社 ISBN:9787302464914 版次:1 商品编码:12177748 包装:平装 开本:16开 出版时间:2017-04-01 用纸:胶版纸 页数:251 字数:264000 正文语种:中文
产品特色
编辑推荐
全面透彻剖析Spark Streaming技术内幕和源码,并结合Spark Streaming调优实践的经验总结,适合所有大数据应用的技术管理和开发人员阅读。本书涵盖Spark Streaming的内部技术原理、源码分析、性能调优方法以及对未来Spark Streaming新版本的新功能分析。
内容简介
本书以大数据处理引擎Spark的稳定版本1.6.x为基础,从应用案例、原理、源码、流程、调优等多个角度剖析Spark上的实时计算框架Spark Streaming。在勾勒出Spark Streaming架构轮廓的基础上,从基本源码开始进行剖析,由浅入深地引导已具有Spark和Spark Streaming基础技术知识的读者进行Spark Streaming的进阶学习,理解Spark Streaming的原理和运行机制,为流数据处理的决策和应用提供了技术参考;结合Spark Streaming的深入应用的需要,对Spark Streaming的性能调优进行了分析,也对Spark Streaming功能的改造和扩展提供了指导。本书适合大数据领域CTO、架构师、高级软件工程师,尤其是Spark领域已有Spark Streaming基础知识的从业人员阅读,也可供需要深入学习Spark、Spark Streaming的高校研究生和高年级本科生参考。
作者简介
王家林,中国著名的Spark培训专家,Apache Spark、Android 技术中国区布道师,DT大数据梦工厂创始人和首席专家,Android软硬整合专家。彻底研究了 Spark 从 0.5.0 到 2.1.0 中共 28个版本的 Spark 源码,目前致力于开发优化的 Spark 中国版本。尤其擅长 Spark 在生产环境下各种类型和场景故障的排除和解决,痴迷于 Spark 生产环境下任意类型(例如 Shuffle 和各种内存问题及数据倾斜问题等)的 Spark 程序的深度性能优化。从 2014 年 6 月 24 日起,已开启免费的 Spark 公开课《决胜大数据时代 Spark100 期公益大讲堂》。在 2015 年 6月 27 日成立 DT 大数据梦工厂,开启 IMF(Impossible Mission Force)行动,率先在全球开展以 Spark 为核心的,免费为社会培养 100 万企业级实战高级大数据人才行动计划,截止目前已有数千人参与到这个行动之中。夏阳,系统架构师,从事平台和应用软件研发工作多年,行业阅历丰富,对行业技术发展有独到见解和精准判断,近几年先后就职于中创中间件公司、蚁坊软件公司、任子行网络技术股份有限公司,从事大数据相关的技术研发工作。对大数据处理、机器学习、图计算、文本处理等技术领域有丰富工作经验和浓厚兴趣。
目录
第1章 Spark Streaming应用概述 ······11.1 Spark Streaming应用案例 ·······2
1.2 Spark Streaming应用剖析 ·····13
第2章 Spark Streaming基本原理 ····15
2.1 Spark Core简介 ··················16
2.2 Spark Streaming设计思想 ·····26
2.3 Spark Streaming整体架构 ·····30
2.4 编程接口 ·························33
第3章 Spark Streaming运行流程详解·············39
3.1 从StreamingContext的初始化到启动 ··········40
3.2 数据接收 ·························54
3.3 数据处理 ·························91
3.4 数据清理 ························115
3.5 容错机制 ························127
3.5.1 容错原理 ·························128
3.5.2 Driver容错机制 ·················152
3.5.3 Executor容错机制 ··············161
3.6 No Receiver方式 ···············167
3.7 输出不重复 ·····················175
3.8 消费速率的动态控制 ·········176
3.9 状态操作 ························189
3.10 窗口操作 ·······················212
3.11 页面展示 ·······················216
3.12 Spark Streaming应用程序的停止··········227
第4章Spark Streaming 性能调优机制···········237
4.1 并行度解析 ·····················238
4.1.1 数据接收的并行度 ·············238
4.1.2 数据处理的并行度 ·············240
4.2 内存······························240
4.3 序列化 ···························240
4.4 Batch Interval ···················241
4.5 Task ·······························242
4.6 JVM GC ·························242
第5章Spark 2.0中的流计算 ··········245
5.1 连续应用程序 ··················246
5.2 无边界表unbounded table ····248
5.3 增量输出模式 ··················249
5.4 API简化 ··························250
5.5 其他改进 ························250
Spark Streaming技术内幕及源码剖析 电子书 下载 mobi epub pdf txt
电子书下载地址:
相关电子书推荐:
- 文件名
- 探秘百科 无限探索版:树的秘密
- 内在小孩:在荷欧波诺波诺中遇见真正的自己(珍藏版)
- (青少年“海洋梦”系列丛书)海立云垂——海洋工程与海港 “海洋梦”系列丛书编委会
- 黄瓜生产百问百答(第2版)
- 芝麻大问号?-1-芝麻的科学书
- 无公害茄子生态平衡管理技术图解(种植业篇)
- 侏罗纪猎杀-恐龙大陆-儿童视觉大系
- 中小型水工程简明技术丛书(7):中小型围垦工程简明技术指南
- 大人都容易搞错的科学 出人意料的科学
- 猪病防控百问百答
- 写给所有人的极简统计学 9787569914382 (日)永野裕之 ,阳光博客 出品-RT
- 社会心理学:解读生活诠释社会
- WL-美国国家地理知识小百科:岩石和矿物-[美] 史蒂夫·托米塞克,[德] 卡斯滕·彼得,
- 设施蔬菜病虫害防治新技术
- 新疆:伊犁哈萨克自治州概况——中国少数民族自治地方概况丛书 9787105086412