你的位置: 首页 > 公开课首页 > 语言 > 课程详情

“Spark大数据处理与案例分析高级工程师” 实战培训班

暂无评价   
  • 课程时间:2017/01/07 09:00 至 2017/01/11 17:00 已结束
  • 开课地点:广州市
  • 授课讲师: 李单单
  • 课程编号:317549
  • 课程分类:语言
你实际购买的价格
付款时最多可用0淘币抵扣0元现金
购买成功后,系统会给用户帐号返回的现金券
淘课价格¥6800
你还可以: 收藏
人气:1774 课纲 | 收藏

培训受众:

各地政府云计算物联网产业相关负责人,各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人

课程收益:

本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark、系统基础知识,概念及架构, Spark实战技巧,Spark经典案例等。
通过本课程实践,帮助学员对Spark生态系统有一个清晰明了的认识;理解Spark、系统适用的场景;掌握Spark等初中级应用开发技能;搭建稳定可靠的Spark集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴等

培训颁发证书:

参加相关培训并通过考试的学员,可以获得:
1.工业和信息化部颁发的《Spark大数据处理高级工程师证书》该证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。
注:请学员带一寸彩照2张(背面注明姓名)、身份证复印件一张。

课程大纲

课程模块

课程主题

主要内容(内容可以根据学员的要求可以现场调整)

模块一

Spark
生态介绍

¬ Mapreduce、storm和spark模型的比较和使用场景介绍
¬ Spark产生背景
¬ Spark(内存计算框架)
¬ SparkSteaming(流式计算框架)
¬ Spark SQL(ad-hoc)
¬ Mllib(MachineLearning)
¬ GraphX(bagel将被代)
¬ DlinkDB介绍
¬ SparkR介绍

 

模块二

Spark
安装部署

¬ Spark安装简介
¬ Spark的源码编译
¬ Spark Standalone安装
¬ Spark应用程序部署工具spark-submit
¬ Spark的高可用性部署

 

模块三

Spark
运行架构和解析

¬ Spark的运行架构
• 基本术语
• 运行架构
• Spark on Standalone运行过程
• Spark on YARN 运行过程
¬ Spark运行实例解析
• Spark on Standalone实例解析
• Spark on YARN实例解析

• 比较 Standalone与YARN模式下的优缺点

模块四

Spark
scala编程

• Scala基本语法与高阶语法

• Scala基本语法
• Scala开发环境搭建
• Scala开发Spark应用程序
• 使用java编程
• 使用scala编程
• 使用python编程

模块五

Spark
编程模型和解析

¬ Spark的编程模型
• Spark编程模型解析
• RDD的特点、操作、依赖关系
• Spark应用程序的配置

•  Spark的架构

•  spark的容错机制

•   数据的本地性

•   缓存策略介绍

宽依赖与窄依赖

 

模块六

Spark 数据挖掘

¬ Mllib的介绍
¬ graphX核心原理
¬ table operator和graph operator区别
¬ vertices、edges和triplets介绍
¬ 构建一个graph
¬ SparkR原理
¬ SparkR实战

 

模块七

Spark Streaming原理和实践

¬ Spark Streaming与Strom的区别
¬ Kafka的部署
¬ Kafka与Spark Streaming的整合
¬ Spark Streaming原理
• Spark流式处理架构
• DStream的特点
• Dstream的操作和RDD的区别

• 带状态的transformation与无状态transformation
• Spark Streaming的优化
¬ Spark Streaming实例

•  Streaming的容错机制

•  streaming在yarn模式下的注意事项

对于需结合第三方存储机制的与流式处理方案
• 文本实例
• 网络数据处理
• Kafka+Spark Streaming实现日志的实时分析案例

 

模块八

Spark的优化

¬ 序列化优化——Kryo
¬ Spark参数优化实战
¬ Spark 任务的均匀分布策略
¬ Partition key倾斜的解决方案
¬ Spark任务的监控
¬ GC的优化
¬ Spark Streaming吞吐量优化
¬ Spark RDD使用内存的优化策略
¬ Spark在使用中的感想分享

 

模块九

Spark的数据源

¬ Spark与HDFS的整合
¬ HDFS RDD原理和实现
¬ Spark与Hbase的整合
¬ Spark与Cassendera整合
¬ Hbase RDD的分区读取
¬ Hbase RDD的原理和实现
¬ Spark parallelism RDD的工作机制

 

模块十

Spark Streaming应用及案例分析

¬ Spark Streaming产生动机
¬  Spark Streaming程序设计
(1)创建DStream
(2)基于DStream进行流式处理
¬ Spark Streaming容错与性能优化
(1)Spark Streaming容错机制
(2)如何对spark Streaming进行优化
¬  Spark Streaming案例分析
基于Spark Streaming的用户标签系统,内容包括项目背景,项目架构以及实施方法

 

模块十一

典型项目
案例实战

¬ 基于spark日志分析
¬ 个性化推荐系统:带你揭开其神秘面纱
¬ 在线投放引擎
¬ 揭开淘宝点击推荐系统的神秘面纱
¬ 淘宝数据服务架构—实时计算平台

 

培训师介绍

张老师:阿里大数据高级专家,国内资深的Spark、Hadoop技术专家、虚拟化专家,对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有:某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。 

本课程名称: “Spark大数据处理与案例分析高级工程师” 实战培训班

查看更多:语言公开课

Spark大数据处理与案例分析高级工程师 实战培训班 相关的最新课程
讲师动态评分 与同行相比

授课内容与课纲相符00%

讲师授课水平00%

服务态度00%