张老师,( )资深讲师。 阿里大数据高级专家,国内资深的Spark、Hadoop技术专家、虚拟化专家,对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有:某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。
课程介绍 评价详情(0)
课程大纲
第一天 上午
第一部分:移动互联网、大数据、云计算相关技术介绍
第二部分:大数据的挑战和发展方向
理论讲授+案例分析
下午
第三部分:大数据文件存储系统技术和分布式文件系统平台及其应用
第四部分:Hadoop文件系统HDFS最佳实战
理论讲授+案例分析+小组讨论
第二天
上午
第五部分:Hadoop运维管理与性能调优
第六部分:NOSQL数据库Hbase与Redis
理论讲授+案例分析+实战演练
下午
第七部分:类SQL语句工具Hive
第八部分:数据挖掘SPARK建模基础介绍
理论讲授+案例分析+实战演练
第三天
上午
第九部分:Kafka基础介绍
第十部分:大数据典型应用与开发案例分析:互联网数据运营 理论讲授+案例分析
下午
第十一部分:当前数据中心的改造和转换分析-以国内外运营商、互联网公司为例
第十二部分:课程总结与问题答疑
评估培训
理论讲授+案例分析+小组讨论
模块一 移动互联网、大数据、云计算相关技术介绍
1、数据中心与云计算技术应用
2、智慧城市与云计算技术应用
3、移动互联网、大数据与云计算关联技术
4、移动云计算的生态系统及产业链
5、大数据技术在运营商、金融业、银行业、电子商务行业、零售业、制造业、政务信息化、互联网、教育信息化等行业中的应用实践
6、国内外主流的大数据解决方案介绍
7、当前大数据解决方案与传统数据库方案的剖析比较
8、Cloudera Hadoop 大数据平台方案剖析
9、开源的大数据生态系统平台剖析
模块二 大数据的挑战和发展方向
1、大数据时代的挑战
■战略决策能力
■技术开发和数据处理能力
■组织和运营能力
2、大数据时代的发展方向
■云计算是基础设施架构
■大数据是灵魂资产
■分析、挖掘是手段
■发现和预测是最终目标
3、大数据挖掘在各行业应用情况
■电信行业应用及案例分析
■互联网行业应用及案例分析
■金融行业应用及案例研究
■销售行业应用案例分析
课程模块 课程主题 主要内容及案例和演示
模块一 移动互联网、大数据、云计算相关技术介绍 1、数据中心与云计算技术应用
2、智慧城市与云计算技术应用
3、移动互联网、大数据与云计算关联技术
4、移动云计算的生态系统及产业链
5、大数据技术在运营商、金融业、银行业、电子商务行业、零售业、制造业、政务信息化、互联网、教育信息化等行业中的应用实践
6、国内外主流的大数据解决方案介绍
7、当前大数据解决方案与传统数据库方案的剖析比较
8、Cloudera Hadoop 大数据平台方案剖析
9、开源的大数据生态系统平台剖析
模块二 大数据的挑战和发展方向 1、大数据时代的挑战
■战略决策能力
■技术开发和数据处理能力
■组织和运营能力
2、大数据时代的发展方向
■云计算是基础设施架构
■大数据是灵魂资产
■分析、挖掘是手段
■发现和预测是最终目标
3、大数据挖掘在各行业应用情况
■电信行业应用及案例分析
■互联网行业应用及案例分析
■金融行业应用及案例研究
■销售行业应用案例分析
模块三 大数据文件存储系统技术和分布式文件系统平台及其应用 1、Hadoop的发展历程
■Hadoop大数据平台架构
■基于Hadoop平台的PB级大数据存储管理与分析处理的工作原理与机制
■Hadoop 的核心组件剖析
2、分布式文件系统HDFS
■概述、功能、作用、优势
■应用范畴、应用现状
■发展趋势
3、分布式文件系统HDFS架构及原理
■核心关键技术
■设计精髓
■基本工作原理
■系统架构
■文件存储模式
■工作机制
■存储扩容与吞吐性能扩展
4、分布式文件系统HDFS操作
■SHELL命令操作
■I/O流式操作
■文件数据读取、写入、追加、删除
■文件状态查询
■数据块分布机制
■数据同步与一致性
■元数据管理技术
■主节点与从节点工作机制
■大数据负载均衡技术
■HDFS大数据存储集群管理技术
5、Hadoop生态系统组件
■Storm
■HDFS
■MapReduce
■HIVE
■HBase
■Spark
■GraphX
■MLib
■Shark
模块四 Hadoop文件系统HDFS最佳实战
1、HDFS的设计
2、HDFS的概念
■数据块
■namenode和datanode
■联邦HDFS
■HDFS的高可用性
3、命令行接口
4、Hadoop文件系统
5、Java接口
■从Hadoop URL读取数据
■通过FileSystem API读取数据
■写入数据
■目录
■查询文件系统
■删除数据
6、数据流
■剖析文件读取
■剖析文件写入
■一致模型
7、通过Flume和Sqoop导入数据
8、通过distcp并行复制
9、Hadoop存档
■使用Hadoop存档工具
■不足
模块五 Hadoop运维管理与性能调优
1、第二代大数据处理框架
■Yarn的工作原理及
■DAG并行执行机制
■Yarn大数据分析处理案例分析
■Yarn 框架并行应用程序实践
2、集群配置管理
■Hadoop集群配置
■Hadoop性能调优与参数配置
■Hadoop机架感知策略与配置
■Hadoop压缩机制
■Hadoop任务负载均衡
■Hadoop 集群维护
■Hadoop监控管理
3、HDFS的静态调优技巧
■HDFS 的高吞吐量I/O性能调优技巧
■MapReduce/Yarn的并行处理性能调优技巧
■Hadoop集群的运行故障剖析,以及解决方案
■基于Hadoop大数据应用程序的性能瓶颈剖析与提
■Hadoop 大数据运维监控管理系统 HUE 平台的安装部署与应用配置
■Hadoop运维管理监控系统Ambari平台的安装部配置
■Hadoop 集群运维系统 Ganglia, Nagios的安装部署与应用配置
模块六 NOSQL数据库Hbase与Redis
1、NOSQL基础
■CAP理论
■Base与ACID
■NOSQL数据库存储类型
键值存储
列存储
文档存储
图形存储
2、HBase分布式数据基础
3、安装Hbase
4、Hbase应用
■HBase的逻辑数据模型,HBase的表、行、列族、列、单元格、版本、row key排序
■HBase的物理模型,命名空间(表空间)、表模式(Schema)的设计法则
■HBase 主节点HMaster的工作原理,HMaster的高可用配置,以及性能调优
■HBase 从节点RegionServer(分区服务节点)的工作原理,表分区及存储I/O高并发配置,以及性能调优
■HBase的存储引擎工作原理,以及HBase表数据的键值存储结构,以及HFile存储结构剖析
■HBase表设计与数据操作以及数据库管理操作
■HBase集群的安装部署、参数配置和性能优化
5、HBase分布式数据库简介、发展历程、应用场景、工作原理、以及应用优势与不足之处
■HBase分布式数据库集群的主从式平台架构和关键技术剖析
■HBase伪分布式和物理集群分布式的控制与运行配置
■HBase从节点RegionServer(分区服务节点)的工作原理,表分区及存储I/O高并发配置,以及性能调优
■HBase的存储引擎工作原理,以及HBase表数据的键值存储结构,以及HFile存储结构剖析
■HBase表设计与数据操作以及数据库管理操作
■HBase集群的安装部署、参数配置和性能优化
■ZooKeeper分布式协调服务系统的工作原理、平台架构、集群部署应用实战
■ZooKeeper集群的原理架构,以及应用配置
6、Redis内存数据库介绍,以及业界应用案例
■Redis内存数据库集群架构以及核心技术剖析
■Redis 集群的安装部署与应用开发实战
模块七 类SQL语句工具Hive
1、安装Hive
2、示例
3、运行Hive
■配置Hive
■Hive服务
■Metastore
4、Hive与传统数据库相比
■读时模式vs.写时模式
■更新、事务和索引
5、HiveQL
■数据类型
■操作与函数
6、表
■托管表和外部表
■分区和桶
■存储格式
■导入数据
■表的修改
■表的丢弃
7、查询数据
■排序和聚集
■MapReduce脚本
■连接
■子查询
■视图
8、用户定义函数
■写UDF
■写UDAF
模块八 数据挖掘SPARK建模基础介绍
1、Spark简介
■Spark是什么
■Spark生态系统BDAS
2、Spark架构
■Spark分布式架构与单机多核架构的异同
3、Spark集群的安装与部署
■Spark的安装与部署
■Spark集群初试
4、Spark硬件配置
■Spark硬件
■Spark硬件配置流程
模块九 Kafka基础介绍
1、Kafka介绍
2、kafka体系结构
3、kafka设计理念简介
4、kafka通信协议
5、kafka的伪分布安装、集群安装
6、kafka的shell操作、java操作
7、kafka设计理念*
8、kafka producer和consumer开发
9、Kafka分布式消息订阅系统的应用介绍、平台架构、集群部署与配置应用实战
10、Flume-NG数据采集系统的数据流模型、平台架构、集群部署与配置应用实战
11、Hadoop与DBMS之间数据交互工具Sqoop的应用实践,
12、Sqoop导入导出数据以及Sqoop集群部署与配置
13、Kettle 集群的平台架构、核心技术、部署配置和应用实战
14、利用Sqoop实现 MySQL 与 Hadoop 集群之间
模块十 大数据典型应用与开发案例分析:互联网数据运营
1、案例1:贵州数据交易中心
■交易所交易形式:电子交易
■交易所服务:大数据交易、大数据清洗建模分析、大数据定向采购、大数据平台技术开发
■大数据交易安全性探讨分析
■数据交易中心商业模式探讨分析
2、案例2:大数据应用案例:公共交通线路的智能规划
■UrbanInsights:为公交公司提供基于订阅访问的大数据工具以及大数据咨询服务
■Urban Insights数据源、数据收集、数据仓库、数据分析设计运营线路
■Urban Insights通过互联网数据的运营
3、讨论:浙江移动大数据应用与开发方向
模块十一 当前数据中心的改造和转换分析-以国内外运营商、互联网公司为例 1、流商业大数据解决方案比较
2、主流开源云计算系统比较?
3、国内外代表性大数据平台比较?
4、各厂商最新的大数据产品介绍
5、案例分析
■Facebook的SNS平台应用
■Google的搜索引擎应用
■Rackspace的日志处理
■Verizon成立精准市场营销部
■TelefonicaDynamicInsights推出的名为智慧足迹的商业服务
■中国联通的移动通信用户上网记录集中查询与分析支撑系统
模块十二
课程总结与问题答疑
讲师介绍
张老师,( )资深讲师。 阿里大数据高级专家,国内资深的Spark、Hadoop技术专家、虚拟化专家,对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有:某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。
本课程名称: Hadoop大数据平台开发与案例分析
查看更多:职业技能公开课