刘老师:阿里大数据高级专家,国内资深的Spark、Hadoop技术专家、虚拟化专家,对HDFS、MapReduce、H、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有:某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。
课程介绍 评价详情(0)
培训受众:
高级开发工程师、设计师、架构师、系统管理员、开发经理、测试经理、产品经理、项目经理等。
课程收益:
2、全面掌握Hadoop的架构原理和使用场景,并通过贯穿课程的项目进行实战锻炼,从而熟练使用Hadoop进行MapReduce程序开发。课程还涵盖了分布式计算领域的常用算法介绍,帮助学员为企业在利用大数据方面体现自身价值。
3、深入理解Hadoop技术架构,对Hadoop运作机制有清晰全面的认识,可以独立规划及部署生产环境的Hadoop集群,掌握Hadoop基本运维思路和方法,对Hadoop集群进行管理和优化。
四、培训特色
注重应用:分析国内实际情况,结合国际、国内成功经验。Hadoop采用实战的项目,让学员在短时间内掌握Hadoop的搭建与配置。并进行高效的大数据清洗和分析。形式灵活:互动课堂、免费技术沙龙、提供云计算项目建设咨询、大数据Hadoop平台的搭建。
培训颁发证书:
课程大纲
课程模块 课程主题 主要内容 案例和演示
第一天 Hadoop简介和生态系统介绍 传统大规模数据分析存在的问题
Hadoop概述
Hadoop与分布式文件系统
Hadoop生态系统
Hadoop的行业应用案例分析
Hadoop在云计算和大数据的位置和关系
Hadoop版本介绍
Hadoop与Google FS的关系
Hadoop在国内的使用情况和未来 Hadoop在推荐领域的使用案例介绍
大数据应用场景 离线计算架构、技术和应用场景
实时查询架构、技术和应用场景
流式计算架构、技术和应用场景
内存计算架构、技术和应用场景
海量数据的ETL
Hadoop组件介绍 Hadoop NameNode 介绍
Hadoop SecondaryNameNode 介绍
Hadoop DataNode 介绍
Hadoop JobTracker 介绍
Hadoop TaskTracker 介绍
Hadoop的HDFS模块 HDFS架构介绍
HDFS原理介绍
NameNode功能详解
DataNode功能详解
SecondaryNameNode功能详解
HSFD的fsimage和editslog详解
HDFS的block详解
HDFS的block的备份策略
Hadoop的机架感知配置
HDFS的shell命令介绍
HDFS的thrift server服务介绍
HDFS的API接口介绍
HDFS的权限详解
Hadoop的客服端接入案例 Hadoop的shell命令演示
Hadoop的API接口演示
Hadoop的客服端接入案例
第二天
Hadoop生态组件 集群管理工具—ambari
分布式存储—HDFS
分布式计算— MapReduce
noSQL数据库—H
工作流工具—Oozie
数据的并行采集—Flume
MapReduce脚本工具—Pig
与关系型数据库之间的数据迁移—Sqoop
资源管理平台—Yarn
数据挖掘算法—Mahout
分布式统一服务—Zookeeper
Hadoop安全工具—Knox
MapReducer入门 Mapreduce原理
MapReduce流程
剖析一个MapReduce程序
Mapper和Reducer抽象类详解
Mapreduce的最小驱动类
MapReduce自带的类型
自定义Writables和WritableComparables
Mapreduce的输入InputFormats
MapReduce的输出OutputFormats
Combiner详解
Partitioner详解
DistributeFileSystem详解
Hadoop Tools工具介绍
Counter计数器详解
自定义Counter计数器
基于Hadoop二次开发实战
MapReduce的优化
Map和Reduce的个数设置
Hadoop小文件优化
任务调度
默认的任务调度
公平任务调度
能力任务调度
使用 Hadoop MapReduce Streaming 编程
MapReduce的单元测试 MapReduce实现海量数据比较大小案例
自定义Hadoop类型案例
自定义Partitioner案例
实现在内存随机生成100个数,分成两个Map来比较大小
多文件输出和自动定义MapReduce的输出名
MapReduce实现Join算法案例
MapReduce实现海量文档相似度算法
自定义Counter案例实现
MapReduce实现Pangrank算法。
MapReduce单元测试:Map的单元测试测试、reduce单元测试和MapReduce整体的单元测试实战。
某公司使用MapReduce分析日志案例(10T数据以上)
配置公平调度器案例实战
Yarn资源控制 使用Cgroups支持CPU隔离
指定某个应用的资源使用策略;
根据指定策略实现 CPU 与内存的固定配额调度
根据指定策略实现 CPU 与内存百分比的配额调度
根据指定策略实现不同计算模型(mapreduce、spark)在各个计算节点的分布
根据指定策略实现不同计算模型个对资源的限定
根据指定策略实现不同计算模型在具体哪些节点上启动
基于Yarn的公平调度(Fair Scheduler)和能力调度(Capacity Scheduler) Yarn资源控制实战
Hive Hive和Pig基础
Hive、Impala和presto的比较
Hive的作用和原理说明
Hadoop仓库和传统数据仓库的协作关系
Hadoop/Hive仓库数据数据流
Hive 部署和安装
Hive Cli 的基本用法
Hive的server启动
HQL基本语法
Hive的加载数据本地加载和HDFS加载
Hive的partition详解
Hive的存储方式详解
RCFILE、TEXTFILE和SEQUEUEFILE
Hive的UDF和UDAF
Hive的transform详解
Hive的JDBC连接 使用JDBC 连接Hive进行查询和分析
使用正则表达式加载数据
编写UDF函数
编写UDAF自定义函数
Partition使用实战
Transform使用实战
某些大型公司使用hive分析日志案例详解和实战。
第三天 H使用 H原理
Hmaster详解
RegionServer详解
Zookeeper介绍
H安装
H逻辑视图介绍
H物理视图介绍
H的二级索引介绍
H 的DDL和DML
H表的设计案例
H的import功能介绍
MapReduce操作H
H的 thrift Server介绍
H 的API介绍
H案例分析 H安装实战
MapReduce操作H实战
H的API实战
H表结构设计实战
Spark介绍 内存计算—Spark
实时计算—Spark Streaming
SQL on Spark— Spark QL & Shark
基于spark的数据挖掘— Mllib
基于Spark的图计算—graphx
Spark on Yarn实战 Spark Kafka Spark Streaming H实时计算实战
互联网大数据应用案例 阿里的ODPS大数据平台架构介绍
阿里的实时推荐架构
阿里的交叉营销系统
阿里支付宝交易监控系统
支付宝微贷案例分析(互联网征信系统)
京东打白条系统分析
百度预测大数据平台案例分析
联通大数据开放平台变现案例分析 基于spark推荐案例实战(数据导入、数据建模、开发、效果展示)
银行大数据风险监控系统架构详解
培训师介绍
本课程名称: 关于举办“Hadoop大数据处理高级工程师” 实战培训班的通知
查看更多:语言公开课