张老师:阿里大数据高级专家,国内资深的Spark、Hadoop技术专家、虚拟化专家,对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有:某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。
课程介绍 评价详情(0)
培训受众:
2.大数据分析项目的规划咨询管理人员
3.大数据分析项目的IT项目高管人员
4.大数据分析与挖掘处理算法应用工程师
5.大数据分析集群运维工程师
6.大数据分析项目的售前和售后技术支持服务人员
课程收益:
2.本课程强调主流的大数据分析挖掘算法技术的应用和分析平台的实施,让学员掌握主流的基于大数据Hadoop和Spark的大数据分析平台架构和实际应用,并用结合实际的生产系统案例进行教学,掌握基于Hadoop、spark大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。。
3.让学员掌握常见的机器学习算法,深入讲解业界成熟的大数据分析挖掘与BI平台的实践应用,并以客户分析系统、日志分析和电商推荐系统为案例,串联常用的数据挖掘技术进行应用教学。
培训颁发证书:
课程大纲
课程大纲:
课程模块
内容提要
授课详细内容
模块一
Spark ML基础入门
1.1 Spark介绍
1.2 Spark ML介绍
1.3 课程的基础环境
1.4 Spark SparkSession
1.5 Spark Datasets操作
1.6 Datasets操作的代码实操
模块二
Spark ML
Pipelines(ML管道)
2.1 Pipelines的主要概念
2.2 Pipelines实例讲解
2.3 ML操作的代码实操
2.4 使用 ML Pipeline 构建机器学习工作流案例展示
2.5 实例的代码实操声
模块三
Spark ML数学基础
3.1 ML矩阵向量计算
3.2 分类效果评估指标及ML实现详解
3.3 交叉-验证方法及ML实现详解
3.4 实例的代码实操
3.5 特征的提取及ML实现详解
3.6特征的转换及ML实现详解
3.7 特征的选择及ML实现详解
3.8 实例的代码实操
模块四
Spark ML特征的提取、转换和选择
4.1 线性回归算法
4.2 逻辑回归算法
4.3 ML回归算法参数详解
4.4 ML实例
4.5 实例的代码实操
模块五
Spark ML线性回归/逻辑回归算法
5.1 决策树算法
5.2 随机森林算法
5.3 GDBT算法
5.4 ML树模型参数详解
5.5 ML实例
5.6 实例的代码实操
模块六
Spark ML决策树/随机森林/GBDT算法
6.1 KMeans聚类算法
6.2 ML KMeans模型参数详解
6.3 ML实例
6.4 实例的代码实操
模块七
Spark ML KMeans聚类算法
7.1 LDA主题聚类算法
7.2 ML LDA主题聚类模型参数详解
7.3 ML实例
7.4 实例的代码实操
模块八
Spark ML LDA主题聚类算法
8.1 协同过滤推荐算法
8.2 ML协同过滤分布式实现逻辑
8.3 ML协同过滤源码开发
8.4 实现实例
8.5 实例的代码实操
模块九
Spark ML协同过滤推荐算法
9.1 案例背景
9.2 架构设计
9.3 数据准备
9.4 模型训练
9.5 模型预测
9.6 脚本封装
模块十
项目实践
大型案例:基于Spark的推荐模型开发
模块十一
培训总结
项目方案的课堂讨论,讨论实际业务中的分析需求,剖析各个环节的难点、痛点、瓶颈,启发出解决之道;完成讲师布置的项目案例,巩固学过的大数据分析挖掘处理平台技术知识以及应用技能
培训师介绍
钟老师,男,博士毕业于中国科学院,获工学博士学位(计算机系统结构方向),曾在国内某高校和某大型通信企业工作过,目前在中国科学院某研究所工作,高级工程师,副研究员,课题组长,团队成员二十余人。大数据、云计算系列课程建设与教学专家,新技术课程开发组长。近八年来带领团队主要从事大数据管理与高性能分析处理(Hadoop、Spark、Storm)、大数据仓库(HIVE)和实时数据仓库(SparkSQL、Shark),大数据建模挖掘与机器学习(Mahout、MLib、Oryx、Pentaho BI、SAS、SPSS、R等)、MPP并行数据仓库(Greenplum etc)、NoSQL与NewSQL分布式数据库(HBase、MongoDB、Cassandra etc)、(移动)电子商务平台、大数据搜索平台(ElasticSearch、Solr、Lucene等)、云计算与虚拟化(OpenStack,VMware,XenServer,CloudStack,KVM,Docker,SaaS服务)、云存储系统、Swift对象存储系统、网络GIS地图服务器、互联网 在线教育云平台方面的项目研发与管理工作。
本课程名称: 大数据建模与分析挖掘应用”实战培训班
查看更多:语言公开课