课程培训
基于Spark的大数据分析培训与咨询

 

培训目标:

 

  • 理解并掌握Spark 整体架构设计与编程模型
  • 能够编写并部署Spark程序与测试代码
  • 掌握能够将kafka结合Spark streaming使用的方法
  • 掌握Spark与HDFS、HBase的结合使用方法
  • 理解Spark与Zookeeper结合高可用性部署方案
  • 能够对Spark进行优化(内存、并发等)
  • 了解在以往经验中容易出现错误的地方以及相应的解决方案
  • 了解Spark MLlib的使用
  • 了解Hadoop MapReduce与Spark的关系与差异

Spark概述

  • 大数据起源
  • 离线分析、在线分析与流计算
  • 开源大数据包Spark概述
  • Spark的扩展包SQL、MLLib和GraphX
  • 开源社区的组织结构与开源条款
  • 案例解析:一个跨国IT企业的开源包使用法务流程与风险规避

Scala编程原理

  • Scala:函数式编程
  • 安装Scala集成开发环境
  • 使用Scala分析北京汽车摇号结果
  • 将MapReduce程序迁移到Spark上
  • 实战练习:在本机上使用scala进行简单的spark编程

Spark Streaming流计算

  • Spark Streaming概述
  • Kafka概述
  • 基于Kafka数据源的Spark Stream练习
  • 在本机上使用scala进行简单地Spark Streaming编程,数据源使用Kafka

Spark的分布式存储

  • Standalone Spark集群配置
  • HDFS集群配置
  • 编写Scala程序访问HDFS
  • 实战练习:在本机上使用scala进行简单的HDFS数据访问

Spark与NOSQL

  • NOSQL存储特征与数据格式
  • 使用Scala进行HBase数据分析示例
  • 实战练习:在本机上使用scala进行HBase数据访问

Spark与Yarn

  • Spark on Yarn集群配置
  • Spark on Yarn与standalone相比的优势
  • 案例分析:某巨型互联网公司基于Spark on Yarn的超大规模集群部署案例分析

Spark与MapReduce

  • Spark计算模型和MapReduce的对比
  • Spark与MapReduce的相同点
  • Spark与MapReduce的差异

Spark性能

  • Spark资源调度方法
  • CPU、内存、网络与存储配置对性能的影响及常用调优参数
  • 案例解析:一个跨国IT企业的spark集群构建方法与参数选择

Spark与MLlib

  • 机器学习的常用算法
  • 使用Spark MLlib实现机器学习算法

Spark与ZooKeeper

  • 通过ZooKeeper实现Spark高可用架构

Spark的案例

  • 一个基于Spark与Hadoop的实时分析系统架构设计与实现—某银行的大数据体系介绍以及spark在其中扮演的角色
  • 方案设计
  • 分析算法确定
  • 分析算法与数据流设计
  • 技术实现演示 



如果您想学习本课程,请预约报名
如果没找到合适的课程或有特殊培训需求,请订制培训
除培训外,同时提供相关技术咨询与技术支持服务,有需求请发需求表到邮箱soft@info-soft.cn,或致电4007991916
技术服务需求表下载请点击

服务优势:
丰富专家资源,精准匹配相关行业,相关项目技术精英,面向用户实际需求,针对性培训或咨询,互动式交流,案例教学,精品小班,实际工程项目经验分享,快捷高效,节省时间与金钱,少走弯路与错路。

专家力量:
中国科学院相关研究所高级研究人员
西门子,TI,vmware,MSC,Ansys,MDI,Mentor, candence,Altium,Atmel 、Freescale,达索,华为等
大型公司高级工程师,项目经理,技术支持专家
中科信软培训中心,资深专家或讲师
大多名牌大学,硕士以上学历,相关学历背景专业,理论素养高
多年实际项目实践,大型复杂项目实战案例分享,热情,乐于技术分享
针对客户实际需要,真实案例演示,互动式沟通,学有所值
报名表下载
联系我们 更多>>

咨询电话010-62883247

                4007991916

咨询邮箱:soft@info-soft.cn  

 

微信号.jpg

  微信咨询

随时听讲课

聚焦技术实践

订制培训 更多>>