关于举办“Hadoop大数据处理高级工程师” 实战培训班的通知 各有关单位:为贯彻落实党中央国务院“十二五”规划引导精神,云计算作为战略重点项目新兴产业,政府和业界都表现出了极大的热情。日前发改委、工信部、财政部支撑的云计算项目正式启动,云计算平台和云计算服务模式已成为今后IT服务的主流。云计算服务应用的种类不断增多,普及程度逐渐深入,使用者正向普通用户拓展。未来,云计算及其基础设施将是信息产业的核心平台,其所蕴含的技术变革和创新服务模式,将深刻影响全球产业技术创新的发展。 目前,互联网正从数据爆炸进一步发展到海量数据分析和挖掘的时代,而基于Hadoop技术的解决方案为海量数据存储和处理提供了经济、高效、高安全性和高可靠性的保障,Apache Hadoop也因此成为大数据行业发展背后的驱动力。由于Hadoop技术已成为当下最火热的云计算技术之一,各行业中希翼深入了解并掌握这门技术的人也越来越多,中国App产业培训中心决定开展“大数据处理Hadoop大数据处理高级工程师”实战培训班,本次培训由软博时代(北京)科技有限企业具体承办,望相关单位收到通知后积极参加。相关培训事宜如下: 一、课程目标 1、了解Hadoop的历史及目前发展的现状、以及Hadoop的技术特点,从而把握分布式计算框架及未来发展方向,在大数据时代能为企业的技术选型及架构设计提供决策参考。 2、全面掌握Hadoop的架构原理和使用场景,并通过贯穿课程的项目进行实战锻炼,从而熟练使用Hadoop进行MapReduce程序开发。课程还涵盖了分布式计算领域的常用算法先容,帮助学员为企业在利用大数据方面体现自身价值。 3、深入理解Hadoop技术架构,对Hadoop运作机制有清晰全面的认识,可以独立规划及部署生产环境的Hadoop集群,掌握Hadoop基本运维思路和方法,对Hadoop集群进行管理和优化。 二、培训时间和地点 2017年10月25日-10月29日 南京 (25日全天报到) 2017年11月15日-11月19日福州 (15日全天报到) 2017年11月29日-12月03日北京 (29日全天报到) 三、培训对象 各地政府云计算物联网产业相关负责人,各企业CIO、信息中心负责人、技术总监,云计算中心负责人,云计算产业投资团队,云计算应用开发商,云计算硬件设备供应商,云服务提供商,高校、科研院所云计算项目负责人。 各企业大数据架构师、技术总监、数据挖掘负责人、数据挖掘开发工程师 四、师资力量 张老师:阿里大数据高级专家,国内资深的Spark、Hadoop技术专家、虚拟化专家,对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB、大数据挖掘算法等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有:某电信集团网络优化、中国移动某省移动企业请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。 五、培训特色 注重应用:分析国内实际情况,结合国际、国内成功经验。Hadoop采用实战的项目,让学员在短时间内掌握Hadoop的搭建与配置。并进行高效的大数据清洗和分析。 形式灵活:互动课堂、免费技术沙龙、提供云计算项目建设咨询、大数据Hadoop平台的搭建。 六、颁发证书 参加相关培训并通过考试的学员,可以获得: 工业和信息化部颁发的-《HADOOP大数据高级工程师证书》 该证书电子注册,全国通用,能够证明持证人达到相关职位要求的技术水平,及相应岗位要求的理论基础和应用能力,可作为专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。 注:请学员带二寸彩照2张(背面注明姓名)、身份证复印件一张。 七、培训费用及须知 5800 元/人(含教材、培训费、以及学习用具等费用)食宿可统一安排,费用自理。 八、培训内容(3天课程) | | | | | | ü 传统大规模数据分析存在的问题 ü Hadoop概述 ü Hadoop与分布式文件系统 ü Hadoop生态系统 ü Hadoop的行业应用案例分析 ü Hadoop在云计算和大数据的位置和关系 ü Hadoop版本先容 ü Hadoop与谷歌 FS的关系 ü Hadoop在国内的使用情况和未来 | Ø Hadoop在推荐领域的使用案例先容 | | | ü 离线计算架构、技术和应用场景 ü 实时查询架构、技术和应用场景 ü 流式计算架构、技术和应用场景 ü 内存计算架构、技术和应用场景 ü 海量数据的ETL | | | | ü Hadoop NameNode 先容 ü Hadoop SecondaryNameNode 先容 ü Hadoop DataNode 先容 ü Hadoop JobTracker 先容 ü Hadoop TaskTracker 先容 | | | | ü HDFS架构先容 ü HDFS原理先容 ü NameNode功能详解 ü DataNode功能详解 ü SecondaryNameNode功能详解 ü HSFD的fsimage和editslog详解 ü HDFS的block详解 ü HDFS的block的备份策略 ü Hadoop的机架感知配置 ü HDFS的shell命令先容 ü HDFS的thrift server服务先容 ü HDFS的API接口先容 ü HDFS的权限详解 ü Hadoop的客服端接入案例 | Ø Hadoop的shell命令演示 Ø Hadoop的API接口演示 Ø Hadoop的客服端接入案例 | | | ü 集群管理工具—ambari ü 分布式存储—HDFS ü 分布式计算— MapReduce ü noSQL数据库—Hbase ü 工作流工具—Oozie ü 数据的并行采集—Flume ü MapReduce脚本工具—Pig ü 与关系型数据库之间的数据迁移—Sqoop ü 资源管理平台—Yarn ü 数据挖掘算法—Mahout ü 分布式统一服务—Zookeeper ü Hadoop安全工具—Knox | | | | ü Mapreduce原理 ü MapReduce流程 ü 剖析一个MapReduce程序 ü Mapper和Reducer抽象类详解 ü Mapreduce的最小驱动类 ü MapReduce自带的类型 ü 自定义Writables和WritableComparables ü Mapreduce的输入InputFormats ü MapReduce的输出OutputFormats ü Combiner详解 ü Partitioner详解 ü DistributeFileSystem详解 ü Hadoop Tools工具先容 ü Counter计数器详解 ü 自定义Counter计数器 ü 基于Hadoop二次开发实战 ü MapReduce的优化 ü Map和Reduce的个数设置 ü Hadoop小文件优化 ü 任务调度 ü 默认的任务调度 ü 公平任务调度 ü 能力任务调度 ü 使用 Hadoop MapReduce Streaming 编程 ü MapReduce的单元测试 | Ø MapReduce实现海量数据比较大小案例 Ø 自定义Hadoop类型案例 Ø 自定义Partitioner案例 Ø 实现在内存随机生成100个数,分成两个Map来比较大小 Ø 多文件输出和自动定义MapReduce的输出名 Ø MapReduce实现Join算法案例 Ø MapReduce实现海量文档相似度算法 Ø 自定义Counter案例实现 Ø MapReduce实现Pangrank算法。 Ø MapReduce单元测试:Map的单元测试测试、reduce单元测试和MapReduce整体的单元测试实战。 Ø 某企业使用MapReduce分析日志案例(10T数据以上) Ø 配置公平调度器案例实战 | | | ü 使用Cgroups支撑CPU隔离 ü 指定某个应用的资源使用策略; ü 根据指定策略实现 CPU 与内存的固定配额调度 ü 根据指定策略实现 CPU 与内存百分比的配额调度 ü 根据指定策略实现不同计算模型(mapreduce、spark)在各个计算节点的分布 ü 根据指定策略实现不同计算模型个对资源的限定 ü 根据指定策略实现不同计算模型在具体哪些节点上启动 ü 基于Yarn的公平调度(Fair Scheduler)和能力调度(Capacity Scheduler) | | | | ü Hive和Pig基础 ü Hive、Impala和presto的比较 ü Hive的作用和原理说明 ü Hadoop仓库和传统数据仓库的协作关系 ü Hadoop/Hive仓库数据数据流 ü Hive 部署和安装 ü Hive Cli 的基本用法 ü Hive的server启动 ü HQL基本语法 ü Hive的加载数据本地加载和HDFS加载 ü Hive的partition详解 ü Hive的存储方式详解 ü RCFILE、TEXTFILE和SEQUEUEFILE ü Hive的UDF和UDAF ü Hive的transform详解 ü Hive的JDBC连接 | Ø 使用JDBC 连接Hive进行查询和分析 Ø 使用替换后加载数据 Ø 编写UDF函数 Ø 编写UDAF自定义函数 Ø Partition使用实战 Ø Transform使用实战 Ø 某些大型企业使用hive分析日志案例详解和实战。 | | | ü Hbase原理 ü Hmaster详解 ü RegionServer详解 ü Zookeeper先容 ü Hbase安装 ü Hbase逻辑视图先容 ü Hbase物理视图先容 ü Hbase的二级索引先容 ü Hbase 的DDL和DML ü Hbase表的设计案例 ü Hbase的import功能先容 ü MapReduce操作Hbase ü Hbase的 thrift Server先容 ü Hbase 的API先容 ü Hbase案例分析 | Ø Hbase安装实战 Ø MapReduce操作Hbase实战 Ø Hbase的API实战 Ø Hbase表结构设计实战 | | | u Hadoop 结构化数据案例 u Hadoop 非结构化案例 u Hbase 数据库案例 u Hadoop 视频分析案例 | u 利用大数据分析改进交通管理 u 区域医疗大数据应用案例 u 银联大数据数据票据详单平台 u 广东移动省企业请账单系统 u 上海电信网络优化 u 某通信运营商全国用户上网记录 u 浙江台州市智能交通系统 u 移动广州详单实时查询系统 u 跨区域实时视频监控系统 | | | u 运用RedHadoop快速构建服务集群 u 运用RedHadoop DW 构建数据仓库 | u 基于RedHadoop Hive构建数据仓库平台 u 灵活运用 Hive 加速游戏数据仓库 u 基于Pig+OpenCV大规模图像人脸识别 | | | ü 内存计算—Spark ü 实时计算—Spark Streaming ü SQL on Spark— Spark QL & Shark ü 基于spark的数据挖掘— Mllib ü 基于Spark的图计算—graphx ü Spark on Yarn实战 | Ø Spark+Kafka+Spark Streaming+Hbase实时计算实战 | | | ü 阿里的ODPS大数据平台架构先容 ü 阿里的实时推荐架构 ü 阿里的交叉营销系统 ü 阿里支付宝交易监控系统 ü 支付宝微贷案例分析(互联网征信系统) ü 京东打白条系统分析 ü 百度预测大数据平台案例分析 ü 联通大数据开放平台变现案例分析 | |
八、报名回执 “大数据处理Hadoop应用与开发”报名回执表 | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | 户 名:软博时代(北京)科技有限企业 开 户 行:招商银行北京陶然亭支行 帐 号:110914587710501 | 户 名:中联软博(北京)科技有限企业 开 户 行:中国工商银行北京中关村支行 账 号:0200095609200088230 | | | | | | | |
联 系 人:田 越 18910531169 程冲 18618257837 电 话:010-57135220 传 真:010-61370263 中国App产业培训网 邮 箱:rpzxcc@vip.163.com (请将回执表传至此邮箱) 2017年7月19日
|