課程描述INTRODUCTION
Hadoop與Spark大數據開發培訓班
日程安排SCHEDULE
課程大綱Syllabus
Hadoop與Spark大數據開發培訓班
培訓對象
各地(di)政府(fu),院校云計(ji)算物聯網產業(ye)相關負責人(ren),各類 IT/軟(ruan)件(jian)企業(ye)和研發(fa)機構的軟(ruan)件(jian)架構師(shi)、軟(ruan)件(jian)設計(ji)師(shi)、程(cheng)序(xu)員、技術(shu)總監、數據(ju)挖掘負責人(ren)、數據(ju)挖掘開發(fa)工(gong)程(cheng)師(shi)等
課程目標
1、了解Hadoop與Spark的歷史及目前發展的現狀、以及Hadoop與Spark的技術特點,從而把握分布式計算框架及未來發展方向,在大數據時代能為企業的技術選型及架構設計提供決策參考。
2、全面掌握Hadoop與Spark的架構原理和使用場景,并通過貫穿課程的項目進行實戰鍛煉,從而熟練使用Hadoop進行MapReduce程序開發。課程還涵蓋了分布式計算領域的常用算法介紹,幫助學員為企業在利用大數據方面體現自身價值。
3、深入理(li)解(jie)Hadoop與(yu)(yu)Spark技(ji)術(shu)架構,對Hadoop與(yu)(yu)Spark運(yun)作機制有(you)清晰(xi)全面的(de)認識,可以獨立規劃及部(bu)署生產環(huan)境的(de)Hadoop與(yu)(yu)Spark集群,掌握Hadoop與(yu)(yu)Spark基本運(yun)維思路和(he)方法,對Hadoop與(yu)(yu)Spark集群進行管(guan)理(li)和(he)優化。
師資介紹
張(zhang)老(lao)師:阿里大(da)(da)數(shu)據(ju)高(gao)級專家(jia),國(guo)(guo)(guo)內資深的(de)(de)Spark、Hadoop技術(shu)(shu)專家(jia)、虛擬化專家(jia),對HDFS、MapReduce、Hbase、Hive、Mahout、Storm、spark和(he)openTSDB等Hadoop生態系(xi)(xi)統中(zhong)(zhong)的(de)(de)技術(shu)(shu)進(jin)行了多(duo)年的(de)(de)深入的(de)(de)研究,更主要(yao)的(de)(de)是(shi)這些技術(shu)(shu)在大(da)(da)量的(de)(de)實際項目(mu)(mu)中(zhong)(zhong)得到廣(guang)泛(fan)的(de)(de)應(ying)用,因(yin)此在Hadoop開發和(he)運(yun)維方面積(ji)累了豐富(fu)的(de)(de)項目(mu)(mu)實施經驗。近(jin)年主要(yao)典型(xing)的(de)(de)項目(mu)(mu)有:某(mou)電信集團網絡優化、中(zhong)(zhong)國(guo)(guo)(guo)移(yi)動某(mou)省移(yi)動公(gong)司請賬(zhang)單(dan)系(xi)(xi)統和(he)某(mou)省移(yi)動詳單(dan)實時查詢系(xi)(xi)統、中(zhong)(zhong)國(guo)(guo)(guo)銀(yin)聯大(da)(da)數(shu)據(ju)數(shu)據(ju)票據(ju)詳單(dan)平臺、某(mou)大(da)(da)型(xing)銀(yin)行大(da)(da)數(shu)據(ju)記(ji)錄(lu)系(xi)(xi)統、某(mou)大(da)(da)型(xing)通信運(yun)營商全(quan)國(guo)(guo)(guo)用戶(hu)上網記(ji)錄(lu)、某(mou)省交通部(bu)門違章系(xi)(xi)統、某(mou)區域(yu)醫療大(da)(da)數(shu)據(ju)應(ying)用項目(mu)(mu)、互聯網公(gong)共數(shu)據(ju)大(da)(da)云(DAAS)和(he)構建游戲云(Web Game Daas)平臺項目(mu)(mu)等。
培訓特色
注重應用:分析國內實際情況,結合國際、國內成功經驗。采用實戰的項目,讓學員在短時間內掌握Hadoop與Spark的搭建與配置。并進行高效的大數據清洗和分析。
形(xing)式靈活:互動(dong)課(ke)堂、免費(fei)技(ji)術沙龍、提供云計算項目(mu)建設(she)咨詢、大數據(ju)Hadoop平臺(tai)的(de)搭建。
頒發證書
參加相關培訓并通過考試的學員,可以獲得:
工(gong)業和信(xin)息化部頒發的(de)-《大數據開發高級工(gong)程師證(zheng)書》。該證(zheng)書可(ke)作(zuo)為專業技(ji)術人員(yuan)職(zhi)業能(neng)力考核(he)的(de)證(zheng)明(ming),以(yi)及(ji)專業技(ji)術人員(yuan)崗位聘用、任(ren)職(zhi)、定級和晉升(sheng)職(zhi)務的(de)重要(yao)依(yi)據。注(zhu):請(qing)學員(yuan)帶一寸彩照2張(zhang)(背面注(zhu)明(ming)姓(xing)名)、身份證(zheng)復印件一張(zhang)。
培訓費用及須知
6800元/人(含教材、培訓(xun)費(fei)、考(kao)證費(fei)以及學習(xi)用(yong)具等(deng)費(fei)用(yong)) 食宿統一安排(pai),費(fei)用(yong)自理。
培訓內容(4天課程)
模塊一 Hadoop在云計算技術的作用和地位
傳統大規模系統存在的問題
Hadoop概述
Hadoop分布式文件系統
MapReduce工作原理
Hadoop集群剖析
Hadoop生態系統對一種新的解決方案的需求
Hadoop的行業應用案例分析
Hadoop在云計算和大數據的位置和關系
數據開放,數據云服務平臺(DAAS)時代
Hadoop平臺在數據云平臺(DAAS)上的天然優勢
數據云平臺(DAAS 平臺)組成部分
互聯網公共數據大云(DAAS)案例
Hadoop構建(jian)(jian)構建(jian)(jian)游(you)戲云(Web Game Daas)平(ping)臺
模塊二 Hadoop生態系統介紹和演示
Hadoop HDFS 和 MapReduce
Hadoop數據庫之Hbase
Hadoop數據倉庫之Hive
Hadoop數據處理腳本Pig
Hadoop數據接口Sqoop和Flume,Scribe DataX
Hadoop工作流引擎 Oozie
運用Hadoop自下而上構建大規模企業數據倉庫
暴風影音(yin)數據(ju)倉庫實戰解析
模塊三 Hadoop組件詳解
Hadoop HDFS 基本結構
Hadoop HDFS 副本存放策略
Hadoop NameNode 詳解
HadoopSecondaryNameNode 詳解
Hadoop DataNode 詳解
Hadoop JobTracker 詳解
Hadoop TaskTracker 詳解
Hadoop Mapper類核心代碼
Hadoop Reduce類核心代碼
Hadoop 核心代碼
模塊四 Hadoop安裝和部署
Hadoop系統模塊組件概述
Hadoop試驗集群的部署結構
Hadoop 安裝依賴關系
Hadoop 生產環境的部署結構
Hadoop集群部署
Hadoop 高可用配置方法
Hadoop 集群簡單測試方法
Hadoop 集群異常Debug方法
Hadoop安裝部署實驗
Red hat Linux基礎環境搭建
Hadoop 單機系統版本安裝配置
Hadoop 集群系統版本安裝和啟動配置
使用 Hadoop MapReduce Streaming 快速測試系統
Hadoopcore-site,hdfs-site,mapred-site 配(pei)置詳(xiang)解
模塊五 Hadoop集群規劃
Hadoop 集群內存要求
Hadoop集群磁盤分區
集群和網絡拓撲要求
集群軟件的端口配置
針對NameNode Jobtracker DataNode TaskTracker Hiveserver 等不同組(zu)件(jian)需求(qiu)推薦服務器(qi)配置
模塊六 MapReduce 算法原理
Hadoop MapReduce 算法的原理和優化思想
靈活運用MapReduce 實現算法
運用MapReduce 構建數據庫算法
Select Sort GrougBy Sum Count
Join 新進流失算法
使用(yong) Y-Smart 快速轉換SQL 為(wei)MapReduce 代碼
模塊七 編寫MapReduce高級程序
使用 Hadoop MapReduce Streaming 編程
MapReduce流程
剖析一個MapReduce程序
基本MapReduceAPI概念
驅動代碼 Mapper、Reducer
Hadoop流
API 使用Eclipse進行快速開發
新MapReduce API
MapReduce的優化
MapReduce的任務調度
MapReduce編程實戰
如何利用其他Hadoop相關技術,包括Apache Hive, Apache Pig,Sqoop和Oozie等
滿足解決實際數據分析問題的高級Hadoop API
Hadoop Streaming 和 Java MapReduce Api 差異。
MapReduce 實現數據庫功能
利用Combiners來減少中間數據
編寫Partitioner來優化負載平衡
直接訪問Hadoop分布式文件系統(HDFS)
Hadoop的join操作
輔助排序在Reducer方的合并
定制Writables和WritableComparables
使用SequenceFiles和Avro文件保存二進制數據
創建InputFormats OutputFormats
Hadoop的二次排序
Hadoop的海量日志分析
在(zai)Map方的合(he)并
模塊八 集成Hadoop到現有工作流及Hadoop API深入探討
存儲系統
利用Sqoop從關系型數據庫系統中導入數據到Hadoop
利用Flume導入實時數據到Hadoop
ToolRunner介紹、使用MRUnit進行測試
使用Configure和Close方法來進行Map/Reduce設置和關閉
使用FuseDFS和Hadoop訪問HDFS
使用分布式緩存(Distributed Cache)
直接訪問Hadoop分布式文件系統(HDFS)
利用Combiners來減少中間數據
編寫Partitioner來優化負載平衡(heng)
模塊九 使用Hive和Pig開發及技巧
Hive和Pig基礎
Hive的作用和原理說明
Hadoop倉庫和傳統數據倉庫的協作關系
Hadoop/Hive倉庫數據數據流
Hive 部署和安裝
Hive Cli 的基本用法
HQL基本語法
運用Pig 過濾用戶數據
使用JDBC 連接Hive進行查詢和分析
使用正則表達式加載數據
HQL高級語法
編寫UDF函數
編寫UDAF自定義函數
基于(yu)Hive腳本內嵌(qian)Streaming 編程
模塊十 Hbase安裝和使用
Hbase 安裝部署
Hbase原理和結構
Hbase 運維和管理
使用Hbase+Hive 提供 OLAP SQL查詢能力
使用Hbase+Phoenix提供 OLTP SQL能力
基于Hbase 的時(shi)間序列(lie)數據庫 OpenTsDb 結構解析
模塊十一 Hadoop2.0 集群探索
Hadoop2.0 HDFS 原理
Hadoop2.0 Yarn 原理
Hadoop2.0 生態系統
基于Hadoop2.0 構(gou)建分布式(shi)系統
模塊十二 Hadoop企業級別案例解析
Hadoop 結構化數據案例
Hadoop 非結構化案例
Hbase 數據庫案例
Hadoop 視頻分析案例
利用大數據分析改進交通管理
區域醫療大數據應用案例
銀聯大數據數據票據詳單平臺
廣東移動省公司請賬單系統
上海電信網絡優化
某通信運營商全國用戶上網記錄
浙江臺州市智能交通系統
移動廣州詳單實時查詢系統
跨區(qu)域實(shi)時(shi)視頻監控系統
模塊十三 RedHadoop 企業版本
運用RedHadoop快速構建服務集群
運用RedHadoop DW 構建數據倉庫
基于RedHadoop Hive構建數據倉庫平臺
靈活運用 Hive 加速游戲數據倉庫
基于Pig+OpenCV大規模圖像人臉識別(bie)
模塊十四 Spark生態介紹
Mapreduce、storm和spark模型的比較和使用場景介紹
Spark產生背景
Spark(內存計算框架)
SparkSteaming(流式計算框架)
Spark SQL(ad-hoc)
Mllib(MachineLearning)
GraphX(bagel將被代)
DlinkDB介紹
SparkR介紹
模塊十五 Spark安裝部署
Spark安裝簡介
Spark的源碼編譯
Spark Standalone安裝
Spark應用程序部署工具spark-submit
Spark的高可用(yong)性部署
模塊十六 Spark運行架構和解析
Spark的運行架構
基本術語
運行架構
Spark on Standalone運行過程
Spark on YARN 運行過程
Spark運行實例解析
Spark on Standalone實例解析
Spark on YARN實例解析
比較 Standalone與(yu)YARN模(mo)式下(xia)的(de)優缺點(dian)
模塊十七 Spark scala編程
Scala基本語法與高階語法
Scala基本語法
Scala開發環境搭建
Scala開發Spark應用程序
使用java編程
使用scala編程
使用python編程
Hadoop與Spark大數據開發培訓班
轉載://citymember.cn/gkk_detail/27536.html
已開(kai)課時間Have start time
大數據課程內訓
- 數據創造價值——大數據分析 張曉如
- 《大數據精益化營銷思維與運 喻國(guo)慶
- 大數據提升:用戶體驗提升與 武建偉
- 《銀行--網絡消費行為與網 武建偉
- 大數據項目解決方案及應用 胡(hu)國慶
- 企業區塊鏈技術的應用場景與 李璐(lu)
- 《精細運營——京東/天貓平 武建偉
- 《大數據分析與客戶開發》 喻國慶
- 數據驅動價值 ——基于Ex 張曉如(ru)
- 建材門店--微信獲客與運營 武(wu)建偉
- 能源電力企業數字化轉型探索 李開東
- 《流量神器,銷量升級:如何 武建偉