|
1、【Cloudera Apache Hadoop管理員課程】(管理員)
2、【Cloudera Apache Hadoop程序員課程】(開(kāi)發(fā)者)
3、【Cloudera 數據分析課程】(數據分析)
4、【Cloudera Apache HBase課程】(HBase)
5、【Cloudera Apache Spark程序員課程】(Spark)
6、【Designing and BuildingBig Data Applications】(數據建模)
7、【Cloudera Introduction to Data Science】(數據科學(xué)家)
1、【Cloudera Apache Hadoop管理員課程】(通過(guò)考試可獲得CCAH全球認證證書(shū))
課時(shí):4天
學(xué)習系統管理的概念和Apache Hadoop的最佳實(shí)踐,
從安裝和配置到負載均衡和調優(yōu)。
這個(gè)4天的的課程通過(guò)動(dòng)手時(shí)間來(lái)賦予你部署的經(jīng)驗,
以及更多的安全方面的經(jīng)驗和故障排除。
課程結束后,學(xué)員被鼓勵去參加Cloudera和Apache Hadoop管理員(CCAH)考試。
【課程內容】
1、Hadoop分布式文件系統(HDFS)
2、YARN/MapReduce的工作原理
3、如何優(yōu)化Hadoop機群所需要的硬件配置
4、搭建Hadoop機群所需要考慮的網(wǎng)絡(luò )因素
5、Hadoop機群維護和控制
6、如何利用Hadoop配置選項進(jìn)行系統性能調優(yōu)
7、如何利用FairScheduler為多用戶(hù)提供服務(wù)級別保障
8、Hadoop機群維護和監控
9、如何使用Flume從動(dòng)態(tài)生成的文件加載到Hadoop
10、如何使用Sqoop從關(guān)系型數據加載數據
11、Hadoop生態(tài)系統工具(如Hive、Impala、Pig和Base)
【學(xué)員基礎】
具備基本Linux系統管理經(jīng)驗。不需要事先掌握Hadoop相關(guān)知識。
2、 【Cloudera Apache Hadoop程序員課程】(通過(guò)考試可獲得CCDH全球認證證書(shū))
課時(shí):4天
學(xué)習Hadoop分布式文件系統(HDFS)基礎和MapReduce框架以及如何利用其API來(lái)編寫(xiě)程序,
討論為更大型的工作流程而設計技術(shù)。
這門(mén)4天的課程涵蓋了為MapReduce程序修復漏洞和優(yōu)化性能所需的高級技巧。
程序員課程也引入了Apache生態(tài)項目比如Hive、Pig、HBase、Flume和Oozie。
在完成課程后,學(xué)員被鼓勵參加Cloudera認證Apache Hadoop程序員(CCDH)考試。
【課程內容】
1、MapReduce與HDFS內核知識以及如何編寫(xiě)MapReduce程序
2、Hadoop開(kāi)發(fā)的最佳實(shí)踐,調試、實(shí)現工作流及通用算法
3、如何利用Hive、Pig、Sqoop、Flume、Oozie及其他Hadoop的組件
4、按需定制WritableComparables與InputFormats處理復雜的數據類(lèi)型
5、利用MapReduce編寫(xiě)、執行連接操作以整合不同數據集合
6、用于現實(shí)世界數據分析所需的高級HadoopAPI主題
7、用Java寫(xiě)MapReduce程序,用Streaming寫(xiě)MapReduce程序
8、調試MapReduce代碼的策略,利用localjobrunner在本地測試MapReduce代碼
9、Partitioners和Reducers如何一起工作,定制化Partitioners
10、定制Writable和WritableComparable
11、用SequenceFile和Avro數據文件存儲二進(jìn)制數據
【學(xué)員基礎】
該課程適合具有一定編程經(jīng)驗的程序開(kāi)發(fā)人員。由于課程中需要完成Hadoop相關(guān)編程練習,熟悉Java者優(yōu)先
3、【Cloudera 數據分析課程】
課時(shí):4天
針對任何需要在Hadoop上實(shí)時(shí)地通過(guò)SQL和熟悉的腳本來(lái)管理、操縱和查詢(xún)大型復雜數據的人。
學(xué)習ApachePig、Apache Hive和Cloudera Impala如何通過(guò)過(guò)濾聯(lián)接和其他用戶(hù)自定義的功能
來(lái)支持數據的轉型和分析。
【課程內容】
1、Hadoop生態(tài)圈、實(shí)驗場(chǎng)景介紹、用Hadoop工具導入數據
2、pig的特性、使用案例、和pig交互、pig Latin語(yǔ)法、Field定義、用pig執行ETL流程
3、pig處理復雜數據,復雜/nested嵌套的數據類(lèi)型、用pig分析廣告戰役的數據
4、pig的多數據組操作,pig鏈接多數據組、用pig分析離散的數據組
5、用流處理和UDFs擴展pig,Macros和Imports、contributed functions,用其他語(yǔ)言和pig一起處理數據
6、pig故障排查和優(yōu)化,用web界面排查一個(gè)故障的任務(wù)、Data采樣和故障排查、理解執行計劃、提高pig任務(wù)性能
7、hive表結構和數據儲存、對比hive和傳統數據庫、hive vs.pig、hive使用案例
8、hive的關(guān)系數據分析、數據管理、文本處理、優(yōu)化及擴展,在shell、腳本和hue上運行hive查詢(xún)
9、impala和hive、pig、關(guān)系數據庫的不同、使用impalashell
10、采樣impala分析數據,過(guò)濾、排序and limiting results,提升impala性能,impala的交互式分析
11、對比map reduce、pig、hive、impala和關(guān)系數據庫
【學(xué)員基礎】
該課程適合有SQL經(jīng)驗和基本UNIX和Linux命令的數據分析師、業(yè)務(wù)分析師和管理員
事先無(wú)需Java和Apache Hadoop的經(jīng)驗
4、 【Cloudera Apache HBase課程】(通過(guò)考試可獲得CCSHB全球認證證書(shū))
課時(shí):4天
學(xué)習如何將HBase作為一個(gè)分布式的數據儲存以實(shí)現低延遲的查詢(xún)和高擴展的吞吐。
這4天的課程涵蓋了HBase架構、數據模型、Java API及其他高級課題和最佳實(shí)踐。
完成該課程后,學(xué)員被鼓勵參加cloudera認證Apache HBase專(zhuān)家(CCSHB)考試來(lái)驗證和認證其Hadoop經(jīng)驗。
【課程內容】
1、什么是HBase、為什么要用HBase,HBase和RDBMS,HBase的給予和索取
2、HBase系統管理API,HBase Shell、創(chuàng )建表、HBaseJava API、系統管理調用
3、通過(guò)HBaseAPI訪(fǎng)問(wèn)數據,API的使用、數據檢索、在shell添加和更新數據、刪除數據
4、用API添加、更新數據,Scan API、高級API技術(shù)、使用Eclipse
5、集群組件、HBase如何擴展,HBase寫(xiě)路徑、讀路徑,壓縮和拆分
6、HBase的安裝、配置及其安全性
7、HBasedaemnon、ZooKeeper、HBase系統管理
8、復制、備份、MapeRduce和HBase集群
9、HBase里RowKey設計,從關(guān)系數據庫到HBase表結構設計,以應用為中心的設計
10、列族、表結構設計的考慮點(diǎn)、熱點(diǎn)處理
11、HBase生態(tài)系統:OpenTSDB、Kiji、HBase和hive
【學(xué)員基礎】
該課程適合需要使用HBase的開(kāi)發(fā)員和管理員。
預備的數據庫和數據建模的經(jīng)驗有幫助,但不是必須的。
預備的Java知識有幫助,Hadoop經(jīng)驗不是必須的,
但是cloudera的Apache Hadoop開(kāi)發(fā)培訓課是個(gè)絕佳的基礎。
5、【Cloudera Apache Spark程序員課程】
課時(shí):4天
采用ApacheSpark來(lái)創(chuàng )建集成了批處理,流計算和互動(dòng)式分析的完整,統一的大數據應用。
學(xué)習編寫(xiě)復雜的并行應用來(lái)履行更快的商業(yè)決策和更好的用戶(hù)產(chǎn)出,并將其應用到廣泛的應用場(chǎng)景,架構和行業(yè)。
這門(mén)4天的課程針對那些希望在應用的速度,易用性和高級分析方面進(jìn)行優(yōu)化的程序員和軟件工程師。
【課程內容】
1、用Sparkshell執行互動(dòng)式數據分析
2、Spark的彈性分布式數據集(Resilient Distributed Datasets)的特性
3、Spark怎樣運行在一個(gè)集群上(一個(gè)獨立的Spark集群)
4、Spark的并行編程、編寫(xiě)Spark應用、用Spark處理流數據
5、RDDPartitions和HDFS數據局部性、使用Partitions、并行操作
6、Spark應用對比Spark shell、創(chuàng )建Spark context、配置Spark shell屬性
7、SparkStreaming簡(jiǎn)介、開(kāi)發(fā)Spark Streaming應用
8、Streaming的Word Count、其他Streaming操作、滑動(dòng)窗口操作
9、Spark、Hadoop和企業(yè)數據樞紐(EDH)
10、Spark和Hadoop生態(tài)圈、Spark和MapReduce
11、Caching and Persistence(RDD溯源、Caching緩存簡(jiǎn)介、分布式持久化機制)
【學(xué)員基礎】
該課程適合具有一定編程經(jīng)驗的程序開(kāi)發(fā)人員,課程樣例和練習涉及到Python和Scala語(yǔ)言。
需要Linux的基本知識,事先無(wú)需Hadoop經(jīng)驗。
6、【Designing and Building Big Data Applications】(數據建模)
課時(shí):4天
學(xué)習運用ApacheHadoop和企業(yè)數據樞紐中的關(guān)聯(lián)工具來(lái)分析和解決實(shí)際問(wèn)題,
你會(huì )遍歷其設計和創(chuàng )建的整個(gè)過(guò)程,包括數據導入,決定恰當的文件格式來(lái)存儲,
處理預存的數據,及用一個(gè)容易理解消化的形式向最終用戶(hù)呈現結果。
這門(mén)4天的課程面向那些需要研發(fā)高度業(yè)務(wù)相關(guān)的應用的數據家。
【課程內容】
1、定義使用DataSets,Metadata管理、Apache Avro、AvroSchemas演變
2、什么是theKite SDK ,Fundamental Data Module基礎概念Concepts,用Kite SDK創(chuàng )建新數據組
3、用ApacheSqoop輸入關(guān)系數據,基本輸入、限制結果、提升Sqoop性能、Sqoop 2
4、用ApacheFlume捕獲數據,Flume自定義組開(kāi)發(fā)、使用Flume自定義攔截器寫(xiě)Avro對象
5、采用ApacheOozie管理工作流,定義Oozie工作流,驗證、封包、部署,Oozie的Hue用戶(hù)界面
6、用ApacheCrunch處理數據管道,對比Crunch和Javamapreduce,應用Crunch projects,CrunchAPI的工具分級
7、使用ApacheHive里的表格,Basic Query Syntax,在Hive里采用RegexSerDe
8、開(kāi)發(fā)用戶(hù)定義功能,實(shí)現一個(gè)用戶(hù)定義功能,用Impala執行互動(dòng)式查詢(xún),數據和元數據管理
9、理解ClouderaSearch,Search架構、支持的文件格式
10、用Cloudera Search創(chuàng )建索引,Collection and SchemaManagement,Morphlines
11、Solr Query Sybtax,采用Hue創(chuàng )建搜索UI,通過(guò)JDBC訪(fǎng)問(wèn)Impala,用Impala和Search增強定制的web應用
【學(xué)員基礎】
該課程最適合需要使用Hadoop及其相關(guān)工具來(lái)解決現實(shí)問(wèn)題的程序員、工程師和架構師。
學(xué)員應該預先參加過(guò)cloudera的Apache Hadoop程序員培訓或有相當的實(shí)踐經(jīng)驗。
需要良好的Java知識,熟悉Linux。SQL經(jīng)驗會(huì )有幫助。
7、 【Cloudera Introductionto Data Science】(數據科學(xué)家)
課時(shí):4天
數據科學(xué)家創(chuàng )建信息平臺來(lái)提出和回答以前不敢想象的問(wèn)題。
學(xué)習數據學(xué)如何幫助公司降低成本,提升利潤,改進(jìn)產(chǎn)品,留住客戶(hù)和發(fā)現新機會(huì )。
這門(mén)4天的課程姜幫助學(xué)員理解數據科學(xué)家做什么,他們解決什么問(wèn)題,
在不同的行業(yè)里他們解決實(shí)際問(wèn)題的方法。
【課程內容】
1、使用案例:金融、零售、廣告業(yè)、電信和公用事業(yè)、醫療和藥品
2、項目周期里的步伐、實(shí)驗場(chǎng)景介紹
3、數據采集:數據源、采集技術(shù)
4、評估輸入數據:數據格式、數據質(zhì)量、數據數量
5、數據轉型:匿名化、文件格式轉換、聯(lián)結數據組
6、數據分析和統計模式:統計與概率的關(guān)系、描述性統計、統計推斷
7、機械學(xué)習基礎:機械學(xué)習的3C、Naive Bayes分類(lèi)器、數據和算法的重要性
8、推薦系統簡(jiǎn)介:什么是決策系統、協(xié)同過(guò)濾的類(lèi)型、推薦系統的局限
9、ApacheMahout是什么(不是什么),可用性和安裝、使用Mahout基于條目的推薦系統
10、用Apache Mahout實(shí)現推薦系統:二值、數值偏好的相似性度量,打分
11、實(shí)驗和評估、產(chǎn)品部署及更多
【學(xué)員基礎】
該課程適合有Apache Hadoop基本知識如HDFS、
MapReduce、Hadoop Streaming和Apache Hive的開(kāi)發(fā)人員、數據分析師和統計師。
學(xué)員應熟練腳本語(yǔ)言:建議熟練Python,而Perl或ruby只需熟悉即可。
Cloudera Hadoop學(xué)員交流 475436950 |
|