Mulțumim pentru trimiterea solicitării! Un membru al echipei noastre vă va contacta în curând.
Mulțumim pentru trimiterea rezervării! Un membru al echipei noastre vă va contacta în curând.
Schița de curs
-
Introducere
- Istoria și conceptele Hadoop
- Ecosistemul
- Distribuții
- Arhitectura de nivel înalt
- Mituri despre Hadoop
- Provocări Hadoop (hardware / software)
- Laboratoare: discutați proiectele și problemele dumneavoastră de Big Data
-
Planificare și instalare
- Selectarea software-ului, distribuții Hadoop
- Dimensionarea clusterului, planificarea creșterii
- Selectarea hardware-ului și a rețelei
- Topologia rack-urilor
- Instalare
- Multi-tenancy
- Structura directorului, jurnale
- Testarea performanțelor
- Laboratoare: instalare cluster, rulare teste de performanță
-
Operațiuni HDFS
- Concepte (scalare orizontală, replicare, localizarea datelor, conștientizarea rack-urilor)
- Noduri și daemoni (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitorizarea stării de sănătate
- Administrare prin linie de comandă și bazată pe browser
- Adăugarea spațiului de stocare, înlocuirea unităților defecte
- Laboratoare: familiarizare cu comenzile HDFS
-
Ingestia datelor
- Flume pentru ingesta jurnalelor și altor date în HDFS
- Sqoop pentru importul din baze de date SQL în HDFS, precum și exportul înapoi în SQL
- Depozitarea datelor Hadoop cu Hive
- Copierea datelor între clustere (distcp)
- Utilizarea S3 ca complement la HDFS
- Practici și arhitecturi de ingesta a datelor
- Laboratoare: configurare și utilizare Flume, la fel pentru Sqoop
-
Operațiuni și administrare MapReduce
- Calculul paralel înainte de MapReduce: comparați administrarea HPC vs Hadoop
- Încărcări ale clusterului MapReduce
- Noduri și Daemoni (JobTracker, TaskTracker)
- Parcurgerea interfeței MapReduce
- Configurarea MapReduce
- Configurarea job-urilor
- Optimizarea MapReduce
- Protejarea MapReduce: ce să le spuneți programatorilor
- Laboratoare: rulare exemple MapReduce
-
YARN: noua arhitectură și noi capacități
- Obiective de proiectare și arhitectură de implementare YARN
- Noii actori: ResourceManager, NodeManager, Application Master
- Instalarea YARN
- Planificarea job-urilor sub YARN
- Laboratoare: investigarea planificării job-urilor
-
Subiecte avansate
- Monitorizarea hardware-ului
- Monitorizarea clusterului
- Adăugarea și eliminarea serverelor, actualizarea Hadoop
- Backup, recuperare și planificare a continuității afacerilor
- Fluxuri de lucru Oozie
- Disponibilitate ridicată Hadoop (HA)
- Federația Hadoop
- Securizarea clusterului cu Kerberos
- Laboratoare: configurare monitorizare
-
Track-uri optionale
- Cloudera Manager pentru administrarea, monitorizarea și sarcinile de rutină ale clusterului; instalare, utilizare. În acest track, toate exercițiile și laboratoarele sunt efectuate în mediul de distribuție Cloudera (CDH5)
- Ambari pentru administrarea, monitorizarea și sarcinile de rutină ale clusterului; instalare, utilizare. În acest track, toate exercițiile și laboratoarele sunt efectuate în managerul de cluster Ambari și platforma de date Hortonworks (HDP 2.0)
Cerințe
- familiarizat cu administrarea de bază a sistemelor Linux
- cunoștințe de bază de scriptare
Cunoștințe despre Hadoop și Calculul Distribuit nu sunt necesare, dar vor fi introduse și explicate în cadrul cursului.
Mediu de laborator
Zero Instalare: Nu este nevoie să instalați software Hadoop pe mașinile studenților! Un cluster Hadoop funcțional va fi oferit studenților.
Studenții vor avea nevoie de următoarele
- un client SSH (Linux și Mac au deja clienți SSH, pentru Windows se recomandă Putty)
- un browser pentru a accesa clusterul. Recomandăm browserul Firefox cu extensia FoxyProxy instalată
21 Ore
Mărturii (1)
Exerciții practice. Clasa ar fi trebuit să dureze 5 zile, dar cele 3 zile au ajutat la clarificarea multor întrebări pe care le aveam din cauza lucrului cu NiFi.
James - BHG Financial
Curs - Apache NiFi for Administrators
Tradus de catre o masina