Schița de curs
- Introducere
- Hadoop istorie, concepte
- Ecosistem
- Distribuții
- Arhitectură la nivel înalt
- Hadoop mituri
- Hadoop provocări (hardware / software)
- Laboratoare: discutați despre Big Data proiectele și problemele dvs.
- Planificare și instalare
- Selectarea software-ului, Hadoop distribuții
- Dimensionarea clusterului, planificarea creșterii
- Selectarea hardware-ului și a rețelei
- Topologia rack-ului
- instalare
- Multi-tenancy
- Structura directoarelor, jurnale
- Evaluarea comparativă
- Laboratoare: instalarea clusterului, rularea benchmark-urilor de performanță
- Operațiuni HDFS
- Concepte (scalare orizontală, replicare, localitatea datelor, conștientizarea rack-ului)
- Noduri și demoni (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitorizarea stării de sănătate
- Administrare pe bază de linie de comandă și browser
- Adăugarea de spațiu de stocare, înlocuirea unităților defecte
- Laboratoare: familiarizarea cu liniile de comandă HDFS
- Ingestia datelor
- Flume pentru ingestia jurnalelor și a altor date în HDFS
- Sqoop pentru importul din SQL baze de date în HDFS, precum și exportul înapoi în SQL
- Depozitarea datelor Hadoop cu Hive
- Copierea datelor între clustere (distcp)
- Utilizarea S3 ca element complementar la HDFS
- Cele mai bune practici și arhitecturi de ingestie a datelor
- Laboratoare: configurarea și utilizarea Flume, la fel pentru Sqoop
- Operațiuni și administrare MapReduce
- Calculul paralel înainte de mapreduce: comparați administrarea HPC vs Hadoop
- Încărcarea clusterului MapReduce
- Noduri și Daemons (JobTracker, TaskTracker)
- Parcurgerea interfeței de utilizator MapReduce
- Configurarea Mapreduce
- Configurarea lucrărilor
- Optimizarea MapReduce
- Rezolvarea MR: ce să le spuneți programatorilor dvs.
- Laboratoare: rularea exemplelor MapReduce
- YARN: arhitectură nouă și capacități noi
- Obiective de proiectare și arhitectură de implementare YARN
- Actori noi: ResourceManager, NodeManager, Application Master
- Instalarea YARN
- Programarea sarcinilor în cadrul YARN
- Laboratoare: investigarea programării sarcinilor
- Subiecte avansate
- Monitorizarea hardware-ului
- Monitorizarea clusterelor
- Adăugarea și eliminarea serverelor, actualizarea Hadoop
- Backup, recuperare și planificarea continuității activității
- Fluxuri de lucru Oozie
- Hadoop Disponibilitate ridicată (HA)
- Hadoop Federație
- Securizarea clusterului dvs. cu Kerberos
- Laboratoare: Configurarea monitorizării
- Piese opționale
- Cloudera Manager pentru administrarea clusterului, monitorizare și sarcini de rutină; instalare, utilizare. În această pistă, toate exercițiile și laboratoarele sunt efectuate în cadrul mediului de distribuție Cloudera (CDH5)
- Ambari pentru administrarea clusterului, monitorizare și sarcini de rutină; instalare, utilizare. În acest curs, toate exercițiile și laboratoarele sunt efectuate în cadrul administratorului de clustere Ambari și al platformei de date Hortonworks (HDP 2.0)
Cerințe
- experiență în administrarea de bază Linux a sistemului
- abilități de bază de scripting
Cunoștințele de Hadoop și de calcul distribuit nu sunt necesare, dar vor fi introduse și explicate în cadrul cursului.
Mediul de laborator
Zero Install : Nu este nevoie să instalați software-ul hadoop pe mașinile studenților! Un cluster hadoop funcțional va fi pus la dispoziția studenților.
Studenții vor avea nevoie de următoarele
- un client SSH (Linux și Mac au deja clienți ssh, pentru Windows este recomandat Putty)
- un browser pentru a accesa clusterul. Vă recomandăm browserul Firefox cu extensia FoxyProxy instalată
Mărturii (5)
Exemplele în direct
Ahmet Bolat - Accenture Industrial SS
Curs - Python, Spark, and Hadoop for Big Data
Tradus de catre o masina
În timpul exercițiilor, James m-a explicat cu mai multe detalii fiecare pas în care mă blocau. Eram complet nou la NIFI. El m-a explicat scopul real al lui NIFI, chiar conceptele de bază cum ar fi open source. El a acoperit toate conceptele ale lui Nifi, începând cu nivelul de începător până la nivelul dezvoltatorului.
Firdous Hashim Ali - MOD A BLOCK
Curs - Apache NiFi for Administrators
Tradus de catre o masina
Prepararea și organizarea formatorului și calitatea materialelor furnizate pe github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curs - Impala for Business Intelligence
Tradus de catre o masina
Cu toate acestea că l-am avut în primul rând. (Note: The given sentence is somewhat incomplete or out of context, so the translation maintains that structure and tone.)
Peter Scales - CACI Ltd
Curs - Apache NiFi for Developers
Tradus de catre o masina
Translate this From: en To: ro lucruri practice de făcut, precum și teorie bine prezentată de Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Curs - Hadoop Administration on MapR
Tradus de catre o masina