Schița de curs
-
Introducere
- Istoricul și conceptele Hadoop
- Ecosistemul
- Distribuții
- Arhitectura de nivel înalt
- Mituri despre Hadoop
- Provocări Hadoop (hardware / software)
- Laboratoare: discutați despre proiectele și problemele dumneavoastră de Big Data
-
Planificare și instalare
- Selectarea software-ului, distribuții Hadoop
- Dimensionarea clusterului, planificarea creșterii
- Selectarea hardware-ului și a rețelei
- Topologia rack-ului
- Instalare
- Multi-tenancy
- Structura directorului, jurnale
- Testare de performanță
- Laboratoare: instalare cluster, rulare teste de performanță
-
Operațiuni HDFS
- Concepte (scalare orizontală, replicare, localizarea datelor, conștientizarea rack-ului)
- Noduri și daemoni (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitorizarea stării de sănătate
- Administrare prin linie de comandă și bazată pe browser
- Adăugarea spațiului de stocare, înlocuirea unităților defecte
- Laboratoare: familiarizare cu comenzile HDFS
-
Încărcarea datelor
- Flume pentru încărcarea jurnalelor și altor date în HDFS
- Sqoop pentru importul din baze de date SQL în HDFS, precum și pentru exportul înapoi în SQL
- Depozitarea datelor Hadoop cu Hive
- Copierea datelor între clustere (distcp)
- Utilizarea S3 ca complement pentru HDFS
- Bune practici și arhitecturi pentru încărcarea datelor
- Laboratoare: configurare și utilizare Flume, la fel pentru Sqoop
-
Operațiuni și administrare MapReduce
- Calcul paralel înainte de MapReduce: comparație între administrarea HPC și Hadoop
- Încărcări de cluster MapReduce
- Noduri și Daemoni (JobTracker, TaskTracker)
- Parcurgerea interfeței MapReduce
- Configurare MapReduce
- Configurare job
- Optimizare MapReduce
- Asigurarea MapReduce: ce să le spuneți programatorilor dumneavoastră
- Laboratoare: rulare exemple MapReduce
-
YARN: arhitectură nouă și capacități noi
- Obiectivele de proiectare și arhitectura de implementare YARN
- Noii actori: ResourceManager, NodeManager, Application Master
- Instalare YARN
- Planificarea job-urilor sub YARN
- Laboratoare: investigare planificare job-uri
-
Subiecte avansate
- Monitorizarea hardware
- Monitorizarea clusterului
- Adăugarea și eliminarea serverelor, actualizarea Hadoop
- Backup, recuperare și planificare a continuității afacerilor
- Fluxuri de lucru pentru job-uri Oozie
- Disponibilitate ridicată (HA) Hadoop
- Federația Hadoop
- Securizarea clusterului dumneavoastră cu Kerberos
- Laboratoare: configurare monitorizare
-
Trasee opționale
- Cloudera Manager pentru administrarea, monitorizarea și sarcinile de rutină ale clusterului; instalare, utilizare. În acest traseu, toate exercițiile și laboratoarele sunt efectuate în mediul de distribuție Cloudera (CDH5)
- Ambari pentru administrarea, monitorizarea și sarcinile de rutină ale clusterului; instalare, utilizare. În acest traseu, toate exercițiile și laboratoarele sunt efectuate în cadrul managerului de cluster Ambari și al platformei de date Hortonworks (HDP 2.0)
Cerințe
- confortabil cu administrarea de bază a sistemelor Linux
- abilități de bază de scripting
Cunoașterea Hadoop și a Calculului Distribuit nu este necesară, dar va fi introdusă și explicată în curs.
Mediu de laborator
Zero Instalare: Nu este nevoie să instalați software Hadoop pe mașinile studenților! Un cluster Hadoop funcțional va fi pus la dispoziția studenților.
Studenții vor avea nevoie de următoarele
- un client SSH (Linux și Mac au deja clienți ssh, pentru Windows se recomandă Putty)
- un browser pentru a accesa clusterul. Recomandăm browserul Firefox cu extensia FoxyProxy instalată
Mărturii (5)
Exemplele live
Ahmet Bolat - Accenture Industrial SS
Curs - Python, Spark, and Hadoop for Big Data
Tradus de catre o masina
În timpul exercițiilor, James mi-a explicat fiecare pas în detaliu de ori câteori m-am blocat. Eram complet nou în ceea ce privește NIFI. El mi-a clarificat scopul real al NIFI, inclusiv noțiunile de bază precum open source. A acoperit toate conceptele Nifi, începând de la nivelul de începător până la nivelul de dezvoltator.
Firdous Hashim Ali - MOD A BLOCK
Curs - Apache NiFi for Administrators
Tradus de catre o masina
Că l-am avut în primul rând.
Peter Scales - CACI Ltd
Curs - Apache NiFi for Developers
Tradus de catre o masina
aspecte practice de lucru, precum și teoria au fost prezentate bine de Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Curs - Hadoop Administration on MapR
Tradus de catre o masina
Măsimă întemeiat de VM Profesorul a fost foarte bine informat despre subiect și alte subiecte, a fost foarte prietenos și amabil Mi-a plăcut facilitatea din Dubai.
Safar Alqahtani - Elm Information Security
Curs - Big Data Analytics in Health
Tradus de catre o masina