Schița de curs
- Introducere
- Hadoop istorie, concepte
- Ecosistem
- Distribuții
- Arhitectură la nivel înalt
- Hadoop mituri
- Hadoop provocări (hardware/software)
- Laboratoare: discutați proiectele și problemele dvs. Big Data.
- Planificare si instalare
- Selectarea software-ului, Hadoop distribuții
- Dimensiunea clusterului, planificarea creșterii
- Selectarea hardware-ului și a rețelei
- Topologie de rack
- Instalare
- Multi-chiriere
- Structura directorului, jurnalele
- Benchmarking
- Laboratoare: instalarea clusterului, rularea benchmark-urilor de performanță
- operațiuni HDFS
- Concepte (scalare orizontală, replicare, localitatea datelor, gradul de conștientizare a rackului)
- Noduri și demoni (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitorizarea sănătății
- Administrare prin linie de comandă și prin browser
- Adăugarea spațiului de stocare, înlocuirea unităților defecte
- Laboratoare: familiarizarea cu liniile de comandă HDFS
- Ingestie de date
- Flume pentru jurnalele și alte ingerări de date în HDFS
- Sqoop pentru importarea din SQL baze de date în HDFS, precum și pentru exportul înapoi în SQL
- Hadoop depozitare de date cu Hive
- Copierea datelor între clustere (distcp)
- Folosind S3 ca complementar cu HDFS
- Cele mai bune practici și arhitecturi de asimilare a datelor
- Labs: configurarea și utilizarea Flume, la fel pentru Sqoop
- Operațiuni și administrare MapReduce
- Calcul paralel înainte de mapreduce: comparați administrarea HPC vs Hadoop.
- MapReduce încărcările clusterului
- Noduri și demoni (JobTracker, TaskTracker)
- MapReduce UI parcurge
- Configurație Mapreduce
- Configurare job
- Optimizarea MapReduce
- MR sigur: ce să le spuneți programatorilor
- Labs: rularea exemplelor MapReduce
- YARN: nouă arhitectură și noi capabilități
- Obiectivele de proiectare YARN și arhitectura de implementare
- Actori noi: ResourceManager, NodeManager, Application Master
- Instalarea YARN
- Programarea locurilor de muncă sub YARN
- Laboratoare: investigați programarea locurilor de muncă
- Subiecte avansate
- Monitorizare hardware
- Monitorizarea clusterelor
- Adăugarea și eliminarea serverelor, upgrade Hadoop
- Backup, recuperare și planificare a continuității afacerii
- Oozie fluxuri de lucru
- Hadoop disponibilitate ridicată (HA)
- Hadoop Federația
- Securizarea clusterului cu Kerberos
- Laboratoare: configurați monitorizarea
- Piese optionale
- Cloudera Manager pentru administrarea clusterului, monitorizare și sarcini de rutină; instalare, utilizare. În această pistă, toate exercițiile și laboratoarele sunt efectuate în mediul de distribuție Cloudera (CDH5)
- Ambari pentru administrarea clusterului, monitorizare și sarcini de rutină; instalare, utilizare. În această pistă, toate exercițiile și laboratoarele sunt efectuate în cadrul managerului de cluster Ambari și al platformei de date Hortonworks (HDP 2.0)
Cerințe
- confortabil cu administrarea de bază Linux a sistemului .
- cunoștințe de bază de scripting
Cunoștințele de Hadoop și de calcul distribuit nu sunt necesare, dar vor fi introduse și explicate în cadrul cursului.
Mediul de laborator
Zero Install : Nu este nevoie de a instala software-ul hadoop pe studenți & rsquo; mașini! Un cluster hadoop funcțional va fi pus la dispoziția studenților.
Studenții vor avea nevoie de următoarele
- un client SSH (Linux și Mac au deja clienți ssh, pentru Windows Putty este recomandat) .
- un browser pentru a accesa clusterul. Recomandăm browserul Firefox cu extensia FoxyProxy instalată .
Mărturii (6)
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curs - Impala for Business Intelligence
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Curs - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Curs - Administrator Training for Apache Hadoop
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Curs - Big Data Analytics in Health
The fact that all the data and software was ready to use on an already prepared VM, provided by the trainer in external disks.
vyzVoice
Curs - Hadoop for Developers and Administrators
practical things of doing, also theory was served good by Ajay