Schița de curs

  • Introducere
    • Istoricul și conceptele Hadoop
    • Ecosistemul
    • Distribuții
    • Arhitectura de nivel înalt
    • Mituri despre Hadoop
    • Provocări Hadoop (hardware / software)
    • Laboratoare: discutați despre proiectele și problemele dumneavoastră de Big Data
  • Planificare și instalare
    • Selectarea software-ului, distribuții Hadoop
    • Dimensionarea clusterului, planificarea creșterii
    • Selectarea hardware-ului și a rețelei
    • Topologia rack-ului
    • Instalare
    • Multi-tenancy
    • Structura directorului, jurnale
    • Testare de performanță
    • Laboratoare: instalare cluster, rulare teste de performanță
  • Operațiuni HDFS
    • Concepte (scalare orizontală, replicare, localizarea datelor, conștientizarea rack-ului)
    • Noduri și daemoni (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Monitorizarea stării de sănătate
    • Administrare prin linie de comandă și bazată pe browser
    • Adăugarea spațiului de stocare, înlocuirea unităților defecte
    • Laboratoare: familiarizare cu comenzile HDFS
  • Încărcarea datelor
    • Flume pentru încărcarea jurnalelor și altor date în HDFS
    • Sqoop pentru importul din baze de date SQL în HDFS, precum și pentru exportul înapoi în SQL
    • Depozitarea datelor Hadoop cu Hive
    • Copierea datelor între clustere (distcp)
    • Utilizarea S3 ca complement pentru HDFS
    • Bune practici și arhitecturi pentru încărcarea datelor
    • Laboratoare: configurare și utilizare Flume, la fel pentru Sqoop
  • Operațiuni și administrare MapReduce
    • Calcul paralel înainte de MapReduce: comparație între administrarea HPC și Hadoop
    • Încărcări de cluster MapReduce
    • Noduri și Daemoni (JobTracker, TaskTracker)
    • Parcurgerea interfeței MapReduce
    • Configurare MapReduce
    • Configurare job
    • Optimizare MapReduce
    • Asigurarea MapReduce: ce să le spuneți programatorilor dumneavoastră
    • Laboratoare: rulare exemple MapReduce
  • YARN: arhitectură nouă și capacități noi
    • Obiectivele de proiectare și arhitectura de implementare YARN
    • Noii actori: ResourceManager, NodeManager, Application Master
    • Instalare YARN
    • Planificarea job-urilor sub YARN
    • Laboratoare: investigare planificare job-uri
  • Subiecte avansate
    • Monitorizarea hardware
    • Monitorizarea clusterului
    • Adăugarea și eliminarea serverelor, actualizarea Hadoop
    • Backup, recuperare și planificare a continuității afacerilor
    • Fluxuri de lucru pentru job-uri Oozie
    • Disponibilitate ridicată (HA) Hadoop
    • Federația Hadoop
    • Securizarea clusterului dumneavoastră cu Kerberos
    • Laboratoare: configurare monitorizare
  • Trasee opționale
    • Cloudera Manager pentru administrarea, monitorizarea și sarcinile de rutină ale clusterului; instalare, utilizare. În acest traseu, toate exercițiile și laboratoarele sunt efectuate în mediul de distribuție Cloudera (CDH5)
    • Ambari pentru administrarea, monitorizarea și sarcinile de rutină ale clusterului; instalare, utilizare. În acest traseu, toate exercițiile și laboratoarele sunt efectuate în cadrul managerului de cluster Ambari și al platformei de date Hortonworks (HDP 2.0)

Cerințe

  • confortabil cu administrarea de bază a sistemelor Linux
  • abilități de bază de scripting

Cunoașterea Hadoop și a Calculului Distribuit nu este necesară, dar va fi introdusă și explicată în curs.

Mediu de laborator

Zero Instalare: Nu este nevoie să instalați software Hadoop pe mașinile studenților! Un cluster Hadoop funcțional va fi pus la dispoziția studenților.

Studenții vor avea nevoie de următoarele

  • un client SSH (Linux și Mac au deja clienți ssh, pentru Windows se recomandă Putty)
  • un browser pentru a accesa clusterul. Recomandăm browserul Firefox cu extensia FoxyProxy instalată
 21 Ore

Numărul de participanți


Pret per participant

Mărturii (5)

Cursuri viitoare

Categorii înrudite