Intrati in legatura

Schița de curs

  • Introducere
    • Istoria și conceptele Hadoop
    • Ecosistemul
    • Distribuții
    • Arhitectura de nivel înalt
    • Mituri despre Hadoop
    • Provocări Hadoop (hardware / software)
    • Laboratoare: discutați proiectele și problemele dumneavoastră de Big Data
  • Planificare și instalare
    • Selectarea software-ului, distribuții Hadoop
    • Dimensionarea clusterului, planificarea creșterii
    • Selectarea hardware-ului și a rețelei
    • Topologia rack-urilor
    • Instalare
    • Multi-tenancy
    • Structura directorului, jurnale
    • Testarea performanțelor
    • Laboratoare: instalare cluster, rulare teste de performanță
  • Operațiuni HDFS
    • Concepte (scalare orizontală, replicare, localizarea datelor, conștientizarea rack-urilor)
    • Noduri și daemoni (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Monitorizarea stării de sănătate
    • Administrare prin linie de comandă și bazată pe browser
    • Adăugarea spațiului de stocare, înlocuirea unităților defecte
    • Laboratoare: familiarizare cu comenzile HDFS
  • Ingestia datelor
    • Flume pentru ingesta jurnalelor și altor date în HDFS
    • Sqoop pentru importul din baze de date SQL în HDFS, precum și exportul înapoi în SQL
    • Depozitarea datelor Hadoop cu Hive
    • Copierea datelor între clustere (distcp)
    • Utilizarea S3 ca complement la HDFS
    • Practici și arhitecturi de ingesta a datelor
    • Laboratoare: configurare și utilizare Flume, la fel pentru Sqoop
  • Operațiuni și administrare MapReduce
    • Calculul paralel înainte de MapReduce: comparați administrarea HPC vs Hadoop
    • Încărcări ale clusterului MapReduce
    • Noduri și Daemoni (JobTracker, TaskTracker)
    • Parcurgerea interfeței MapReduce
    • Configurarea MapReduce
    • Configurarea job-urilor
    • Optimizarea MapReduce
    • Protejarea MapReduce: ce să le spuneți programatorilor
    • Laboratoare: rulare exemple MapReduce
  • YARN: noua arhitectură și noi capacități
    • Obiective de proiectare și arhitectură de implementare YARN
    • Noii actori: ResourceManager, NodeManager, Application Master
    • Instalarea YARN
    • Planificarea job-urilor sub YARN
    • Laboratoare: investigarea planificării job-urilor
  • Subiecte avansate
    • Monitorizarea hardware-ului
    • Monitorizarea clusterului
    • Adăugarea și eliminarea serverelor, actualizarea Hadoop
    • Backup, recuperare și planificare a continuității afacerilor
    • Fluxuri de lucru Oozie
    • Disponibilitate ridicată Hadoop (HA)
    • Federația Hadoop
    • Securizarea clusterului cu Kerberos
    • Laboratoare: configurare monitorizare
  • Track-uri optionale
    • Cloudera Manager pentru administrarea, monitorizarea și sarcinile de rutină ale clusterului; instalare, utilizare. În acest track, toate exercițiile și laboratoarele sunt efectuate în mediul de distribuție Cloudera (CDH5)
    • Ambari pentru administrarea, monitorizarea și sarcinile de rutină ale clusterului; instalare, utilizare. În acest track, toate exercițiile și laboratoarele sunt efectuate în managerul de cluster Ambari și platforma de date Hortonworks (HDP 2.0)

Cerințe

  • familiarizat cu administrarea de bază a sistemelor Linux
  • cunoștințe de bază de scriptare

Cunoștințe despre Hadoop și Calculul Distribuit nu sunt necesare, dar vor fi introduse și explicate în cadrul cursului.

Mediu de laborator

Zero Instalare: Nu este nevoie să instalați software Hadoop pe mașinile studenților! Un cluster Hadoop funcțional va fi oferit studenților.

Studenții vor avea nevoie de următoarele

  • un client SSH (Linux și Mac au deja clienți SSH, pentru Windows se recomandă Putty)
  • un browser pentru a accesa clusterul. Recomandăm browserul Firefox cu extensia FoxyProxy instalată
 21 Ore

Numărul de participanți


Pret per participant

Mărturii (1)

Cursuri viitoare

Categorii înrudite