Schița de curs

  • Introducere
    • Hadoop istoric, concepte
    • Ecosistem
    • Distribuții
    • Arhitectură la nivel înalt
    • Hadoop mituri
    • Hadoop provocări (hardware / software)
    • Laboratoare: discutarea proiectelor și problemele tale Big Data
  • Planificare și instalare
    • Selectarea software-ului, Hadoop distribuții
    • Dimensionare a clusterului, planificare pentru creștere
    • Selectarea hardware-ului și rețelei
    • Topologie de rack
    • Instalare
    • Multitenancy
    • Structură a directorilor, jurnale
    • Benchmarking
    • Laboratoare: instalarea clusterului, rularea benchmark-urilor de performanță
  • Operațiuni HDFS
    • Concepte (scalare orizontală, replicare, localitatea datelor, conștiința de rack)
    • Noduri și daemon-uri (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Monitorizarea sănătății
    • Administrare de la linia de comandă și bazată pe browser
    • Adăugarea spațiului de stocare, înlocuirea unităților defecte
    • Laboratoare: familiarizarea cu interfațele HDFS de la linia de comandă
  • Ingestionarea datelor
    • Flume pentru logs și alte date în HDFS
    • Sqoop pentru import din SQL baze de date în HDFS, precum și export către SQL
    • Hadoop data warehousing cu Hive
    • Copierea datelor între clusteruri (distcp)
    • Utilizarea S3 ca complement pentru HDFS
    • Best practices și arhitecturi de ingestionare a datelor
    • Laboratoare: configurarea și utilizarea Flume, la fel pentru Sqoop
  • Operațiuni MapReduce și administrare
    • Calcul paralel înainte de mapreduce: comparație HPC vs Hadoop administrare
    • Cărcarea clusterului MapReduce
    • Noduri și daemon-uri (JobTracker, TaskTracker)
    • Tura prin interfața utilizator a MapReduce
    • Configurarea MapReduce
    • Configurarea sarcinii
    • Optimizarea MapReduce
    • Foos-proofing MR: ce să le spui programatorilor tăi
    • Laboratoare: rularea exemplelor MapReduce
  • YARN: noua arhitectură și capacități noi
    • Obiectivele de proiectare ale YARN și arhitectura implementată
    • Noi actori: ResourceManager, NodeManager, Application Master
    • Instalarea YARN
    • Programarea sarcinilor sub YARN
    • Laboratoare: investigarea programării sarcinilor
  • Subiecte avansate
    • Monitorizarea hardware-ului
    • Monitorizarea clusterului
    • Adăugarea și eliminarea serverelor, actualizarea Hadoop
    • Backup, recuperare și planificarea continuității afacerilor
    • Oozie job workflows
    • Hadoop disponibilitatea ridicată (HA)
    • Hadoop Federare
    • Securizarea clusterului cu Kerberos
    • Laboratoare: configurarea monitorizării
  • Piste opționale
    • Cloudera Manager pentru administrarea clusterului, monitorizarea și sarcinile rutiniere; instalare, utilizare. În această piste, toate exercițiile și laboratoarele sunt realizate în mediul distribuției Cloudera (CDH5)
    • Ambari pentru administrarea clusterului, monitorizarea și sarcinile rutiniere; instalare, utilizare. În această piste, toate exercițiile și laboratoarele sunt realizate în managerul de cluster Ambari și Platforma de date Hortonworks (HDP 2.0)

Cerințe

  • comfortable with basic Linux system administration
  • basic scripting skills

Knowledge of Hadoop and Distributed Computing is not required, but will be introduced and explained in the course.

Lab environment

Zero Install : There is no need to install hadoop software on students’ machines! A working hadoop cluster will be provided for students.

Students will need the following

  • an SSH client (Linux and Mac already have ssh clients, for Windows Putty is recommended)
  • a browser to access the cluster. We recommend Firefox browser with FoxyProxy extension installed
 21 ore

Numărul de participanți


Pret per participant

Mărturii (5)

Upcoming Courses

Categorii înrudite