Schița de curs
Secțiunea 1: Introducere în Hadoop
- Istoria și conceptele Hadoop
- Ecosistem
- Distribuții
- Arhitectură la nivel înalt
- Mituri despre Hadoop
- Săruturile Hadoop
- Hardware / software
- Laborator: prima întâlnire cu Hadoop
Secțiunea 2: HDFS
- Design și arhitectură
- Concepte (scalare orizontală, replicare, localizarea datelor, conștientizarea rack-ului)
- Daemons : Namenode, Secondary namenode, Data node
- Comunicații / pulsuri de viață
- Integritatea datelor
- Calea de citire / scriere
- Namenode High Availability (HA), Federare
- Laborator: Interacțiune cu HDFS
Secțiunea 3 : Map Reduce
- Concepte și arhitectură
- Daemons (MRV1) : jobtracker / tasktracker
- Faze : driver, mapper, shuffle/sort, reducer
- Versiunea 1 și Versiunea 2 a Map Reduce (YARN)
- Internul Map Reduce
- Introducere în programarea Java Map Reduce
- Laborator: Rularea unui program de exemplu MapReduce
Secțiunea 4 : Pig
- Pig vs Java Map Reduce
- Fluxul job-ului Pig
- Limbajul Pig Latin
- ETL cu Pig
- Transformări și Join-uri
- Funcții definite de utilizator (UDF)
- Laborator: scrierea scripturilor Pig pentru analiza datelor
Secțiunea 5: Hive
- Arhitectura și design
- Tipuri de date
- Suport SQL în Hive
- Crearea și interogarea tabelelor Hive
- Partiții
- Join-uri
- Procesarea textului
- Laborator: diverse laboratoare pentru procesarea datelor cu Hive
Secțiunea 6: HBase
- Concepte și arhitectură
- HBase vs RDBMS vs Cassandra
- API Java pentru HBase
- Date în serie de timp pe HBase
- Design-ul schema-ului
- Laborator: Interacțiune cu HBase folosind shell; Programare în API Java HBase; Exercițiu de design a schema-ului
Cerințe
- familiarizat cu limbajul de programare Java (cele mai multe exerciții de programare sunt în Java)
- familiarizat cu mediul Linux (să știți cum să navigați prin linia de comandă a Linux, să editați fișiere folosind vi / nano)
Mediul de laborator
Zero Install : Nu este nevoie să instalați software-ul Hadoop pe mașinile studenților! Un cluster funcțional Hadoop va fi furnizat pentru studenți.
Studenții vor avea nevoie de următoarele
- un client SSH (Linux și Mac au deja clienți SSH, pentru Windows se recomandă Putty)
- un browser pentru a accesa clusterul, Firefox este recomandat
Mărturii (5)
Exemplele live
Ahmet Bolat - Accenture Industrial SS
Curs - Python, Spark, and Hadoop for Big Data
Tradus de catre o masina
În timpul exercițiilor, James mi-a explicat fiecare pas în detaliu de ori câteori m-am blocat. Eram complet nou în ceea ce privește NIFI. El mi-a clarificat scopul real al NIFI, inclusiv noțiunile de bază precum open source. A acoperit toate conceptele Nifi, începând de la nivelul de începător până la nivelul de dezvoltator.
Firdous Hashim Ali - MOD A BLOCK
Curs - Apache NiFi for Administrators
Tradus de catre o masina
Că l-am avut în primul rând.
Peter Scales - CACI Ltd
Curs - Apache NiFi for Developers
Tradus de catre o masina
aspecte practice de lucru, precum și teoria au fost prezentate bine de Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Curs - Hadoop Administration on MapR
Tradus de catre o masina
Măsimă întemeiat de VM Profesorul a fost foarte bine informat despre subiect și alte subiecte, a fost foarte prietenos și amabil Mi-a plăcut facilitatea din Dubai.
Safar Alqahtani - Elm Information Security
Curs - Big Data Analytics in Health
Tradus de catre o masina