Schița de curs
Introducere
- Introducere în Cloud Computing și soluții Big Data
- Prezentați caracteristicile și arhitectura Apache Hadoop
- Planificarea unui cluster Hadoop (local, cloud, etc.)
- Selectarea OS-ului și distribuția Hadoop
- Alocarea resurselor (hardware, rețea, etc.)
- Descărcarea și instalarea software-ului
- Determinarea dimensiunii clusterului pentru flexibilitate
- Înțelegerea Sistemului de Fișiere Distribuit Hadoop (HDFS)
- Prezentați referința de comandă HDFS
- Accesarea HDFS
- Efectuarea operațiilor de bază cu fișiere pe HDFS
- Folosirea S3 ca complement la HDFS
- Înțelegerea fluxului de date în cadrul framework-ului MapReduce
- Map, Shuffle, Sort și Reduce
- Demo: Calcularea celor mai mari salarii
- Înțelegerea gestionării resurselor în Hadoop
- Lucrul cu ResourceManager, NodeManager, Application Master
- Programarea sarcinilor sub YARN
- Programarea pentru un număr mare de noduri și clustere
- Demo: Programarea sarcinilor
- Setați stocarea pentru Spark (HDFS, Amazon S3, NoSQL, etc.)
- Înțelegeți Seturile Distribuite Reziliente (RDDs)
- Creați un RDD
- Implementați transformările RDD
- Demo: Implementarea unui program de căutare text pentru titluri de filme
- Monitorizarea Hadoop
- Sigurarea unui cluster Hadoop
- Adăugarea și eliminarea nodurilor
- Executarea unui benchmark de performanță
- Potrivirea unui cluster Hadoop pentru optimizarea performanței
- Copierea, recuperarea și planificarea continuității afacerii
- Asigurarea disponibilității ridicate (HA)
- Evaluarea cerințelor de sarcină de lucru
- Actualizarea Hadoop
- Mutarea de la local la cloud și invers
- Recuperarea după eșuieri
Configurarea Hadoop
Lucrul cu HDFS
Prezentați MapReduce
Lucrul cu YARN
Integrarea Hadoop cu Spark
Gestionarea unui cluster Hadoop
Actualizarea și migrarea unui cluster Hadoop
Soluționarea problemelor
Rezumat și concluzie
Cerințe
- Experiență în administrarea sistemelor
- Experiență cu linia de comandă Linux
- O înțelegere a conceptelor de Big Data
- Administratori de sisteme
- DBA-uri (Administrați Baze de Date)
Audiență
Mărturii (5)
Exemplele în direct
Ahmet Bolat - Accenture Industrial SS
Curs - Python, Spark, and Hadoop for Big Data
Tradus de catre o masina
foarte interactiv...
Richard Langford
Curs - SMACK Stack for Data Science
Tradus de catre o masina
Suficientă practică, formatorul este cunoscutor
Chris Tan
Curs - A Practical Introduction to Stream Processing
Tradus de catre o masina
Aflați să vă familiarizați cu Spark Streaming, Databricks și AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Curs - Apache Spark in the Cloud
Tradus de catre o masina
teme de practică
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Curs - Python and Spark for Big Data (PySpark)
Tradus de catre o masina