Schița de curs
Introducere
Înțelegere Big Data
Prezentare generală a Spark
Prezentare generală a Python
Prezentare generală a PySpark
- Distribuirea datelor utilizând cadrul pentru seturi de date distribuite reziliente
- Distribuirea calculelor utilizând operatorii Spark API
Configurarea Python cu Spark
Configurarea PySpark
Utilizarea Amazon Web Services (AWS) Instanțelor EC2 pentru Spark
Configurarea Databricks
Configurarea clusterului AWS EMR
Învățarea elementelor de bază ale Python Programming
- Noțiuni introductive cu Python
- Utilizarea Jupyter Notebook
- Utilizarea variabilelor și a tipurilor simple de date
- Lucrul cu listele
- Utilizarea declarațiilor if
- Utilizarea intrărilor utilizatorului
- Lucrul cu buclele while
- Implementarea funcțiilor
- Lucrul cu clasele
- Lucrul cu fișiere și excepții
- Lucrul cu proiecte, date și API-uri
Învățarea elementelor de bază ale Spark DataFrame
- Noțiuni introductive cu Spark DataFrame
- Implementarea operațiunilor de bază cu Spark
- Utilizarea operațiilor Groupby și Aggregate
- Lucrul cu mărci temporale și date
Lucrul la un exercițiu de proiect Spark DataFrame
Înțelegerea Machine Learning cu MLlib
Lucrul cu MLlib, Spark și Python pentru Machine Learning
Înțelegerea regresiilor
- Învățarea teoriei regresiei liniare
- Implementarea unui cod de evaluare a regresiei
- Lucrul pe un exemplu de exercițiu de regresie liniară
- Învățarea teoriei regresiei logistice
- Implementarea unui cod de regresie logistică
- Lucrul pe un exemplu de exercițiu de regresie logistică
Înțelegerea Random Forests și a arborilor de decizie
- Învățarea teoriei metodelor arborelui
- Implementarea arborilor de decizie și a codurilor Random Forest
- Lucrul pe un exemplu de exercițiu de clasificare Random Forest
Lucrul cu K-means Clustering
- Înțelegerea teoriei grupării K-means
- Implementarea unui cod de clusterizare K-means
- Lucrul pe un exemplu de exercițiu de clusterizare
Lucrul cu sistemele de recomandare
Implementarea procesării limbajului natural
- Înțelegerea Natural Language Processing (NLP)
- Prezentare generală a instrumentelor NLP
- Lucrul pe un exemplu de exercițiu NLP
Streaming cu Spark pe Python
- Prezentare generală Streaming cu Spark
- Exemplu Spark Streaming de exercițiu
Observații de încheiere
Cerințe
- Competențe generale de programare
Audiență
- Dezvoltatori
- Profesioniști IT
- Cercetători de date
Mărturii (6)
Mi-a plăcut că a fost practic. Am adorat să aplic cunoștințele teoretice cu exemple practice.
Aurelia-Adriana - Allianz Services Romania
Curs - Python and Spark for Big Data (PySpark)
Tradus de catre o masina
Cursul a abordat o serie de subiecte foarte complexe și interconectate, iar Pablo are o expertiză profundă în fiecare dintre ele. Uneori, nuanțele erau pierdute în comunicare și/sau din cauza presiunilor temporale, ceea ce a putut duce la neîndeplinirea unor așteptări. De asemenea, au fost câteva probleme cu configurarea UHG/Azure Databricks, dar Pablo și UHG le-au rezolvat rapid odată ce au devenit vizibile - pentru mine, acest lucru a demonstrat un nivel ridicat de înțelegere și profesionalism între UHG și Pablo,
Michael Monks - Tech NorthWest Skillnet
Curs - Python and Spark for Big Data (PySpark)
Tradus de catre o masina
Atenție individuală.
ARCHANA ANILKUMAR - PPL
Curs - Python and Spark for Big Data (PySpark)
Tradus de catre o masina
Formare practică..
Abraham Thomas - PPL
Curs - Python and Spark for Big Data (PySpark)
Tradus de catre o masina
Lecțiile au fost predate într-un notebook Jupyter. Subiectele erau structurate cu o succesiune logică și ajutau în mod natural la dezvoltarea sesiunii de la părțile mai simple până la cele mai complexe. Sunt deja un utilizator avansat al Python, cu experiență în Machine Learning, așa că am găsit cursul mai ușor de urmărit decât, posibil, cei dintre colegii mei care au participat la acest curs de instruire. Apreciez faptul că unele din conceptele cele mai elementare au fost omise și s-a concentrat pe aspectele cele mai importante.
Angela DeLaMora - ADT, LLC
Curs - Python and Spark for Big Data (PySpark)
Tradus de catre o masina
sarcini de exercițiu
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Curs - Python and Spark for Big Data (PySpark)
Tradus de catre o masina