Cursuri de pregatire Programare cu Big Data în R
Big Data este un termen care se referă la soluții destinate stocării și procesării unor seturi mari de date. Dezvoltat inițial de Google, aceste soluții Big Data au evoluat și au inspirat alte proiecte similare, multe dintre acestea fiind disponibile ca open-source. R este un limbaj de programare popular în industria financiară.
Schița de curs
Introducere în Programarea Big Data cu R (bpdR)
- Configurarea mediului pentru utilizarea pbdR
- Domeniul de aplicare și instrumentele disponibile în pbdR
- Pachete utilizate frecvent împreună cu Big Data și pbdR
Interfața de Transmitere a Mesajelor (MPI)
- Utilizarea pbdR MPI 5
- Procesare paralelă
- Comunicare punct-la-punct
- Trimiterea matricelor
- Sumarea matricelor
- Comunicare colectivă
- Sumarea matricelor cu Reduce
- Împrăștiere / Colectare
- Alte comunicări MPI
Matrici Distribuite
- Crearea unei matrici diagonale distribuite
- SVD a unei matrici distribuite
- Construirea unei matrici distribuite în paralel
Aplicații Statistice
- Integrare Monte Carlo
- Citirea seturilor de date
- Citirea pe toate procesele
- Difuzarea de la un proces
- Citirea datelor partiționate
- Regresie distribuită
- Bootstrap distribuit
Cursurile publice necesita 5+ participanti
Cursuri de pregatire Programare cu Big Data în R - Rezervare
Cursuri de pregatire Programare cu Big Data în R - Solicitare
Programare cu Big Data în R - Cerere de consultanta
Mărturii (2)
The subject matter and the pace were perfect.
Tim - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Curs - Programming with Big Data in R
Tradus de catre o masina
Michael the trainer is very knowledgeable and skillful about the subject of Big Data and R. He is very flexible and quickly customize the training meeting clients' need. He is also very capable to solve technical and subject matter problems on the go. Fantastic and professional training!.
Xiaoyuan Geng - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Curs - Programming with Big Data in R
Tradus de catre o masina
Cursuri viitoare
Cursuri înrudite
Analiza Big Data cu Google Colab și Apache Spark
14 OreAcest training condus de un instructor, live în Moldova (online sau la fața locului), este destinat specialiștilor și inginerilor de date de nivel intermediar care doresc să utilizeze Google Colab și Apache Spark pentru procesarea și analiza datelor mari.
La sfârșitul acestui training, participanții vor putea:
- Să configureze un mediu de lucru pentru date mari folosind Google Colab și Spark.
- Să proceseze și să analizeze eficient seturi mari de date cu Apache Spark.
- Să vizualizeze date mari într-un mediu colaborativ.
- Să integreze Apache Spark cu instrumente bazate pe cloud.
Analiza Big Data în Sănătate
21 OreAnaliza Big Data implică procesul de examinare a unor cantități mari de seturi de date variate pentru a descoperi corelații, modele ascunse și alte informații utile.
Industria sănătății dispune de volume uriașe de date medicale și clinice complexe și eterogene. Aplicarea analizei Big Data pe datele din domeniul sănătății prezintă un potențial enorm în obținerea de informații pentru îmbunătățirea furnizării de servicii medicale. Cu toate acestea, amploarea acestor seturi de date aduce mari provocări în analize și aplicații practice într-un mediu clinic.
În acest training condus de un instructor, live (la distanță), participanții vor învăța cum să efectueze analize Big Data în domeniul sănătății, parcurgând o serie de exerciții practice în laborator.
La sfârșitul acestui training, participanții vor putea:
- Instala și configura instrumente de analiză Big Data, cum ar fi Hadoop MapReduce și Spark
- Înțelege caracteristicile datelor medicale
- Aplica tehnici Big Data pentru a gestiona date medicale
- Studia sisteme și algoritmi Big Data în contextul aplicațiilor din sănătate
Publicul țintă
- Dezvoltatori
- Specialiști în Știința Datelor
Formatul cursului
- Parte teoretică, parte discuții, exerciții și practică intensivă.
Notă
- Pentru a solicita un training personalizat pentru acest curs, vă rugăm să ne contactați pentru a aranja.
Hadoop și Spark pentru Administratori
35 OreAcest training condus de un instructor, live în Moldova (online sau la fața locului) este destinat administratorilor de sistem care doresc să învețe cum să configureze, să implementeze și să gestioneze clustere Hadoop în organizația lor.
La finalul acestui training, participanții vor putea:
- Instala și configura Apache Hadoop.
- Înțelege cele patru componente majore ale ecosistemului Hadoop: HDFS, MapReduce, YARN și Hadoop Common.
- Utiliza Hadoop Distributed File System (HDFS) pentru a scala un cluster la sute sau mii de noduri.
- Configura HDFS să funcționeze ca motor de stocare pentru implementările Spark on-premise.
- Configura Spark pentru a accesa soluții alternative de stocare, cum ar fi Amazon S3 și sisteme de baze de date NoSQL precum Redis, Elasticsearch, Couchbase, Aerospike, etc.
- Efectua sarcini administrative, cum ar fi provizionarea, gestionarea, monitorizarea și securizarea unui cluster Apache Hadoop.
O Introducere Practică în Procesarea Fluxurilor de Date
21 OreÎn acest training condus de un instructor, live în Moldova (la fața locului sau la distanță), participanții vor învăța cum să configureze și să integreze diferite framework-uri de procesare a fluxurilor de date cu sistemele existente de stocare a datelor mari și cu aplicațiile software și microserviciile conexe.
La sfârșitul acestui training, participanții vor putea:
- Să instaleze și să configureze diferite framework-uri de procesare a fluxurilor de date, cum ar fi Spark Streaming și Kafka Streaming.
- Să înțeleagă și să selecteze cel mai potrivit framework pentru sarcină.
- Să proceseze date continuu, concurent și într-o manieră record-by-record.
- Să integreze soluții de procesare a fluxurilor de date cu baze de date existente, depozite de date, lacuri de date etc.
- Să integreze cea mai potrivită bibliotecă de procesare a fluxurilor de date cu aplicațiile enterprise și microserviciile.
SMACK Stack pentru Știința Datelor
14 OreAcest training condus de un instructor, live în Moldova (online sau la fața locului) este destinat oamenilor de știință ai datelor care doresc să folosească stiva SMACK pentru a construi platforme de procesare a datelor pentru soluții de big data.
La finalul acestui training, participanții vor putea:
- Să implementeze o arhitectură de pipeline de date pentru procesarea big data.
- Să dezvolte o infrastructură de cluster cu Apache Mesos și Docker.
- Să analizeze date cu Spark și Scala.
- Să gestioneze date nestructurate cu Apache Cassandra.
Fundamentele Apache Spark
21 OreAcest training condus de un instructor, live în Moldova (online sau la fața locului) este destinat inginerilor care doresc să configureze și să implementeze sistemul Apache Spark pentru procesarea unor volume foarte mari de date.
La sfârșitul acestui training, participanții vor putea:
- Instala și configura Apache Spark.
- Procesare și analiză rapidă a seturilor de date foarte mari.
- Înțelege diferența dintre Apache Spark și Hadoop MapReduce și când să folosească fiecare.
- Integrarea Apache Spark cu alte instrumente de învățare automată.
Administrarea Apache Spark
35 OreAcest training condus de un instructor, live în Moldova (online sau la fața locului) este destinat administratorilor de sistem de la nivel începător până la intermediar care doresc să implementeze, să întrețină și să optimizeze clustere Spark.
La finalul acestui training, participanții vor putea:
- Instala și configura Apache Spark în diverse medii.
- Gestiona resursele clusterului și monitoriza aplicațiile Spark.
- Optimiza performanța clusterelor Spark.
- Implementa măsuri de securitate și asigura disponibilitate ridicată.
- Depana și rezolva probleme comune ale Spark.
Apache Spark în Cloud
21 OreCurba de învățare a Apache Spark crește încet la început, fiind nevoie de mult efort pentru a obține primele rezultate. Acest curs își propune să treacă peste această parte dificilă inițială. După parcurgerea acestui curs, participanții vor înțelege elementele de bază ale Apache Spark, vor face distincția clară între RDD și DataFrame, vor învăța API-urile Python și Scala, vor înțelege executoarele și sarcinile etc. De asemenea, urmând cele mai bune practici, acest curs se concentrează puternic pe implementarea în cloud, Databricks și AWS. Studenții vor înțelege, de asemenea, diferențele dintre AWS EMR și AWS Glue, unul dintre cele mai recente servicii Spark oferite de AWS.
AUDIENȚĂ:
Inginer de Date, DevOps, Specialist în Știința Datelor
Spark pentru Dezvoltatori
21 OreOBIECTIV:
Acest curs va introduce Apache Spark. Studenții vor învăța cum se integrează Spark în ecosistemul Big Data și cum să folosească Spark pentru analiza datelor. Cursul acoperă shell-ul Spark pentru analiza interactivă a datelor, componentele interne ale Spark, API-urile Spark, Spark SQL, Spark streaming, precum și învățarea automată și GraphX.
PUBLICUL ȚINTĂ:
Dezvoltatori / Analiști de Date
Scalarea Pipeline-urilor de Date cu Spark NLP
14 OreAcest training condus de un instructor, live în Moldova (online sau la fața locului), este destinat specialiștilor în date și dezvoltatorilor care doresc să folosească Spark NLP, construit pe Apache Spark, pentru a dezvolta, implementa și scala modele și pipeline-uri de procesare a textelor în limbaj natural.
La finalul acestui training, participanții vor putea:
- Să configureze mediul de dezvoltare necesar pentru a începe construirea de pipeline-uri NLP cu Spark NLP.
- Să înțeleagă caracteristicile, arhitectura și beneficiile utilizării Spark NLP.
- Să utilizeze modele preantrenate disponibile în Spark NLP pentru a implementa procesarea textelor.
- Să învețe cum să construiască, să antreneze și să scaleze modele Spark NLP pentru proiecte de nivel de producție.
- Să aplice clasificare, inferență și analiză de sentiment pe cazuri de utilizare din lumea reală (date clinice, informații despre comportamentul clienților etc.).
Python și Spark pentru Big Data (PySpark)
21 OreÎn acest training condus de un instructor, în format live în Moldova, participanții vor învăța cum să folosească împreună Python și Spark pentru a analiza date mari, lucrând la exerciții practice.
La finalul acestui training, participanții vor fi capabili să:
- Învețe cum să folosească Spark cu Python pentru a analiza date mari.
- Lucreze la exerciții care imită cazuri din lumea reală.
- Folosească diferite instrumente și tehnici pentru analiza datelor mari folosind PySpark.
Python, Spark și Hadoop pentru Big Data
21 OreAcest training condus de un instructor, live în Moldova (online sau la fața locului) este destinat dezvoltatorilor care doresc să utilizeze și să integreze Spark, Hadoop și Python pentru a procesa, analiza și transforma seturi de date mari și complexe.
La sfârșitul acestui training, participanții vor putea:
- Să configureze mediul necesar pentru a începe procesarea datelor mari cu Spark, Hadoop și Python.
- Să înțeleagă caracteristicile, componentele de bază și arhitectura Spark și Hadoop.
- Să învețe cum să integreze Spark, Hadoop și Python pentru procesarea datelor mari.
- Să exploreze instrumentele din ecosistemul Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka și Flume).
- Să construiască sisteme de recomandare bazate pe filtrare colaborativă asemănătoare cu cele de la Netflix, YouTube, Amazon, Spotify și Google.
- Să utilizeze Apache Mahout pentru a scala algoritmii de învățare automată.
Apache Spark SQL
7 OreSpark SQL este modulul Apache Spark pentru lucrul cu date structurate și nestructurate. Spark SQL oferă informații despre structura datelor, precum și despre calculul efectuat. Aceste informații pot fi folosite pentru a realiza optimizări. Două utilizări comune pentru Spark SQL sunt:
- executarea interogărilor SQL.
- citirea datelor dintr-o instalare Hive existentă.
În acest training condus de un instructor, live (la fața locului sau la distanță), participanții vor învăța cum să analizeze diverse tipuri de seturi de date folosind Spark SQL.
La sfârșitul acestui training, participanții vor putea:
- Instala și configura Spark SQL.
- Efectua analize de date folosind Spark SQL.
- Interoga seturi de date în diferite formate.
- Vizualiza date și rezultate ale interogărilor.
Formatul cursului
- Curs interactiv și discuții.
- Multe exerciții și practică.
- Implementare practică într-un mediu live-lab.
Opțiuni de personalizare a cursului
- Pentru a solicita un training personalizat pentru acest curs, vă rugăm să ne contactați pentru a aranja.
Stratio: Modulele Rocket și Intelligence cu PySpark
14 OreStratio este o platformă centrată pe date care integrează big data, inteligența artificială și guvernanța într-o singură soluție. Modulele sale Rocket și Intelligence permit explorarea rapidă a datelor, transformarea și analiza avansată în medii enterprise.
Această sesiune de formare condusă de un instructor (online sau la fața locului) este destinată profesioniștilor de date de nivel intermediar care doresc să utilizeze eficient modulele Rocket și Intelligence din Stratio cu PySpark, concentrându-se pe structuri de buclă, funcții definite de utilizator și logica avansată a datelor.
La finalul acestei formări, participanții vor putea:
- Să navigheze și să lucreze în platforma Stratio folosind modulele Rocket și Intelligence.
- Să aplice PySpark în contextul ingerării, transformării și analizei datelor.
- Să utilizeze bucle și logică condițională pentru a controla fluxurile de date și sarcinile de inginerie a caracteristicilor.
- Să creeze și să gestioneze funcții definite de utilizator (UDF) pentru operații reutilizabile de date în PySpark.
Formatul cursului
- Prelegere interactivă și discuții.
- Multe exerciții și practică.
- Implementare practică într-un mediu live-lab.
Opțiuni de personalizare a cursului
- Pentru a solicita o formare personalizată pentru acest curs, vă rugăm să ne contactați pentru a aranja.
Introducere în Vizualizarea Datelor cu Tidyverse și R
7 OrePublicul țintă
Formatul cursului
La finalul acestui training, participanții vor fi capabili să:
În acest training condus de un instructor, participanții vor învăța cum să manipuleze și să vizualizeze date folosind instrumentele incluse în Tidyverse.
Tidyverse este o colecție de pachete R versatile pentru curățarea, procesarea, modelarea și vizualizarea datelor. Unele dintre pachetele incluse sunt: ggplot2, dplyr, tidyr, readr, purrr și tibble.
- Începători în limbajul R
- Începători în analiza și vizualizarea datelor
- Partea teoretică, partea de discuții, exerciții și practică intensă
- Efectuează analiza datelor și creează vizualizări atractive
- Trage concluzii utile din diverse seturi de date de probă
- Filtrează, sortează și rezumă date pentru a răspunde la întrebări exploratorii
- Transformă datele procesate în grafice informative, diagrame cu bare, histograme
- Importă și filtrează date din diverse surse, inclusiv fișiere Excel, CSV și SPSS