Curs de pregatire Procesarea Datelor în Flux și Prelucrarea în Timp Real
Prezentarea Cursului
Acest curs oferă o introducere practică și structurată în construirea sistemelor de procesare a datelor în flux în timp real. Acoperă conceptele de bază, modelele de arhitectură și instrumentele industriale utilizate pentru procesarea datelor continue la scară largă. Participanții vor învăța cum să proiecteze, să implementeze și să optimizeze conducte de date folosind framework-uri moderne. Cursul progresează de la idei de bază la aplicații practice, permițând cursanților să construiască cu încredere soluții gata de utilizare în producție.
Formatul Cursului
• Sesiuni conduse de instructori cu explicații ghidate
• Prezentări de concepte cu exemple din lumea reală
• Demonstrații practice și exerciții de codare
• Laboratoare progresive aliniate cu subiectele zilnice
• Discuții interactive și întrebări și răspunsuri
Obiectivele Cursului
• Înțelegerea conceptelor de procesare a datelor în flux și a arhitecturii sistemelor
• Diferențierea între modelele de procesare a datelor în lot și în flux
• Proiectarea de conducte de date scalabile și tolerante la defecțiuni
• Lucrul cu instrumente și framework-uri distribuite pentru fluxuri de date
• Aplicarea procesării bazate pe timpul evenimentului, a tehnicilor de segmentare și a operațiilor cu stare
• Construirea și optimizarea soluțiilor de date în timp real pentru cazuri de utilizare din afaceri
Schița de curs
Programa Cursului – Ziua 1
• Introducere în conceptele de procesare a datelor în flux
• Bazele procesării în lot vs. în timp real
• Elementele de bază ale arhitecturii bazate pe evenimente
• Cazuri de utilizare comune în industrie
• Prezentarea generală a ecosistemului de procesare a fluxurilor
Ziua 2
• Modele de proiectare a arhitecturii pentru fluxuri de date
• Bazele sistemelor distribuite de mesagerie
• Producători și consumatori
• Subiecte, partiții și fluxuri de date
• Strategii de ingestie a datelor
Ziua 3
• Concepte și framework-uri de procesare a fluxurilor
• Timpul evenimentului vs. timpul de procesare
• Tehnici de segmentare și cazuri de utilizare
• Procesarea fluxurilor cu stare
• Bazele toleranței la defecțiuni și ale checkpointing-ului
Ziua 4
• Transformarea datelor în conductele de flux
• ETL și ELT în sistemele în timp real
• Gestionarea și evoluția schemelor
• Îmbinări și îmbogățirea fluxurilor
• Introducere în serviciile de procesare a fluxurilor bazate pe cloud
Ziua 5
• Monitorizarea și observabilitatea sistemelor de flux
• Bazele securității și ale controlului accesului
• Optimizarea și reglarea performanței
• Revizuirea proiectării conductelor de la cap la capăt
• Cazuri de utilizare din lumea reală, cum ar fi detectarea fraudelor și procesarea IoT
Cursurile publice necesita 5+ participanti
Curs de pregatire Procesarea Datelor în Flux și Prelucrarea în Timp Real - Rezervare
Curs de pregatire Procesarea Datelor în Flux și Prelucrarea în Timp Real - Solicitare
Procesarea Datelor în Flux și Prelucrarea în Timp Real - Cerere de consultanta
Mărturii (1)
Exerciții practice. Clasa ar fi trebuit să dureze 5 zile, dar cele 3 zile au ajutat la clarificarea multor întrebări pe care le aveam din cauza lucrului cu NiFi.
James - BHG Financial
Curs - Apache NiFi for Administrators
Tradus de catre o masina
Cursuri viitoare
Cursuri înrudite
Formare pentru Administratori Apache Hadoop
35 OrePublicul țintă:
Cursul este destinat specialiștilor IT care caută o soluție pentru stocarea și procesarea seturilor mari de date într-un mediu de sistem distribuit
Obiectiv:
Dobândirea de cunoștințe aprofundate despre administrarea clusterelor Hadoop.
Analiza Big Data cu Google Colab și Apache Spark
14 OreAcest training condus de un instructor, live în Moldova (online sau la fața locului), este destinat specialiștilor în știința datelor și inginerilor de nivel intermediar care doresc să utilizeze Google Colab și Apache Spark pentru procesarea și analiza datelor mari.
La finalul acestui training, participanții vor putea:
- Să configureze un mediu de big data folosind Google Colab și Spark.
- Să proceseze și să analizeze seturi mari de date eficient cu Apache Spark.
- Să vizualizeze datele mari într-un mediu colaborativ.
- Să integreze Apache Spark cu instrumente bazate pe cloud.
Analiza Big Data în Sănătate
21 OreAnaliza Big Data presupune procesul de examinare a unor volume mari de seturi de date variate pentru a descoperi corelații, modele ascunse și alte informații utile.
Industria sănătății dispune de cantități uriașe de date medicale și clinice complexe și eterogene. Aplicarea analizei Big Data asupra datelor din domeniul sănătății prezintă un potențial imens în obținerea de informații pentru îmbunătățirea furnizării serviciilor medicale. Cu toate acestea, amploarea acestor seturi de date aduce mari provocări în analize și aplicații practice într-un mediu clinic.
În cadrul acestui training condus de un instructor, live (la distanță), participanții vor învăța cum să efectueze analize Big Data în domeniul sănătății, parcurgând o serie de exerciții practice în laborator.
La finalul acestui training, participanții vor fi capabili să:
- Instaleze și configureze instrumente de analiză Big Data, cum ar fi Hadoop MapReduce și Spark
- Înțeleagă caracteristicile datelor medicale
- Aplice tehnici Big Data pentru a gestiona datele medicale
- Studieze sistemele și algoritmii Big Data în contextul aplicațiilor din sănătate
Publicul țintă
- Dezvoltatori
- Specialiști în Știința Datelor
Formatul cursului
- Parte teoretică, parte discuții, exerciții și practică intensivă.
Notă
- Pentru a solicita un training personalizat pentru acest curs, vă rugăm să ne contactați pentru a aranja.
Hadoop pentru Administratori
21 OreApache Hadoop este cel mai popular cadru de lucru pentru procesarea Big Data pe clustere de servere. În acest curs de trei (opțional, patru) zile, participanții vor învăța despre beneficiile de afaceri și cazurile de utilizare ale Hadoop și ale ecosistemului său, cum să planifice implementarea și creșterea clusterului, cum să instaleze, să întrețină, să monitorizeze, să depaneze și să optimizeze Hadoop. De asemenea, vor practica încărcarea masivă de date în cluster, se vor familiariza cu diverse distribuții Hadoop și vor exersa instalarea și gestionarea instrumentelor din ecosistemul Hadoop. Cursul se încheie cu o discuție despre securizarea clusterului cu Kerberos.
„…Materialele au fost foarte bine pregătite și acoperite în profunzime. Laboratorul a fost foarte util și bine organizat.”
— Andrew Nguyen, Principal Integration DW Engineer, Microsoft Online Advertising
Public țintă
Administratori Hadoop
Format
Prelegeri și laboratoare practice, cu un echilibru aproximativ de 60% prelegeri și 40% laboratoare.
Hadoop pentru Dezvoltatori (4 zile)
28 OreApache Hadoop este cel mai popular cadru de procesare a Big Data pe clustere de servere. Acest curs îi va prezenta unui dezvoltator diverse componente (HDFS, MapReduce, Pig, Hive și HBase) ale ecosistemului Hadoop.
Hadoop Avansat pentru Dezvoltatori
21 OreApache Hadoop este unul dintre cele mai populare cadre de lucru pentru procesarea Big Data pe clustere de servere. Acest curs explorează gestionarea datelor în HDFS, precum și aspecte avansate ale Pig, Hive și HBase. Aceste tehnici avansate de programare vor fi benefice pentru dezvoltatorii experimentați de Hadoop.
Publicul țintă: dezvoltatori
Durata: trei zile
Format: prelegeri (50%) și exerciții practice (50%).
Administrarea Hadoop pe MapR
28 OrePublicul țintă:
Acest curs are scopul de a demistifica tehnologia big data/hadoop și de a arăta că nu este greu de înțeles.
Hadoop și Spark pentru Administratori
35 OreAcest training condus de un instructor, live în Moldova (online sau la fața locului), este destinat administratorilor de sistem care doresc să învețe cum să configureze, să implementeze și să gestioneze clustere Hadoop în organizația lor.
La sfârșitul acestui training, participanții vor putea:
- Instala și configura Apache Hadoop.
- Înțelege cele patru componente majore ale ecosistemului Hadoop: HDFS, MapReduce, YARN și Hadoop Common.
- Utiliza Hadoop Distributed File System (HDFS) pentru a scala un cluster la sute sau mii de noduri.
- Configura HDFS să funcționeze ca motor de stocare pentru implementări Spark on-premise.
- Configura Spark pentru a accesa soluții alternative de stocare, cum ar fi Amazon S3 și sisteme de baze de date NoSQL, precum Redis, Elasticsearch, Couchbase, Aerospike, etc.
- Efectua sarcini administrative, cum ar fi provizionarea, gestionarea, monitorizarea și securizarea unui cluster Apache Hadoop.
HBase pentru Dezvoltatori
21 OreAcest curs introduce HBase – un depozit NoSQL bazat pe Hadoop. Cursul este destinat dezvoltatorilor care vor folosi HBase pentru a dezvolta aplicații și administratorilor care vor gestiona clustere HBase.
Vom ghida un dezvoltator prin arhitectura HBase, modelarea datelor și dezvoltarea aplicațiilor pe HBase. De asemenea, vom discuta despre utilizarea MapReduce cu HBase și câteva subiecte de administrare legate de optimizarea performanței. Cursul este foarte practic, cu multe exerciții de laborator.
Durată: 3 zile
Public țintă: Dezvoltatori și Administratori
Apache NiFi pentru Administratori
21 OreApache NiFi este o platformă open-source bazată pe fluxuri pentru integrarea datelor și procesarea evenimentelor. Permite rutarea, transformarea și medierea automată a datelor în timp real între sisteme disparate, cu o interfață web și control detaliat.
Acest training condus de un instructor, live (pe fața locului sau la distanță), este destinat administratorilor și inginerilor de nivel intermediar care doresc să implementeze, să gestioneze, să securizeze și să optimizeze fluxurile de date NiFi în medii de producție.
La finalul acestui training, participanții vor putea:
- Să instaleze, să configureze și să întrețină clustere Apache NiFi.
- Să proiecteze și să gestioneze fluxuri de date din diverse surse și destinații.
- Să implementeze automatizarea fluxurilor, rutarea și logica de transformare.
- Să optimizeze performanța, să monitorizeze operațiunile și să depaneze problemele.
Formatul Cursului
- Prelegere interactivă cu discuții despre arhitectura din lumea reală.
- Laboratoare practice: construirea, implementarea și gestionarea fluxurilor.
- Exerciții bazate pe scenarii într-un mediu de laborator live.
Opțiuni de Personalizare a Cursului
- Pentru a solicita un training personalizat pentru acest curs, vă rugăm să ne contactați pentru a aranja.
Apache NiFi pentru Dezvoltatori
7 OreÎn cadrul acestui training condus de un instructor, participanții vor învăța elementele de bază ale programării bazate pe fluxuri, dezvoltând o serie de extensii, componente și procesoare demo folosind Apache NiFi.
La finalul acestui training, participanții vor putea:
- Să înțeleagă arhitectura NiFi și conceptele de flux de date.
- Să dezvolte extensii folosind NiFi și API-uri terțe.
- Să dezvolte propriul procesor Apache NiFi.
- Să ingere și să proceseze date în timp real din formate de fișiere și surse de date diverse și neobișnuite.
PySpark și Învățarea Automată
21 OreAcest training oferă o introducere practică în construirea fluxurilor de lucru scalabile pentru procesarea datelor și Învățarea Automată folosind PySpark. Participanții învață cum funcționează Apache Spark în ecosistemele moderne de Big Data și cum să proceseze eficient seturi mari de date folosind principiile calculului distribuit.
Python și Spark pentru Big Data (PySpark)
21 OreÎn acest training condus de un instructor, în format live în Moldova, participanții vor învăța cum să folosească Python și Spark împreună pentru a analiza date mari, lucrând la exerciții practice.
La finalul acestui training, participanții vor fi capabili să:
- Învețe cum să folosească Spark cu Python pentru a analiza date mari.
- Lucreze la exerciții care imită cazuri din lumea reală.
- Folosească diverse instrumente și tehnici pentru analiza datelor mari folosind PySpark.
Python, Spark și Hadoop pentru Big Data
21 OreAcest training condus de un instructor, live în Moldova (online sau la fața locului), este destinat dezvoltatorilor care doresc să utilizeze și să integreze Spark, Hadoop și Python pentru a procesa, analiza și transforma seturi de date mari și complexe.
La finalul acestui training, participanții vor putea:
- Să configureze mediul necesar pentru a începe procesarea datelor mari cu Spark, Hadoop și Python.
- Să înțeleagă caracteristicile, componentele de bază și arhitectura Spark și Hadoop.
- Să învețe cum să integreze Spark, Hadoop și Python pentru procesarea datelor mari.
- Să exploreze instrumentele din ecosistemul Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka și Flume).
- Să construiască sisteme de recomandare bazate pe filtrare colaborativă asemănătoare cu cele de la Netflix, YouTube, Amazon, Spotify și Google.
- Să utilizeze Apache Mahout pentru a scala algoritmii de învățare automată.
Stratio: Modulele Rocket și Intelligence cu PySpark
14 OreStratio este o platformă centrată pe date care integrează date masive, inteligență artificială și guvernanță într-o singură soluție. Modulele sale Rocket și Intelligence permit explorarea, transformarea și analiza avansată a datelor în mediile de întreprindere.
Acest training condus de un instructor, live (online sau la fața locului), este destinat profesioniștilor de date de nivel intermediar care doresc să utilizeze eficient modulele Rocket și Intelligence din Stratio cu PySpark, concentrându-se pe structuri repetitive, funcții definite de utilizator și logică avansată a datelor.
La finalul acestui training, participanții vor putea:
- Naviga și lucrează în platforma Stratio folosind modulele Rocket și Intelligence.
- Aplică PySpark în contextul ingerării, transformării și analizei datelor.
- Folosește bucle și logică condițională pentru a controla fluxurile de date și sarcinile de inginerie a caracteristicilor.
- Creează și gestionează funcții definite de utilizator (UDF) pentru operațiuni reutilizabile de date în PySpark.
Formatul cursului
- Prelegere interactivă și discuții.
- Multe exerciții și practică.
- Implementare practică într-un mediu live-lab.
Opțiuni de personalizare a cursului
- Pentru a solicita un training personalizat pentru acest curs, vă rugăm să ne contactați pentru a aranja.