Curs de pregatire Fundamentele Apache Iceberg
Apache Iceberg este un format de tabel open-source pentru seturi de date la scară mare, care aduce fiabilitatea și simplitatea tabelelor SQL în domeniul big data. A fost proiectat pentru a rezolva provocările gestionării datelor mari în lacurile de date, care implică adesea manipularea unor scheme complexe, fișiere de dimensiuni mari și surse de date diverse.
Această formare condusă de un instructor, în format live (online sau la fața locului), este destinată profesioniștilor din domeniul datelor de nivel începător care doresc să dobândească cunoștințele și abilitățile necesare pentru a utiliza eficient Apache Iceberg în gestionarea seturilor de date la scară mare, asigurarea integrității datelor și optimizarea fluxurilor de procesare a datelor.
La finalul acestei formări, participanții vor putea:
- Să înțeleagă pe deplin arhitectura, caracteristicile și beneficiile Apache Iceberg.
- Să învețe despre formatele de tabele, partiționarea, evoluția schemei și capacitățile de călătorie în timp.
- Să instaleze și să configureze Apache Iceberg în diferite medii.
- Să creeze, să gestioneze și să manipuleze tabele Iceberg.
- Să înțeleagă procesul de migrare a datelor din alte formate de tabele către Iceberg.
Formatul cursului
- Prelegere interactivă și discuții.
- Multe exerciții și practică.
- Implementare practică într-un mediu live-lab.
Opțiuni de personalizare a cursului
- Pentru a solicita o formare personalizată pentru acest curs, vă rugăm să ne contactați pentru a aranja.
Schița de curs
Introducere în Apache Iceberg
- Prezentare generală a Apache Iceberg
- Importanța și cazurile de utilizare în arhitectura modernă de date
- Caracteristici și beneficii cheie
Concepte de bază
- Formatul și arhitectura tabelelor Iceberg
- Comparație cu alte formate de tabele
- Partiționarea și evoluția schemei
- Călătoria în timp și versiunile datelor
Configurarea Apache Iceberg
- Instalare și configurare
- Integrarea Iceberg cu motoare de procesare a datelor
- Configurarea unui mediu Iceberg pe o mașină locală
Operații de bază
- Crearea și gestionarea tabelelor Iceberg
- Scrierea și citirea din tabele Iceberg
- Operații CRUD de bază
Migrarea și integrarea datelor
- Migrarea datelor din Hive și alte sisteme către Iceberg
- Integrarea cu instrumente BI
- Migrarea unui set de date de probă către Iceberg
Optimizarea performanței
- Tehnici de optimizare a performanței
- Optimizarea interogărilor și scanărilor de date
- Optimizarea performanței în Iceberg
Prezentarea caracteristicilor avansate
- Evoluția partițiilor și partiționarea ascunsă
- Evoluția tabelelor și modificările schemei
- Călătoria în timp și funcțiile de revenire
- Implementarea caracteristicilor avansate în Iceberg
Rezumat și pași următori
Cerințe
- Familiaritate cu concepte precum tabele, scheme, partiții și ingestie de date
- Cunoștințe de bază despre SQL
Publicul țintă
- Ingineri de date
- Arhitecți de date
- Analiști de date
- Dezvoltatori de software
Cursurile publice necesita 5+ participanti
Curs de pregatire Fundamentele Apache Iceberg - Rezervare
Curs de pregatire Fundamentele Apache Iceberg - Solicitare
Fundamentele Apache Iceberg - Cerere de consultanta
Mărturii (1)
Exerciții practice. Clasa ar fi trebuit să dureze 5 zile, dar cele 3 zile au ajutat la clarificarea multor întrebări pe care le aveam din cauza lucrului cu NiFi.
James - BHG Financial
Curs - Apache NiFi for Administrators
Tradus de catre o masina
Cursuri viitoare
Cursuri înrudite
Apache Iceberg Avansat
21 OreAceastă formare condusă de un instructor, în direct Moldova (online sau la fața locului), este destinată profesioniștilor avansați în domeniul datelor care doresc să optimizeze fluxurile de procesare a datelor, să asigure integritatea datelor și să implementeze soluții robuste de tip data lakehouse, capabile să gestioneze complexitatea aplicațiilor moderne de big data.
La finalul acestei formări, participanții vor putea:
- Să înțeleagă în profunzime arhitectura Iceberg, inclusiv gestionarea metadatelor și structura fișierelor.
- Să configureze Iceberg pentru performanță optimă în diverse medii și să îl integreze cu multiple motoare de procesare a datelor.
- Să gestioneze tabele Iceberg la scară largă, să efectueze schimbări complexe de scheme și să gestioneze evoluția partițiilor.
- Să stăpânească tehnici de optimizare a performanței interogărilor și a eficienței scanării datelor pentru seturi de date mari.
- Să implementeze mecanisme pentru a asigura consistența datelor, a gestiona garanțiile tranzacționale și a gestiona eșecurile în medii distribuite.
Analiza Big Data cu Google Colab și Apache Spark
14 OreAcest training condus de un instructor, live în Moldova (online sau la fața locului), este destinat specialiștilor în știința datelor și inginerilor de nivel intermediar care doresc să utilizeze Google Colab și Apache Spark pentru procesarea și analiza datelor mari.
La finalul acestui training, participanții vor putea:
- Să configureze un mediu de big data folosind Google Colab și Spark.
- Să proceseze și să analizeze seturi mari de date eficient cu Apache Spark.
- Să vizualizeze datele mari într-un mediu colaborativ.
- Să integreze Apache Spark cu instrumente bazate pe cloud.
Inteligența de Business pe Bază de Big Data pentru Agențiile Guvernamentale
35 OreProgresele tehnologice și creșterea cantității de informații transformă modul în care afacerile sunt desfășurate în multe industrii, inclusiv în sectorul guvernamental. Rata de generare și arhivare digitală a datelor guvernamentale este în creștere datorită creșterii rapide a dispozitivelor și aplicațiilor mobile, a senzorilor și dispozitivelor inteligente, a soluțiilor de cloud computing și a portalelor pentru cetățeni. Pe măsură ce informațiile digitale se extind și devin mai complexe, gestionarea, procesarea, stocarea, securitatea și eliminarea lor devin și ele mai complexe. Noi instrumente de captură, căutare, descoperire și analiză ajută organizațiile să obțină informații valoroase din datele lor nestructurate. Piața guvernamentală se află într-un punct de cotitură, realizând că informația este un activ strategic, iar guvernul trebuie să protejeze, să valorifice și să analizeze atât informațiile structurate, cât și pe cele nestructurate pentru a servi mai bine și a îndeplini cerințele misiunii. Pe măsură ce liderii guvernamentali încearcă să dezvolte organizații bazate pe date pentru a îndeplini cu succes misiunea, ei pun bazele pentru corelarea dependențelor între evenimente, oameni, procese și informații.
Soluțiile guvernamentale de mare valoare vor fi create din amestecul celor mai disruptiv tehnologii:
- Dispozitive și aplicații mobile
- Servicii în cloud
- Tehnologii și rețele de afaceri sociale
- Big Data și analitica
Big Data este una dintre soluțiile inteligente ale industriei și permite guvernului să ia decizii mai bune acționând pe baza modelelor descoperite prin analiza unor volume mari de date — legate și nelegate, structurate și nestructurate.
Dar realizarea acestor realizări necesită mult mai mult decât simpla acumulare de cantități masive de date. „Înțelegerea acestor volume de Big Data necesită instrumente și tehnologii de ultimă oră care să poată analiza și să extragă cunoștințe utile din fluxuri vaste și diverse de informații”, au scris Tom Kalil și Fen Zhao de la Biroul pentru Știință și Tehnologie al Casei Albe într-un post pe blogul OSTP.
Casa Albă a făcut un pas către ajutarea agențiilor să găsească aceste tehnologii atunci când a înființat Inițiativa Națională de Cercetare și Dezvoltare Big Data în 2012. Inițiativa a inclus peste 200 de milioane de dolari pentru a valorifica explozia Big Data și instrumentele necesare pentru a o analiza.
Provocările pe care le prezintă Big Data sunt aproape la fel de descurajante pe cât este de încurajatoare promisiunea sa. Stocarea eficientă a datelor este una dintre aceste provocări. Ca întotdeauna, bugetele sunt limitate, așa că agențiile trebuie să minimizeze prețul pe megabyte al stocării și să păstreze datele accesibile astfel încât utilizatorii să le poată obține când doresc și cum au nevoie. Salvarea unor cantități masive de date amplifică provocarea.
Analiza eficientă a datelor este o altă provocare majoră. Multe agenții folosesc instrumente comerciale care le permit să cerceteze munții de date, identificând tendințe care le pot ajuta să funcționeze mai eficient. (Un studiu recent realizat de MeriTalk a constatat că directorii IT federali cred că Big Data ar putea ajuta agențiile să economisească peste 500 de miliarde de dolari, îndeplinind în același timp obiectivele misiunii.).
Instrumentele Big Data dezvoltate la comandă permit, de asemenea, agențiilor să răspundă nevoii de a-și analiza datele. De exemplu, Grupul de Analiză Computațională a Datelor de la Laboratorul Național Oak Ridge a pus la dispoziția altor agenții sistemul său de analiză a datelor Piranha. Sistemul a ajutat cercetătorii medicali să găsească o legătură care să alerteze medicii cu privire la anevrisme aortice înainte ca acestea să apară. De asemenea, este folosit pentru sarcini mai obișnuite, cum ar fi sortarea CV-urilor pentru a conecta candidații cu managerii de angajare.
O Introducere Practică în Analiza Datelor și Big Data - 3 Zile
21 OreParticipanții care finalizează această instruire condusă de un instructor în Moldova vor dobândi o înțelegere practică și aplicabilă în lumea reală a Big Data și a tehnologiilor, metodelor și instrumentelor conexe.
Participanții vor avea ocazia să-și pună în practică aceste cunoștințe prin exerciții practice. Interacțiunea în grup și feedback-ul instructorului constituie o componentă importantă a cursului.
Cursul începe cu o introducere în conceptele de bază ale Big Data, apoi trece la limbajele de programare și metodele utilizate pentru efectuarea analizei datelor. În cele din urmă, discutăm despre instrumentele și infrastructura care permit stocarea Big Data, procesarea distribuită și scalabilitatea.
Big Data și Analiză Avansată
42 OreBig Data și Analiză Avansată reprezintă aplicarea unor tehnici și instrumente sofisticate pentru analiza unor seturi de date mari și complexe, în scopul obținerii de informații acționabile și de luare a deciziilor strategice.
Această formare condusă de un instructor, live (online sau la fața locului), este destinată profesioniștilor avansați în domeniul datelor care doresc să utilizeze metode analitice de ultimă oră și tehnologii Big Data pentru analize predictive, prescriptive și în timp real.
La finalul acestei formări, participanții vor fi capabili să:
- Proiecteze și implementeze fluxuri de procesare a datelor la scară largă pentru date structurate și nestructurate.
- Aplice tehnici avansate de învățare automată și învățare profundă pe seturi de date masive.
- Utilizeze cadre de calcul distribuit pentru analize în timp real și fluxuri de date.
- Integreze analiza Big Data în sistemele de inteligență de afaceri și de luare a deciziilor.
Formatul cursului
- Prelegere interactivă și discuții.
- Multe exerciții și practică.
- Implementare practică într-un mediu de laborator live.
Opțiuni de personalizare a cursului
- Pentru a solicita o formare personalizată pentru acest curs, vă rugăm să ne contactați pentru a aranja.
Apache NiFi pentru Administratori
21 OreApache NiFi este o platformă open-source bazată pe fluxuri pentru integrarea datelor și procesarea evenimentelor. Permite rutarea, transformarea și medierea automată a datelor în timp real între sisteme disparate, cu o interfață web și control detaliat.
Acest training condus de un instructor, live (pe fața locului sau la distanță), este destinat administratorilor și inginerilor de nivel intermediar care doresc să implementeze, să gestioneze, să securizeze și să optimizeze fluxurile de date NiFi în medii de producție.
La finalul acestui training, participanții vor putea:
- Să instaleze, să configureze și să întrețină clustere Apache NiFi.
- Să proiecteze și să gestioneze fluxuri de date din diverse surse și destinații.
- Să implementeze automatizarea fluxurilor, rutarea și logica de transformare.
- Să optimizeze performanța, să monitorizeze operațiunile și să depaneze problemele.
Formatul Cursului
- Prelegere interactivă cu discuții despre arhitectura din lumea reală.
- Laboratoare practice: construirea, implementarea și gestionarea fluxurilor.
- Exerciții bazate pe scenarii într-un mediu de laborator live.
Opțiuni de Personalizare a Cursului
- Pentru a solicita un training personalizat pentru acest curs, vă rugăm să ne contactați pentru a aranja.
PySpark și Învățarea Automată
21 OreAcest training oferă o introducere practică în construirea fluxurilor de lucru scalabile pentru procesarea datelor și Învățarea Automată folosind PySpark. Participanții învață cum funcționează Apache Spark în ecosistemele moderne de Big Data și cum să proceseze eficient seturi mari de date folosind principiile calculului distribuit.
Fundamentele Apache Spark
21 OreAcest training condus de un instructor, live în Moldova (online sau la fața locului) este destinat inginerilor care doresc să configureze și să implementeze sistemul Apache Spark pentru procesarea unor volume foarte mari de date.
La finalul acestui training, participanții vor putea:
- Instala și configura Apache Spark.
- Procesarea și analiza rapidă a unor seturi de date foarte mari.
- Înțelege diferența dintre Apache Spark și Hadoop MapReduce și când să folosească fiecare.
- Integrarea Apache Spark cu alte instrumente de învățare automată.
Administrarea Apache Spark
35 OreAcest training condus de un instructor, live în Moldova (online sau la fața locului) este destinat administratorilor de sisteme de la nivel începător până la intermediar care doresc să implementeze, să întrețină și să optimizeze clustere Spark.
La finalul acestui training, participanții vor fi capabili să:
- Instaleze și configureze Apache Spark în diverse medii.
- Gestioneze resursele clusterului și monitorizeze aplicațiile Spark.
- Optimizeze performanța clusterelor Spark.
- Implementeze măsuri de securitate și asigure o disponibilitate ridicată.
- Depaneze și rezolve probleme comune în Spark.
Apache Spark în Cloud
21 OreCurba de învățare a Apache Spark crește lent la început, fiind necesar un efort considerabil pentru a obține primele rezultate. Acest curs își propune să treacă peste această parte dificilă inițială. După parcurgerea acestui curs, participanții vor înțelege elementele de bază ale Apache Spark, vor face distincția clară între RDD și DataFrame, vor învăța API-urile Python și Scala, vor înțelege executoarele și sarcinile, etc. De asemenea, urmând cele mai bune practici, acest curs se concentrează puternic pe implementarea în cloud, Databricks și AWS. Studenții vor înțelege, de asemenea, diferențele dintre AWS EMR și AWS Glue, unul dintre cele mai recente servicii Spark ale AWS.
PUBLICUL ȚINTĂ:
Inginer de date, DevOps, Specialist în Știința Datelor
Python și Spark pentru Big Data (PySpark)
21 OreÎn acest training condus de un instructor, în format live în Moldova, participanții vor învăța cum să folosească Python și Spark împreună pentru a analiza date mari, lucrând la exerciții practice.
La finalul acestui training, participanții vor fi capabili să:
- Învețe cum să folosească Spark cu Python pentru a analiza date mari.
- Lucreze la exerciții care imită cazuri din lumea reală.
- Folosească diverse instrumente și tehnici pentru analiza datelor mari folosind PySpark.
Python, Spark și Hadoop pentru Big Data
21 OreAcest training condus de un instructor, live în Moldova (online sau la fața locului), este destinat dezvoltatorilor care doresc să utilizeze și să integreze Spark, Hadoop și Python pentru a procesa, analiza și transforma seturi de date mari și complexe.
La finalul acestui training, participanții vor putea:
- Să configureze mediul necesar pentru a începe procesarea datelor mari cu Spark, Hadoop și Python.
- Să înțeleagă caracteristicile, componentele de bază și arhitectura Spark și Hadoop.
- Să învețe cum să integreze Spark, Hadoop și Python pentru procesarea datelor mari.
- Să exploreze instrumentele din ecosistemul Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka și Flume).
- Să construiască sisteme de recomandare bazate pe filtrare colaborativă asemănătoare cu cele de la Netflix, YouTube, Amazon, Spotify și Google.
- Să utilizeze Apache Mahout pentru a scala algoritmii de învățare automată.
Apache Spark SQL
7 OreSpark SQL este modulul Apache Spark pentru lucrul cu date structurate și nestructurate. Spark SQL oferă informații despre structura datelor, precum și despre calculul care este efectuat. Aceste informații pot fi folosite pentru a realiza optimizări. Două utilizări comune ale Spark SQL sunt:
- executarea interogărilor SQL.
- citirea datelor dintr-o instalare existentă Hive.
În acest training condus de un instructor, live (la fața locului sau la distanță), participanții vor învăța cum să analizeze diverse tipuri de seturi de date folosind Spark SQL.
La finalul acestui training, participanții vor putea:
- Instala și configura Spark SQL.
- Efectua analiza datelor folosind Spark SQL.
- Interoga seturi de date în diferite formate.
- Vizualiza datele și rezultatele interogărilor.
Formatul Cursului
- Prelegere interactivă și discuții.
- Multe exerciții și practică.
- Implementare practică într-un mediu live-lab.
Opțiuni de Personalizare a Cursului
- Pentru a solicita un training personalizat pentru acest curs, vă rugăm să ne contactați pentru a aranja.
Stratio: Modulele Rocket și Intelligence cu PySpark
14 OreStratio este o platformă centrată pe date care integrează date masive, inteligență artificială și guvernanță într-o singură soluție. Modulele sale Rocket și Intelligence permit explorarea, transformarea și analiza avansată a datelor în mediile de întreprindere.
Acest training condus de un instructor, live (online sau la fața locului), este destinat profesioniștilor de date de nivel intermediar care doresc să utilizeze eficient modulele Rocket și Intelligence din Stratio cu PySpark, concentrându-se pe structuri repetitive, funcții definite de utilizator și logică avansată a datelor.
La finalul acestui training, participanții vor putea:
- Naviga și lucrează în platforma Stratio folosind modulele Rocket și Intelligence.
- Aplică PySpark în contextul ingerării, transformării și analizei datelor.
- Folosește bucle și logică condițională pentru a controla fluxurile de date și sarcinile de inginerie a caracteristicilor.
- Creează și gestionează funcții definite de utilizator (UDF) pentru operațiuni reutilizabile de date în PySpark.
Formatul cursului
- Prelegere interactivă și discuții.
- Multe exerciții și practică.
- Implementare practică într-un mediu live-lab.
Opțiuni de personalizare a cursului
- Pentru a solicita un training personalizat pentru acest curs, vă rugăm să ne contactați pentru a aranja.