Cursuri de pregatire SMACK Stack pentru Cercetarea Datelor
SMACK este o colecție de softuri pentru platforme de date, anume Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra și Apache Kafka. Utilizând stack-ul SMACK, utilizatorii pot crea și scala platforme de procesare a datelor.
Această instruire condusă de un instructor (online sau în locație) este destinată cercetătorilor de date care doresc să folosească stack-ul SMACK pentru a construi platforme de procesare a datelor pentru soluții cu date mari.
La sfârșitul acestei instruiri, participanții vor putea:
- Implementa o arhitectură de pipeline de date pentru procesarea datelor mari.
- Dezvolta infrastructura de cluster cu Apache Mesos și Docker.
- Analiza datele cu Spark și Scala.
- Gestiona datele neestructurate cu Apache Cassandra.
Formatul cursului
- Prezentare interactivă și discuție.
- Multe exerciții și practică.
- Implementarea într-un mediu de laborator live.
Opțiuni de personalizare a cursului
- Pentru a solicita o instruire personalizată pentru acest curs, vă rugăm să ne contactați pentru a face aranjamente.
Schița de curs
Introducere
Prezentare SMACK Stack
- Ce este Apache Spark? Caracteristici ale Apache Spark
- Ce este Apache Mesos? Caracteristici ale Apache Mesos
- Ce este Apache Akka? Caracteristici ale Apache Akka
- Ce este Apache Cassandra? Caracteristici ale Apache Cassandra
- Ce este Apache Kafka? Caracteristici ale Apache Kafka
Limbajul Scala
- Sintaxa și structura limbajului Scala
- Structura de control în Scala
Prepararea mediului de dezvoltare
- Instalarea și configurarea SMACK stack-ului
- Instalarea și configurarea Dockerului
Apache Akka
- Utilizarea actorilor
Apache Cassandra
- Crearea unei baze de date pentru operațiuni de citire
- Lucrul cu backup-uri și recuperare
Conectori
- Crearea unui flux de date
- Construirea unei aplicații Akka
- Stocarea datelor cu Cassandra
- Revizuirea conectorilor
Apache Kafka
- Lucrul cu clustere
- Crearea, publicarea și consumarea mesajelor
Apache Mesos
- Alocarea resurselor
- Executarea clusterelor
- Lucrul cu Apache Aurora și Docker
- Executarea serviciilor și a sarcinilor (jobs)
- Implementarea Spark, Cassandra și Kafka pe Mesos
Apache Spark
- Gestionarea fluxurilor de date
- Lucrul cu RDD-uri și dataframe-uri
- Efectuarea analizei datelor
Rezolvarea problemelor tehnice
- Gestionarea eșecurilor serviciilor și a erorilor
Concluzii și rezumat
Cerințe
- O înțelegere a sistemelor de procesare a datelor
Audiență
- Data Scientists
Cursurile publice necesita 5+ participanti
Cursuri de pregatire SMACK Stack pentru Cercetarea Datelor - Rezervare
Cursuri de pregatire SMACK Stack pentru Cercetarea Datelor - Solicitare
SMACK Stack pentru Cercetarea Datelor - Cerere de consultanta
Cerere de consultanta
Mărturii (1)
foarte interactiv...
Richard Langford
Curs - SMACK Stack for Data Science
Tradus de catre o masina
Cursuri viitoare
Cursuri înrudite
Ecosistem pentru Cercetătorii de Date
14 oreAceastă instruire live, condusă de un instructor în Moldova (online sau la fața locului) se adresează oamenilor de știință din domeniul datelor care doresc să utilizeze ecosistemul Anaconda pentru a captura, gestiona și implementa pachete și fluxuri de lucru pentru analiza datelor într-o singură platformă.
Până la sfârșitul acestui curs, participanții vor fi capabili să:
- Să instaleze și să configureze componentele și bibliotecile Anaconda.
- Să înțeleagă conceptele, caracteristicile și beneficiile de bază ale Anaconda.
- Să gestioneze pachete, medii și canale utilizând Anaconda Navigator.
- Utilizați Conda, R și pachetele Python pentru știința datelor și învățarea automată.
- Cunoașteți câteva cazuri practice de utilizare și tehnici pentru gestionarea mai multor medii de date.
Big Data Business Intelligence pentru Fournisseurii de Servicii Telecom și Communication
35 oreVizualizare
Furnizorii de servicii (CSP) se confruntă cu presiune pentru a reduce costurile și a maximiza veniturile medii pe utilizator (ARPU), asigurând în același timp o experiență excelentă a clienților, dar volumele de date continuă să crească. Traficul global de date mobile va crește la o rată anuală de creștere combinată (CAGR) de 78% până în 2016, ajungând la 10,8 exabite pe lună.
Între timp, CSP generează volume mari de date, inclusiv înregistrări de detalii de apel (CDR), date de rețea și date despre clienți. Companiile care exploatează pe deplin aceste date câștigă un prag competitiv. Conform unui sondaj recent realizat de The Economist Intelligence Unit, companiile care folosesc deciziile bazate pe date se bucură de o creștere de productivitate de 5-6%. Cu toate acestea, 53% dintre companii folosesc doar jumătate din datele lor valoroase, iar un sfert dintre respondenți a observat că cantități imense de date utile nu sunt folosite. Volumele de date sunt atât de mari încât analiza manuală este imposibilă, iar cele mai multe sisteme software de moștenire nu se pot menține, ceea ce duce la descărcarea sau ignorarea datelor valoroase.
Cu Big Data & Analytics’ software-ul de date mari de mare viteză, scalabil, CSP-urile pot minera toate datele lor pentru o mai bună luare a deciziilor în mai puțin timp. Diferite produse și tehnici oferă o platformă de software fin-to-end pentru colectarea, pregătirea, analizarea și prezentarea de înțelegeri din datele mari. Domeniile de aplicare includ monitorizarea performanței rețelei, detecția fraudelor, detecția clienților și analiza riscurilor de credit. Big Data & Scala produselor de analiză pentru a gestiona terabite de date, dar implementarea unor astfel de instrumente necesită un nou tip de sistem de bază de date bazată pe cloud, cum ar fi Hadoop sau procesorul de calcul paralel cu scară masivă (KPU etc.)
Acest curs lucrează pe Big Data BI pentru Telco acoperă toate domeniile emergente în care CSP-urile investesc pentru creșterea productivității și deschiderea unui nou flux de venituri de afaceri. Cursul va oferi o imagine completă de 360 de grade a Big Data BI în Telco, astfel încât factorii de decizie și managerii pot avea o imagine foarte largă și cuprinzătoare a posibilităților Big Data BI în Telco pentru productivitate și câștiguri de venituri.
Obiectivele cursului
Obiectivul principal al cursului este de a introduce noi Big Data tehnici de inteligență a afacerilor în 4 sectoare de Telecom Business (Marketing/ Vânzări, Operațiuni de rețea, Operațiuni financiare și Relații cu clienții Management). Elevii vor fi invitați să urmeze:
- Introducere la Big Data-ce este 4Vs (volume, viteză, varietate și veracitate) în Big Data- Generație, extracție și management din perspectiva Telco
- Cum se diferențiază analiza de date de moștenire
- In-house justificare a Big Data -Perspectivă Telco
- Introducere la Hadoop Ecosistem- familiaritate cu toate Hadoop instrumente cum ar fi Hive, Pig, SPARC –când și cum sunt utilizate pentru a rezolva problema Big Data
- Cum Big Data este extras pentru a analiza pentru instrumentul de analiză-cum Business Analysis’s pot reduce punctele lor de durere de colectare și de analiză a datelor prin abordarea integrată Hadoop dashboard
- Introducere de bază a analizei Insight, analizei de vizualizare și analizei predictive pentru Telco
- Analiza clienților Churn și Big Data-cum Big Data analiza pot reduce churnul clienților și insatisfacția clienților în studiile de caz Telco
- Analiza eșecurilor de rețea și a eșecurilor de serviciu din meta-data rețelei și IPDR
- Analiza financiară-fraudă, vase și estimarea ROI din vânzări și date operaționale
- Problema achiziției clienților - Marketingul țintă, segmentarea clienților și vânzările transversale din datele de vânzare
- Introducere și rezumat al tuturor produselor analitice Big Data și unde se potrivesc în spațiul analitic Telco
- Conclusie-cum să luați o abordare pas cu pas pentru a introduce Big Data Business Intelligence în organizația dvs.
Publicul țintă
- Operarea rețelei, managerii financiari, managerii CRM și managerii IT de top în biroul Telco CIO.
- Business Analiștii din Telco
- Administratori de birouri / analisti CFO
- Manageri de operare
- Managerii QA
O Introducere Practică în Sciënța Datelor
35 oreParticipanții care finalizează această formare vor dobândi o înțelegere practică, reală a Data Science și a tehnologiilor, metodologiilor și instrumentelor aferente.
Participanții vor avea ocazia să pună în practică aceste cunoștințe prin exerciții practice. Interacțiunea în grup și feedback-ul instructorului constituie o componentă importantă a cursului.
Cursul începe cu o introducere în conceptele elementare ale Data Science, apoi progresează în instrumentele și metodologiile utilizate în Data Science.
Audiență
- Dezvoltatori
- analiști tehnici
- Consultanți IT
Formatul cursului
- Parte prelegere, parte discuție, exerciții și multă practică
Notă
- Pentru a solicita o instruire personalizată pentru acest curs, vă rugăm să ne contactați pentru a aranja.
Programul de Ştiință a Datelor
245 oreExplozia de informații și date în lumea de astăzi este fără egal, capacitatea noastră de a inova și de a depăși limitele posibilului crește mai repede decât a făcut-o vreodată. Rolul Data Scientist este una dintre cele mai solicitate competențe în industrie în prezent.
Oferim mult mai mult decât învățare prin teorie; oferim abilități practice, comercializabile, care creează o punte între lumea academică și cerințele industriei.
Acest curriculum de 7 săptămâni poate fi adaptat la cerințele dvs. specifice ale industriei, vă rugăm să ne contactați pentru mai multe informații sau să vizitați site-ul web al Institutului Nobleprog
Public:
Acest program se adresează absolvenților de nivel post, precum și oricărei persoane cu abilitățile pre-condiții necesare, care vor fi determinate de o evaluare și un interviu.
Livrare:
Livrarea cursului va fi un amestec de Instructor Led Classroom și Instructor Led Online; de obicei, prima săptămână va fi „condusă în clasă”, săptămânile 2 - 6 „clasă virtuală” și săptămâna 7 înapoi la „condusă în clasă”.
Știința Datelor pentru Analiza Big Data
35 oreDatele mari sunt seturi de date atât de voluminoase și complexe încât softurile tradiționale de aplicații de prelucrare a datelor nu sunt adecvate pentru a le trata. Provocările de date mari includ captarea datelor, stocarea datelor, analiza datelor, căutarea, partajarea, transferul, vizualizarea, interogarea, actualizarea și confidențialitatea informațiilor.
Cunoașterea Șiintelor Datelor esențială pentru profesioniștii din marketing/vânzări
21 oreAcest curs este destinat Profesionistilor din Marketing și Vânzări care intenționează să se aprofundeze în aplicarea științei datelor în Marketing/Vânzări. Cursul oferă o acoperire detaliată a diferitelor tehnici ale științei datelor folosite pentru „upsale”, „cross-sale”, segmentarea pieței, branding și CLV.
Diferența dintre Marketing și Vânzări - Cum se diferentiază vânzările de marketing?
În cuvinte foarte simple, vânzările pot fi definite ca un proces care se concentrează sau ținteste pe indivizi sau grupuri mici. Pe de altă parte, marketingul țintește o grupare mai largă sau publicul general. Marketingul include cercetare (identificarea nevoilor clienților), dezvoltarea produselor (producerea de produse inovatoare) și promovarea produsului (prin publicitate) și crearea unei conștiințe despre produs în rândul consumatorilor. Astfel, marketingul înseamnă generarea de potențiali clienți sau prospetti. Odată ce produsul este lansat pe piață, este sarcina vânzătorului să convingă clientul să cumpere produsul. Vânzările înseamnă convertirea potențialilor clienți sau prospetelor în achiziții și comenzi, în timp ce marketingul are ca scop obiective pe termen lung, iar vânzările se referă la obiective pe termen scurt.
Jupyter pentru echipe de science de date
7 oreAceastă instruire guiată în timp real (online sau pe locație) prezintă ideea dezvoltării collaborative în cadrul științei datelor și demonstrează cum să folosiți Jupyter pentru a urmări și participa ca echipă la "ciclul de viață al unei idei computaționale". Învațătorii vor fi condusi prin crearea unui proiect de știința datelor pe baza ecosistemului Jupyter.
La sfârșitul acestei instruire, participanții vor putea:
- Instalați și configurați Jupyter, inclusiv crearea și integrarea unui depozit de echipă pe Git.
- Folosiți caracteristicile Jupyter precum extensiile, widget-uri interactive, mod multi-utilizator și altele pentru a permite colaborarea la proiecte.
- Creați, împărțiți și organizați Jupyter Notebooks cu membrii echipei.
- Alegeți dintre Scala, Python, R, pentru a scrie și executa cod împotriva sistemelor de mari date cum ar fi Apache Spark, tot prin interfața Jupyter.
Kaggle
14 oreAceastă formare live, cu instructor, în Moldova (online sau la fața locului) se adresează cercetătorilor și dezvoltatorilor de date care doresc să învețe și să își construiască o carieră în Data Science folosind Kaggle.
Până la sfârșitul acestei formări, participanții vor fi capabili să:
- Să învețe despre știința datelor și învățarea automată.
- Să exploreze analiza datelor.
- Să învețe despre Kaggle și modul său de funcționare.
Fundamente MATLAB, Știința Datelor și Generarea Rapoartelor
35 oreÎn prima parte a acestui curs, vom aborda elementele de bază ale MATLAB și funcția sa atât ca limbaj, cât și ca platformă. În această discuție este inclusă o introducere în sintaxa MATLAB, matrice și matrici, vizualizarea datelor, dezvoltarea scripturilor și principiile orientate pe obiect.
În a doua parte, vom demonstra modul de utilizare a MATLAB pentru extragerea datelor, învățarea automată și analiza predictivă. Pentru a oferi participanților o perspectivă clară și practică a abordării și puterii MATLAB, vom face comparații între utilizarea MATLAB și utilizarea altor instrumente, cum ar fi foile de calcul, C, C++ și Visual Basic.
În a treia parte a cursului, participanții învață cum să își eficientizeze activitatea prin automatizarea prelucrării datelor și generării de rapoarte.
Pe parcursul cursului, participanții vor pune în practică ideile învățate prin exerciții practice într-un mediu de laborator. Până la sfârșitul cursului, participanții vor avea o înțelegere aprofundată a capacităților MATLAB și vor putea să le utilizeze pentru a rezolva probleme reale de știința datelor, precum și pentru a-și eficientiza activitatea prin automatizare.
Pe parcursul cursului vor fi efectuate evaluări pentru a măsura progresul.
Formatul cursului
- Cursul include exerciții teoretice și practice, inclusiv discuții de caz, inspectarea codului eșantion și implementarea practică.
Notă
- Sesiunile practice se vor baza pe șabloane de rapoarte de date de probă prestabilite. Dacă aveți cerințe specifice, vă rugăm să ne contactați pentru a aranja.
Machine Learning pentru Data Science cu Python
21 oreAcest training guițit de un instrucțurator în Moldova (online sau pe local) se adresează analistilor de date intermediari, dezvoltatorilor sau aspiranții științifici ai datelor care doresc să aplică tehnici de învățare automatizată în Python pentru a extrage îndrumări, a face previziuni și a automate deciziile bazate pe date.
La sfârșitul acestui curs, participanții vor putea:
- Să înțeleagă și să diferențieze principalele paradigme ale învățării automatizate.
- Să exploreze tehnici de preprocesare a datelor și metricile de evaluare a modelului.
- Să aplique algoritmi de învățare automatizată pentru a rezolva probleme reale cu date.
- Să folosească bibliotecile Python și notebook-urile Jupyter pentru dezvoltarea practică.
- Să construiască modele pentru previziuni, clasificare, recomandări și grupare.
Accelerarea fluxurilor de lucru Python Pandas cu Modin
14 oreAcest curs de formare live, condus de un instructor în Moldova (online sau la fața locului) se adresează cercetătorilor și dezvoltatorilor de date care doresc să utilizeze Modin pentru a construi și implementa calcule paralele cu Pandas pentru o analiză mai rapidă a datelor.
Până la sfârșitul acestui training, participanții vor fi capabili să:
- Să configureze mediul necesar pentru a începe să dezvolte fluxuri de lucru Pandas la scară largă cu Modin.
- Să înțeleagă caracteristicile, arhitectura și avantajele Modin.
- Să cunoască diferențele dintre Modin, Dask și Ray.
- Efectuați operații Pandas mai rapid cu Modin.
- Implementați întregul API și funcțiile Pandas.
Programare Python pentru Finanțe
35 orePython este un limbaj de programare care a câștigat o popularitate uriașă în industria financiară. Adoptat de cele mai mari bănci de investiții și fonduri speculative, este utilizat pentru a construi o gamă largă de aplicații financiare, de la programe de tranzacționare de bază până la sisteme de gestionare a riscurilor.
În cadrul acestei instruiri, instruite în direct, participanții vor învăța cum să folosească Python pentru a dezvolta aplicații practice pentru rezolvarea unui număr de probleme specifice legate de finanțe.
Până la sfârșitul acestui antrenament, participanții vor putea:
- Înțelege fundamentele limbajului de programare Python
- Descărca, instala și menține cele mai bune instrumente de dezvoltare pentru crearea de aplicații financiare în Python
- Selecta și utiliza cele mai potrivite pachete și tehnici de programare Python pentru a organiza, vizualiza și analiza date financiare din diverse surse (CSV, Excel, baze de date, web, etc.)
- Construi aplicații care rezolvă probleme legate de alocarea activelor, analiza riscurilor, performanța investițiilor și multe altele
- Depana, integra, implementa și optimiza o aplicație Python
Public
- Dezvoltatori
- Analiști
- Quants
Formatul cursului
- Parțial prelegere, parțial discuție, exerciții și practică intensă
Notă
- Această instruire își propune să ofere soluții pentru unele dintre problemele principale cu care se confruntă profesioniștii din domeniul financiar. Cu toate acestea, dacă aveți un subiect, instrument sau tehnică specifică pe care doriți să o adăugați sau să o elaborați mai detaliat, vă rugăm să ne contactați pentru a stabili o programare.
Science de Date cu GPU folosind NVIDIA RAPIDS
14 oreAceastă instruire condusă de instructor (online sau pe loc) este adresată științistilor de date și dezvoltatorilor care doresc să folosească RAPIDS pentru a construi pipeleini, fluxuri de lucru și vizualizări de date cu accelerare GPU, aplicând algoritmi de învățare automată precum XGBoost, cuML, etc.
La sfârșitul acestei instruiri, participanții vor putea:
- Configura mediul de dezvoltare necesar pentru a construi modele de date cu NVIDIA RAPIDS.
- Înțelege funcțiile, componentele și avantajele RAPIDS.
- Aprofita de GPU-uri pentru a accelera pipeleini de date și analiză end-to-end.
- Implementa prepararea datelor și ETL cu accelerare GPU folosind cuDF și Apache Arrow.
- Învață cum să efectueze sarcini de învățare automată folosind algoritmi XGBoost și cuML.
- Construiți vizualizări de date și executați analiza grafică cu cuXfilter și cuGraph.
Python și Spark pentru Date Mari (PySpark)
21 oreÎn cadrul acestui curs de formare live, condus de un instructor în Moldova, participanții vor învăța cum să utilizeze Python și Spark împreună pentru a analiza date mari, pe măsură ce lucrează la exerciții practice.
Până la sfârșitul acestui training, participanții vor fi capabili să:
- Să învețe cum să utilizeze Spark cu Python pentru a analiza Big Data.
- Să lucreze la exerciții care imită cazuri din lumea reală.
- Să utilizeze diferite instrumente și tehnici pentru analiza datelor mari utilizând PySpark.
Stratio: Modulele Rocket și Intelligence cu PySpark
14 oreStratio este o platformă centrată pe date care integrează big data, inteligența artificială și guvernanța într-o singură soluție. Modulele Rocket și Intelligence permit explorarea rapidă a datelor, transformarea și analize avansate în mediul enterprise.
Această formare condușă de instrucțoare (online sau pe locație) este destinată profesionalilor intermediari care doresc să utilizeze eficient modulele Rocket și Intelligence din Stratio cu PySpark, concentrându-se pe structuri de buclă, funcții definite de utilizator și logică de date avansată.
La finalul acestei forme de instruire, participanții vor putea:
- Navigați și lucrați în platforma Stratio folosind modulele Rocket și Intelligence.
- Aplicați PySpark în contextul ingestionării, transformării și analizei datelor.
- Utilizați bucle și logica condițională pentru a controla fluxurile de date și sarcinile de inginerie a caracteristicilor.
- Creați și gestionați funcții definite de utilizator (UDFs) pentru operațiuni reutilizabile cu date în PySpark.
Format al cursului
- Lectură interactivă și discuție.
- Multe exerciții și practică.
- Implementare directă într-un mediu de laborator live.
Opțiuni de personalizare a cursului
- Pentru a solicita o formare personalizată pentru acest curs, vă rugăm să ne contactați pentru a organiza.