Schița de curs
Introducere
Instalarea și configurarea Dataiku Data Science Studio (DSS)
- Cerințele de sistem pentru Dataiku DSS
- Configurarea integralelor Apache Hadoop și Apache Spark
- Configurarea Dataiku DSS cu proxy-uri web
- Migrarea de la alte platforme către Dataiku DSS
Prezentare a funcțiilor și arhitecturii Dataiku DSS
- Obiectele principale și graficele fundamentale pentru Dataiku DSS
- Ce este un rețetă în Dataiku DSS?
- Tipurile de seturi de date suportate de Dataiku DSS
Crearea unui proiect Dataiku DSS
Definirea seturilor de date pentru a se conecta la resursele de date în Dataiku DSS
- Lucrul cu conectori DSS și formate de fișiere
- Formate standard DSS vs. formate specifice Hadoop
- Încărcarea fișierelor pentru un proiect Dataiku DSS
Prezentare a sistemului de fișiere server în Dataiku DSS
Crearea și utilizarea folderelor gestionate
- Rețeta Dataiku DSS pentru combinarea folderelor
- Folderul gestionat local vs. non-local
Construirea unui set de date de sistem de fișiere folosind conținutul folderului gestionat
- Efectuarea curățărilor cu ajutorul unei rețete DSS codificată
Lucrul cu setul de date metric și setul de date statistic intern
Implementarea rețetei DSS pentru descărcare HTTP a setului de date
Relocarea seturilor de date SQL și HDFS folosind DSS
Ordonarea seturilor de date în Dataiku DSS
- Ordonarea la scriere vs. ordonarea la citire
Explorarea și pregătirea vizualizărilor de date pentru un proiect Dataiku DSS
Prezentare a schemelor, tipurilor de stocare și semnificațiilor din Dataiku DSS
Efectuarea scripturilor de curățare, normalizare și înbogățire a datelor în Dataiku DSS
Lucrul cu interfața de grafice ale Dataiku DSS și tipurile de agregări vizuale
Utilizarea funcției de statistică interactivă a DSS
- Analiza univariată vs. analiza bivariată
- Utilizarea instrumentului Principal Component Analysis (PCA) DSS
Prezentare a învățării automatice cu Dataiku DSS
- Învățarea supravegheată vs. invățarea ne-supravegheată ML
- Referințe pentru algoritmi și funcții de gestionare DSS ML
- Învățarea profunză cu Dataiku DSS
Prezentare a fluxului derivat din seturi de date și rețete DSS
Transformarea seturilor de date existente în DSS folosind rețete vizuale
Utilizarea rețetelor DSS bazate pe cod definit de utilizator
Optimizarea explorării și experimentării codului cu cadernele de cod DSS
Scrierea vizualizărilor avansate și a caracteristicilor de frontend personalizate folosind webapp-uri în DSS
Lucrul cu funcția de rapoarte de cod Dataiku DSS
Compartimentarea elementelor proiectului datelor și familiarizarea cu tabloul de bord DSS
Proiectarea și ambalarea unui proiect Dataiku DSS ca o aplicație reutilizabilă
Prezentare a metodelor avansate în Dataiku DSS
- Implementarea partijonării optimizate a seturilor de date folosind DSS
- Executarea unor părți specifice de procesare DSS prin calcule în containerele Kubernetes
Prezentare a colaborării și controlului versiunilor în Dataiku DSS
Implementarea scenariilor automate, metricilor și verificărilor pentru testarea proiectelor DSS
Distribuirea și actualizarea unui proiect cu nodul de automatizare DSS și pachetele DSS
Lucrul cu API-urile în timp real în Dataiku DSS
- API-uri suplimentare și REST API-uri în DSS
Analizarea și previziunea seriei temporale Dataiku DSS
Securizarea unui proiect în Dataiku DSS
- Gestionarea permisiunilor de proiect și autorizațiilor tabloului de bord
- Implementarea opțiunilor avansate de securitate
Integrarea Dataiku DSS cu cloud-ul
Rezolvarea problemelor tecnice
Rezumat și concluzie
Cerințe
- Experiență cu limbajele de programare Python, SQL și R
- Cunoștințe de bază în prelucrarea datelor cu Apache Hadoop și Spark
- Comprezuirea conceptelor de învățare automată și a modelelor de date
- Experiență în analiza statistică și în conceptele științei datelor
- Experiență în vizualizarea și comunicarea datelor
Au un interes special
- Ingineri
- Științii datelor
- Analistii de date