Schița de curs
Introducere
Instalarea și Configurarea Dataiku Data Science Studio (DSS)
- Cerințe de sistem pentru Dataiku DSS
- Configurarea integrațiilor Apache Hadoop și Apache Spark
- Configurarea Dataiku DSS cu web proxy-uri
- Migrarea de pe alte platforme pe Dataiku DSS
Prezentare generală a caracteristicilor și arhitecturii Dataiku DSS
- Obiecte și grafice de bază fundamentale pentru Dataiku DSS
- Ce este o rețetă în Dataiku DSS?
- Tipuri de seturi de date suportate de Dataiku DSS
Crearea unui Proiect Dataiku DSS
Definirea Seturilor de Date pentru a se Conecta la Resurse de Date în Dataiku DSS
- Lucrul cu conectori și formate de fișiere DSS
- Formate DSS standard vs. formate specifice Hadoop
- Încărcarea fișierelor pentru un proiect Dataiku DSS
Prezentare generală a Sistemului de Fișiere al Serverului în Dataiku DSS
Crearea și Utilizarea Folderelor Gestionate
- Rețeta Dataiku DSS pentru folderul de fuziune
- Foldere gestionate locale vs. non-locale
Construirea unui Set de Date din Sistemul de Fișiere Utilizând Conținutul Folderelor Gestionate
- Efectuarea curățării cu o rețetă de cod DSS
Lucrul cu Setul de Date Metrics și Setul de Date Internal Stats
Implementarea Rețetei de Descărcare DSS pentru Setul de Date HTTP
Relocarea Seturilor de Date SQL și HDFS Utilizând DSS
Ordonarea Seturilor de Date în Dataiku DSS
- Ordonarea scriitorului vs. ordonarea la citire
Explorarea și Pregătirea Vizualizărilor de Date pentru un Proiect Dataiku DSS
Prezentare generală a Schemelor, Tipurilor de Stocare și Semnificațiilor din Dataiku
Efectuarea Scripturilor de Curățare, Normalizare și Îmbogățire a Datelor în Dataiku DSS
Lucrul cu Interfața de Grafice Dataiku DSS și Tipurile de Agregări Vizuale
Utilizarea Caracteristicii de Statistică Interactivă a DSS
- Analiza univariată vs. analiza bivariată
- Utilizarea instrumentului de Analiză a Componentelor Principale (PCA) DSS
Prezentare generală a Învățării Automate cu Dataiku DSS
- Învățare automată supervizată vs. nesupervizată
- Referințe pentru algoritmii de ML DSS și gestionarea caracteristicilor
- Învățare profundă cu Dataiku DSS
Prezentare generală a Fluxului Derivat din Seturile de Date și Rețetele DSS
Transformarea Seturilor de Date Existente în DSS cu Rețete Vizuale
Utilizarea Rețetelor DSS Bazate pe Cod Definit de Utilizator
Optimizarea Explorării și Experimentării Codului cu Caietele de Cod DSS
Scrierea de Vizualizări Avansate DSS și Funcționalități Frontend Personalizate cu Webapps
Lucrul cu Funcționalitatea de Rapoarte de Cod Dataiku DSS
Partajarea Elementelor de Proiect de Date și Familiarizarea cu Panoul de Control DSS
Proiectarea și Ambalarea unui Proiect Dataiku DSS ca Aplicație Reutilizabilă
Prezentare generală a Metodelor Avansate în Dataiku DSS
- Implementarea partiționării optimizate a seturilor de date folosind DSS
- Executarea părților specifice de procesare DSS prin calcule în containere Kubernetes
Prezentare generală a Colaborării și Controlului Versiunilor în Dataiku DSS
Implementarea Scenariilor de Automatizare, Metricilor și Verificărilor pentru Testarea Proiectelor DSS
Implementarea și Actualizarea unui Proiect cu Nodul de Automatizare DSS și Bundle-uri
Lucrul cu API-uri în Timp Real în Dataiku DSS
- API-uri suplimentare și API-uri Rest în DSS
Analiza și Prognozarea Seriilor de Timp Dataiku DSS
Securizarea unui Proiect în Dataiku DSS
- Gestionarea Permisiunilor Proiectului și a Autorizațiilor Panoului de Control
- Implementarea Opțiunilor Avansate de Securitate
Integrarea Dataiku DSS cu Cloud-ul
Depanare
Rezumat și Concluzii
Cerințe
- Experiență cu limbaje de programare Python, SQL și R
- Cunoștințe de bază despre procesarea datelor cu Apache Hadoop și Spark
- Înțelegere a conceptelor de învățare automată și modele de date
- Background în analize statistice și concepte de știința datelor
- Experiență în vizualizarea și comunicarea datelor
Publicul țintă
- Ingineri
- Oameni de știință de date
- Analiști de date