Schița de curs
Introducere
Instalarea și Configurarea Dataiku Data Science Studio (DSS)
- Cerințe de sistem pentru Dataiku DSS
- Configurarea integraților Apache Hadoop și Apache Spark
- Configurarea Dataiku DSS cu proxy-uri web
- Migrarea de pe alte platforme pe Dataiku DSS
Prezentare generală a caracteristicilor și arhitecturii Dataiku DSS
- Obiecte și grafice de bază fundamentale pentru Dataiku DSS
- Ce este o rețetă în Dataiku DSS?
- Tipuri de seturi de date suportate de Dataiku DSS
Crearea unui Proiect Dataiku DSS
Definirea Seturilor de Date pentru a se Conecta la Resurse de Date în Dataiku DSS
- Lucrul cu conectori DSS și formate de fișiere
- Formate standard DSS vs. formate specifice Hadoop
- Încărcarea Fișierelor pentru un Proiect Dataiku DSS
Prezentare generală a Sistemului de Fișiere al Serverului în Dataiku DSS
Crearea și Utilizarea Folderelor Gestionate
- Rețeta DSS pentru folderul de îmbinare
- Foldere gestionate locale vs. non-locale
Construirea unui Set de Date din Sistemul de Fișiere Utilizând Conținutul Folderelor Gestionate
- Efectuarea curățării cu o rețetă de cod DSS
Lucrul cu Setul de Date Metrics și Setul de Date Internal Stats
Implementarea Rețetei de Descărcare DSS pentru Setul de Date HTTP
Relocarea Seturilor de Date SQL și HDFS Utilizând DSS
Ordonarea Seturilor de Date în Dataiku DSS
- Ordonare la scriere vs. ordonare la citire
Explorarea și Pregătirea Vizualizărilor de Date pentru un Proiect Dataiku DSS
Prezentare generală a Schemelor, Tipurilor de Stocare și Semnificațiilor din Dataiku
Efectuarea Scripturilor de Curățare, Normalizare și Îmbogățire a Datelor în Dataiku DSS
Lucrul cu Interfața de Grafice și Tipurile de Agregări Vizuale din Dataiku DSS
Utilizarea Funcției Interactive de Statistică a DSS
- Analiză univariată vs. analiză bivariată
- Utilizarea instrumentului DSS de Analiză a Componentelor Principale (PCA)
Prezentare generală a Învățării Automate cu Dataiku DSS
- Învățare supervizată vs. nesupravegheată
- Referințe pentru Algoritmii de ML din DSS și gestionarea caracteristicilor
- Învățare profundă cu Dataiku DSS
Prezentare generală a Fluxului Derivat din Seturile de Date și Rețetele DSS
Transformarea Seturilor de Date Existente în DSS cu Rețete Vizuale
Utilizarea Rețetelor DSS Bazate pe Cod Definit de Utilizator
Optimizarea Explorării și Experimentării Codului cu Notebook-uri DSS
Scrierea de Vizualizări Avansate DSS și Funcții Personalizate de Frontend cu Webapps
Lucrul cu Funcția de Rapoarte de Cod din Dataiku DSS
Partajarea Elementelor de Proiect de Date și Familiarizarea cu Panoul de Bord DSS
Proiectarea și Împachetarea unui Proiect Dataiku DSS ca Aplicație Reutilizabilă
Prezentare generală a Metodelor Avansate în Dataiku DSS
- Implementarea partiționării optimizate a seturilor de date utilizând DSS
- Executarea unor părți specifice de procesare DSS prin calcule în containere Kubernetes
Prezentare generală a Colaborării și Controlului Versiunilor în Dataiku DSS
Implementarea Scenariilor de Automatizare, Metricilor și Verificărilor pentru Testarea Proiectelor DSS
Implementarea și Actualizarea unui Proiect cu Nodul de Automatizare și Pachetele DSS
Lucrul cu API-uri în Timp Real în Dataiku DSS
- API-uri suplimentare și API-uri Rest în DSS
Analiza și Prognozarea Seriilor de Timp din Dataiku DSS
Securizarea unui Proiect în Dataiku DSS
- Gestionarea Permisiunilor de Proiect și a Autorizărilor Panoului de Bord
- Implementarea Opțiunilor Avansate de Securitate
Integrarea Dataiku DSS cu Cloud-ul
Depanare
Rezumat și Concluzii
Cerințe
- Experiență cu limbaje de programare Python, SQL și R
- Cunoștințe de bază despre procesarea datelor cu Apache Hadoop și Spark
- Înțelegerea conceptelor de învățare automată și modele de date
- Background în analize statistice și concepte de știința datelor
- Experiență în vizualizarea și comunicarea datelor
Publicul Țintă
- Ingineri
- Oameni de știință de date
- Analiști de date