Schița de curs
Introducere în Învățarea Automată
- Tipuri de învățare automată – supervizată vs nesupervizată
- De la învățarea statistică la învățarea automată
- Fluxul de lucru în data mining: înțelegerea afacerii, pregătirea datelor, modelarea, implementarea
- Alegerea algoritmului potrivit pentru sarcină
- Supraadaptarea și compromisul bias-varianță
Prezentare generală a Python și a bibliotecilor pentru Învățare Automată
- De ce să folosim limbaje de programare pentru învățarea automată
- Alegerea între R și Python
- Curs rapid de Python și Jupyter Notebooks
- Biblioteci Python: pandas, NumPy, scikit-learn, matplotlib, seaborn
Testarea și evaluarea algoritmilor de Învățare Automată
- Generalizare, supraadaptare și validare a modelului
- Strategii de evaluare: holdout, cross-validation, bootstrapping
- Metrici pentru regresie: ME, MSE, RMSE, MAPE
- Metrici pentru clasificare: acuratețe, matrice de confuzie, clase dezechilibrate
- Vizualizarea performanței modelului: curba profitului, curba ROC, curba lift
- Selectarea modelului și căutarea în grilă pentru ajustare
Pregătirea datelor
- Importul și stocarea datelor în Python
- Analiza exploratorie și statistici sumare
- Gestionarea valorilor lipsă și a valorilor aberante
- Standardizare, normalizare și transformare
- Recodificarea datelor calitative și manipularea datelor cu pandas
Algoritmi de clasificare
- Clasificare binară vs multiclasă
- Regresie logistică și funcții discriminant
- Naive Bayes, k-cei mai apropiați vecini
- Arbori de decizie: CART, Păduri aleatoare, Bagging, Boosting, XGBoost
- Mașini cu vectori de suport și nuclee
- Tehnici de învățare ensemble
Regresie și predicție numerică
- Metoda celor mai mici pătrate și selecția variabilelor
- Metode de regularizare: L1, L2
- Regresie polinomială și modele neliniare
- Arbori de regresie și spline
Rețele neuronale
- Introducere în rețele neuronale și învățare profundă
- Funcții de activare, straturi și backpropagation
- Multilayer perceptrons (MLP)
- Utilizarea TensorFlow sau PyTorch pentru modelarea de bază a rețelelor neuronale
- Rețele neuronale pentru clasificare și regresie
Prognozarea vânzărilor și analiza predictivă
- Prognozarea bazată pe serii temporale vs regresie
- Gestionarea datelor sezoniere și bazate pe trend
- Construirea unui model de prognozare a vânzărilor folosind tehnici de învățare automată
- Evaluarea acurateței și incertitudinii prognozei
- Interpretarea și comunicarea rezultatelor în context de business
Învățare nesupervizată
- Tehnici de clustering: k-means, k-medoids, clustering ierarhic, SOMs
- Reducerea dimensionalității: PCA, analiza factorială, SVD
- Scalare multidimensională
Minerit de text
- Preprocesarea textului și tokenizarea
- Bag-of-words, stemming și lematizare
- Analiza sentimentelor și frecvența cuvintelor
- Vizualizarea datelor text cu nori de cuvinte
Sisteme de recomandare
- Filtrul colaborativ bazat pe utilizator și pe elemente
- Proiectarea și evaluarea motoarelor de recomandare
Mineritul modelului de asociere
- Seturi frecvente și algoritmul Apriori
- Analiza coșului de cumpărături și raportul de lift
Detecția valorilor aberante
- Analiza valorilor extreme
- Metode bazate pe distanță și densitate
- Detecția valorilor aberante în date de dimensiuni mari
Studiu de caz în Învățarea Automată
- Înțelegerea problemei de business
- Pregătirea datelor și inginerie de caracteristici
- Selectarea modelului și ajustarea parametrilor
- Evaluarea și prezentarea rezultatelor
- Implementarea
Rezumat și pași următori
Cerințe
- Cunoștințe de bază despre concepte de învățare automată, cum ar fi învățarea supervizată și nesupervizată
- Familiaritate cu programarea în Python (variabile, bucle, funcții)
- O anumită experiență în manipularea datelor folosind biblioteci precum pandas sau NumPy este utilă, dar nu este obligatorie
- Nu este necesară experiență anterioară cu modelarea avansată sau rețele neuronale
Public țintă
- Oameni de știință de date
- Analiști de business
- Ingineri software și profesioniști tehnici care lucrează cu date
Mărturii (2)
ecosistemul ML nu include doar MLFlow, ci și Optuna, hyperops, Docker și Docker-Compose
Guillaume GAUTIER - OLEA MEDICAL
Curs - MLflow
Tradus de catre o masina
M-a plăcut să particip la instruirea Kubeflow, care a avut loc la distanță. Această instruire mi-a permis să consolidez cunoștințele despre serviciile AWS, K8s și toate instrumentele devOps în jurul Kubeflow, care reprezintă bazele necesare pentru a aborda subiectul cu succes. Vreau să-i mulțumesc lui Malawski Marcin pentru răbdarea sa și profesionalismul demonstrat în instruire și sfaturi privind cele mai bune practici. Malawski abordează subiectul din diferite unghiuri, folosind diferite instrumente de implementare precum Ansible, EKS kubectl, Terraform. Acum sunt cu adevărat convins că intru în domeniul de aplicație potrivit.
Guillaume Gautier - OLEA MEDICAL | Improved diagnosis for life TM
Curs - Kubeflow
Tradus de catre o masina