Schița de curs

Introducere

Această secțiune oferă o introducere generală cu privire la situațiile în care se utilizează 'machine learning', ce ar trebui luat în considerare și ce înseamnă toate acestea, inclusiv avantajele și dezavantajele. Tipuri de date (structurate/ne-structurate/statice/în flux), validitatea/volum de date, analiza bazată pe date vs. analiza bazată pe utilizator, modele statistice vs. modele de învățare automată/ provocările învățării nesupravegheate, compromisul părtinire-varianță, iterație/evaluare, abordări de validare încrucișată, supervizată/ne-supravegheată/reforțare.

TEMATICI MAJORE.

1. Înțelegerea lui Bayes naiv

  • Concepte de bază ale metodelor bayesiene
  • Probabilitate
  • Probabilitate comună
  • Probabilitatea condiționată cu teorema lui Bayes'.
  • Algoritmul Bayes naiv
  • Clasificarea naivă Bayes
  • Estimatorul Laplace
  • Utilizarea caracteristicilor numerice cu Bayes naiv

2. Înțelegerea arborilor de decizie

  • Divide și cucerește
  • Algoritmul arborelui de decizie C5.0
  • Alegerea celei mai bune diviziuni
  • Tăierea arborelui de decizie

3. Înțelegerea rețelelor neuronale

  • De la neuronii biologici la cei artificiali
  • Funcții de activare
  • Topologia rețelei
  • Numărul de straturi
  • Direcția de deplasare a informațiilor
  • numărul de noduri din fiecare strat
  • Antrenarea rețelelor neuronale cu backpropagation
  • Deep Learning

4. Înțelegerea mașinilor vectoriale de suport

  • Clasificarea cu hiperplane
  • Găsirea marjei maxime
  • Cazul datelor liniar separabile
  • Cazul datelor separabile neliniar
  • Utilizarea nucleelor pentru spații neliniare

5. Înțelegerea grupării

  • Clusterizarea ca sarcină de învățare automată
  • Algoritmul k-means pentru clusterizare
  • Utilizarea distanței pentru a atribui și actualiza clusterele
  • Alegerea numărului adecvat de clustere

6. Măsurarea performanței pentru clasificare

  • Lucrul cu datele de predicție a clasificării
  • O privire mai atentă la matricile de confuzie
  • Utilizarea matricelor de confuzie pentru a măsura performanța
  • Dincolo de acuratețe – alte măsuri de performanță
  • Statistica kappa
  • Sensibilitatea și specificitatea
  • Precizia și reamintirea
  • Măsura F
  • Vizualizarea compromisurilor de performanță
  • Curbele ROC
  • Estimarea performanțelor viitoare
  • Metoda holdout
  • Validarea încrucișată
  • Bootstrap eșantionare

7. Reglarea modelelor de stoc pentru o performanță mai bună

  • Folosirea caretului pentru reglarea automată a parametrilor
  • Crearea unui model simplu reglat
  • Personalizarea procesului de reglare
  • Îmbunătățirea performanțelor modelului cu ajutorul meta-învățării
  • Înțelegerea ansamblurilor
  • Bagging
  • Stimularea
  • Păduri aleatorii
  • Formarea pădurilor aleatorii
  • Evaluarea performanței pădurilor aleatoare

TEME MINORE

8. Înțelegerea clasificării cu ajutorul celor mai apropiați vecini

  • Algoritmul kNN
  • Calcularea distanței
  • Alegerea unui k adecvat
  • Pregătirea datelor pentru utilizarea cu kNN
  • De ce este leneș algoritmul kNN?

9. Înțelegerea regulilor de clasificare

  • Separați și cuceriți
  • Algoritmul Regula unică
  • Algoritmul RIPPER
  • Reguli din arbori de decizie

10. Înțelegerea regresiei

  • Regresie liniară simplă
  • Estimare prin metoda celor mai mici pătrate ordinare
  • Corelații
  • Regresie liniară multiplă

11. Înțelegerea arborilor de regresie și a arborilor model

  • Adăugarea regresiei la arbori

12. Înțelegerea regulilor de asociere

  • Algoritmul Apriori pentru învățarea regulilor de asociere
  • Măsurarea interesului pentru reguli – suport și încredere
  • Construirea unui set de reguli cu ajutorul principiului Apriori

Extras

  • Spark/PySpark/MLlib și Bandiții cu mai multe brațe
 21 ore

Mărturii (5)

Cursuri înrudite

Categorii înrudite