Schița de curs

spark.mllib: tipuri de date, algoritmi și utilitare

    Tipuri de date Statistici de bază rezumat statistici corelații eșantionare stratificată testarea ipotezei streaming testare semnificație generare aleatorie de date
Modele liniare de clasificare și regresie (SVM, regresie logistică, regresie liniară)
  • Bayes naiv
  • arbori de decizie
  • ansambluri de copaci (Random Forests și arbori cu gradient)
  • regresie izotonică
  • Filtrare colaborativă cu cele mai mici pătrate alternative (ALS)
  • Clustering k-means
  • amestec gaussian
  • clustering cu iterații de putere (PIC)
  • alocare latentă de dirichlet (LDA)
  • k-mijloace bisectând
  • streaming k-means
  • Reducerea dimensionalității descompunerea valorii singulare (SVD)
  • analiza componentelor principale (PCA)
  • Extragerea și transformarea caracteristicilor
  • Exploatare frecventă a modelului FP-creștere
  • regulile de asociere
  • PrefixSpan
  • Măsuri de evaluare
  • Exportul modelului PMML
  • Coborâre a gradientului stocastic de optimizare (dezvoltator).
  • BFGS cu memorie limitată (L-BFGS)
  • spark.ml: API-uri de nivel înalt pentru conducte ML
  • Prezentare generală: estimatori, transformatoare și conducte Extragerea, transformarea și selectarea caracteristicilor Clasificare și regresie Clustering Subiecte avansate

    Cerințe

    Cunoștințe despre unul dintre următoarele:

    • Java
    • Scala
    • Python
    • SparkR
      35 ore

    Mărturii (8)

    Cursuri înrudite

    Big Data Analytics in Health

      21 ore

    Categorii înrudite