Schița de curs

Introducere în Data Analysis și Big Data

    Ce face ca Big Data să fie „mare”? Viteză, volum, varietate, veracitate (VVVV)
Limitele procesării tradiționale a datelor
  • Procesare distribuită
  • Analize statistice
  • Tipuri de Machine Learning Analize
  • Data Visualization
  • Big Data Roluri și responsabilități
  • Administratori Dezvoltatori Analiști de date

      Languages Folosit pentru analiza datelor

    R Language De ce R pentru analiza datelor? Manipularea datelor, calcul și afișare grafică

      Python De ce Python pentru analiza datelor?
    Manipularea, procesarea, curățarea și analizarea datelor
  • Abordări către Data Analysis
  • Analiză statistică Analiză serii temporale Prognozare cu modele de corelație și regresie Inferențială Statistics (estimare) Descriptivă Statistics în seturi de date mari (de ex. calcularea mediei)
  • Machine Learning Învățare supravegheată versus nesupravegheată

      Clasificare și grupare
    Estimarea costului unor metode specifice
  • Filtrare
  • Procesarea limbajului natural Procesarea textului
  • Înțelegerea sensului textului
  • Generare automată de text
  • Analiza sentimentelor / analiza subiectului
  • Computer Vision Dobândirea, procesarea, analizarea și înțelegerea imaginilor
  • Reconstruirea, interpretarea și înțelegerea scenelor 3D
  • Utilizarea datelor de imagine pentru a lua decizii
  • Big Data Infrastructură
  • Stocarea datelor Baze de date relaționale (SQL) MySQL Postgres Oracle
  • Baze de date non-relaționale (NrSQL) Cassandra
  • MongoDB
  • Neo4js
  • Înțelegerea nuanțelor Baze de date ierarhice

      Baze de date orientate pe obiecte
    Baze de date orientate pe documente
  • Baze de date orientate pe grafice
  • Alte
  • Procesare distribuită Hadoop HDFS ca sistem de fișiere distribuit
  • MapReduce pentru procesare distribuită
  • Cadru de calcul cluster Spark All-in-one în memorie pentru procesarea datelor la scară largă
  • Streaming structurat
  • Spark SQL
  • Machine Learning biblioteci: MLlib
  • Procesarea graficelor cu GraphX
  • Scalaabilitate Public cloud AWS, Google, Aliyun etc.Cloud privat OpenStack, Cloud Foundry etc.
  • Auto-scalabilitate
  • Alegerea soluției potrivite pentru problemă
  • Viitorul lui Big Data
  • Rezumat și Concluzie
  • Cerințe

    • O înțelegere generală a matematicii.
    • O înțelegere generală a programării.
    • O înțelegere generală a bazelor de date.

    Audiență

    • Dezvoltatori / programatori
    • Consultanți IT
      35 ore

    Mărturii (2)

    Cursuri înrudite

    QGIS for Geographic Information System

      21 ore

    Categorii înrudite