Intrati in legatura

Schița de curs

Fiecare sesiune durează 2 ore

Ziua 1: Sesiunea 1: Prezentare de Business a Motivului din Spatele Inteligenței de Business pe Bază de Big Data în Guvern

  • Studii de caz de la NIH, DoE
  • Rata de adaptare a Big Data în Agențiile Guvernamentale și cum își aliniază operațiunile viitoare în jurul Analizei Predictive pe Bază de Big Data
  • Zone de Aplicație pe Scară Largă în DoD, NSA, IRS, USDA etc.
  • Interfațarea Big Data cu Datele Legacy
  • Înțelegerea de bază a tehnologiilor care permit analiza predictivă
  • Integrarea Datelor și Vizualizarea pe Panoul de Bord
  • Managementul Fraudei
  • Generarea Regulilor de Afaceri/Detecția Fraudei
  • Detecția și Profilarea Amenințărilor
  • Analiza Cost-Beneficiu pentru Implementarea Big Data

Ziua 1: Sesiunea 2: Introducere în Big Data-1

  • Principalele caracteristici ale Big Data - volum, varietate, viteză și veracitate. Arhitectura MPP pentru volum.
  • Depozite de Date – schemă statică, set de date care evoluează încet
  • Baze de Date MPP precum Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Soluții Bazate pe Hadoop – fără condiții privind structura setului de date.
  • Model tipic: HDFS, MapReduce (procesare), preluare din HDFS
  • Lot – potrivit pentru analize/neinteractive
  • Volum: Date de streaming CEP
  • Alegere tipică – produse CEP (de ex. Infostreams, Apama, MarkLogic etc)
  • Mai puțin gata pentru producție – Storm/S4
  • Baze de Date NoSQL – (columne și cheie-valoare): Cel mai potrivit ca adjunct analitic la depozitul de date/bază de date

Ziua 1: Sesiunea 3: Introducere în Big Data-2

Soluții NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Hierarhic) - GT.m, Cache
  • KV Store (Ordonat) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Bază de Date Obiect - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Varietăți de Date: Introducere în Problemele de Curățare a Datelor în Big Data

  • RDBMS – structură/schemă statică, nu promovează un mediu agil, explorator.
  • NoSQL – semi-structurat, suficientă structură pentru a stoca date fără o schemă exactă înainte de stocare
  • Probleme de curățare a datelor

Ziua 1: Sesiunea 4: Introducere în Big Data-3: Hadoop

  • Când să alegi Hadoop?
  • STRUCTURAT - Depozitele de date/baze de date de întreprindere pot stoca date masive (la un cost) dar impun structură (nu sunt bune pentru explorare activă)
  • Date SEMI STRUCTURATE – greu de gestionat cu soluții tradiționale (DW/DB)
  • Depozitarea datelor = EFORT URIAS și statică chiar și după implementare
  • Pentru varietatea și volumul de date, procesate pe hardware de consum – HADOOP
  • Hardware de consum necesar pentru a crea un cluster Hadoop

Introducere în Map Reduce /HDFS

  • MapReduce – distribuirea calculului pe mai multe servere
  • HDFS – asigurarea disponibilității locale a datelor pentru procesul de calcul (cu redundanță)
  • Date – pot fi nestructurate/fără schemă (spre deosebire de RDBMS)
  • Responsabilitatea dezvoltatorului de a da sens datelor
  • Programarea MapReduce = lucrul cu Java (avantaje/dezavantaje), încărcarea manuală a datelor în HDFS

Ziua 2: Sesiunea 1: Ecosistemul Big Data - Construirea ETL pentru Big Data: universul instrumentelor Big Data - care să folosești și când?

  • Hadoop vs. Alte soluții NoSQL
  • Pentru acces interactiv, aleatoriu la date
  • Hbase (bază de date orientată pe coloane) pe Hadoop
  • Acces aleatoriu la date, dar cu restricții impuse (max 1 PB)
  • Nu este bun pentru analize ad-hoc, este bun pentru înregistrări, numărătoare, serii de timp
  • Sqoop - Import din baze de date în Hive sau HDFS (acces JDBC/ODBC)
  • Flume – Flux de date (de ex. date de log) în HDFS

Ziua 2: Sesiunea 2: Sistem de Management al Big Data

  • Piese în mișcare, noduri de calcul pornite/eșuate: ZooKeeper - Pentru configurare/coordonare/servicii de denumire
  • Conducte/fluxuri de lucru complexe: Oozie – gestionarea fluxurilor de lucru, dependențelor, lanțuri de margarete
  • Implementare, configurare, management de cluster, actualizare etc (administrator de sistem): Ambari
  • În Cloud: Whirr

Ziua 2: Sesiunea 3: Analiza Predictive în Inteligența de Business -1: Tehnici Fundamentale & BI bazat pe Învățare Automată:

  • Introducere în Învățarea Automată
  • Tehnici de clasificare
  • Predicție Bayesiană - pregătirea fișierului de antrenament
  • Mașini cu Vectori de Suport
  • KNN Algebra p-Arbore & minerit vertical
  • Rețele Neuronale
  • Problema Variabilelor Mari în Big Data - Pădure Aleatoare (RF)
  • Problema Automatizării Big Data – Ansamblu Multi-Model RF
  • Automatizare prin Soft10-M
  • Instrument de Analiză Textuală - Treeminer
  • Învățare Agilă
  • Învățare Bazată pe Agenți
  • Învățare Distribuită
  • Introducere în Instrumente Open Source pentru Analiza Predictivă: R, Rapidminer, Mahut

Ziua 2: Sesiunea 4 Ecosistemul de Analiză Predictive-2: Probleme Comune de Analiză Predictivă în Guvern

  • Analiză Insight
  • Analiză Vizuală
  • Analiză Predictivă Structurată
  • Analiză Predictivă Nestructurată
  • Profilarea Amenințărilor/Fraudăstar/Furnizori
  • Motor de Recomandare
  • Detecția Modelelor
  • Descoperirea Regulilor/Scenariilor – eșec, fraudă, optimizare
  • Descoperirea Cauzelor de Bază
  • Analiza Sentimentelor
  • Analiză CRM
  • Analiză de Rețea
  • Analiză Textuală
  • Revizuire Asistată Tehnologic
  • Analiză de Fraudă
  • Analiză în Timp Real

Ziua 3: Sesiunea 1: Analiză în Timp Real și Scalabilă peste Hadoop

  • De ce eșuează algoritmii comuni de analiză în Hadoop/HDFS
  • Apache Hama - pentru calcul distribuit sincron în masă
  • Apache SPARK - pentru calcul de cluster pentru analiză în timp real
  • CMU Graphics Lab2 - Abordare asincronă bazată pe grafice pentru calcul distribuit
  • Abordare bazată pe Algebra KNN p-Arbore de la Treeminer pentru costuri reduse de hardware

Ziua 3: Sesiunea 2: Instrumente pentru Descoperirea Electronică și Criminalistică

  • Descoperirea Electronică peste Big Data vs. Date Legacy – o comparație a costului și performanței
  • Codificare Predictivă și Revizuire Asistată Tehnologic (TAR)
  • Demonstrație live a unui produs TAR (vMiner) pentru a înțelege cum funcționează TAR pentru o descoperire mai rapidă
  • Indexare Rapidă prin HDFS – viteza datelor
  • Prelucrarea Limbajului Natural (NLP) – diverse tehnici și produse open source
  • Descoperirea Electronică în Limbi Străine - tehnologii pentru procesarea limbilor străine

Ziua 3: Sesiunea 3: Inteligența de Business pe Bază de Big Data pentru Securitate Cibernetică – Înțelegerea Vederii de 360 de Grade de la Colectarea Rapidă a Datelor la Identificarea Amenințărilor

  • Înțelegerea Bazelor Analizei de Securitate - suprafața de atac, configurarea greșită a securității, apărări de gazdă
  • Infrastructură de Rețea/ Conductă Mare de Date/ ETL de Răspuns pentru Analiză în Timp Real
  • Prescriptiv vs. Predictiv – Reguli Fixe vs. Descoperire Automată a Regulilor de Amenințare din Meta Date

Ziua 3: Sesiunea 4: Aplicații ale Big Data în USDA: Aplicații în Agricultură

  • Introducere în IoT (Internetul Obiectelor) pentru agricultură - Big Data bazat pe senzori și control
  • Introducere în Imaginea Satelitară și Aplicațiile sale în Agricultură
  • Integrarea Datelor de la Senzori și Imagine pentru Fertilitatea Solului, Recomandări de Cultivare și Prognoză
  • Asigurarea Agricolă și Big Data
  • Prognoza Pierderilor de Recoltă

Ziua 4: Sesiunea 1: Prevenirea Fraudei prin Inteligența de Business pe Bază de Big Data în Guvern - Analiză de Fraudă:

  • Clasificarea de Bază a Analizei de Fraudă - bazată pe reguli vs. analiză predictivă
  • Învățare Automată Supravegheată vs. Nesupravegheată pentru Detecția Modelelor de Fraudă
  • Fraudă de la Furnizori/ Suprataxare pentru Proiecte
  • Fraudă în Medicare și Medicaid - tehnici de detecție a fraudei pentru procesarea cererilor
  • Fraudă de Rambursare pentru Călătorii
  • Fraudă de Rambursare IRS
  • Studii de caz și demonstrații live vor fi prezentate acolo unde sunt disponibile date.

Ziua 4: Sesiunea 2: Analiză a Rețelelor Sociale - Colectarea și Analiza Informațiilor

  • API ETL Big Data pentru Extragerea Datelor din Rețelele Sociale
  • Text, imagine, meta date și videoclipuri
  • Analiză de Sentimente din Fluxurile de Rețele Sociale
  • Filtrarea Contextuală și Non-Contextuală a Fluxurilor de Rețele Sociale
  • Panou de Bord pentru Integrarea Diverselor Rețele Sociale
  • Profilarea Automată a Profilurilor de Rețele Sociale
  • Demonstrație live a fiecărei analize va fi prezentată prin Instrumentul Treeminer.

Ziua 4: Sesiunea 3: Analiză Big Data în Prelucrarea Imaginilor și Fluxurilor Video

  • Tehnici de Stocare a Imaginilor în Big Data - Soluții de Stocare pentru Date care Depășesc Petabyte
  • LTFS și LTO
  • GPFS-LTFS (Soluție de Stocare Stratificată pentru Date Mari de Imagine)
  • Bazele Analizei de Imagine
  • Recunoașterea Obiectelor
  • Segmentarea Imaginilor
  • Urmărirea Mișcării
  • Reconstrucția 3D a Imaginilor

Ziua 4: Sesiunea 4: Aplicații ale Big Data în NIH:

  • Zone Emergente de Bioinformatică
  • Meta-genomică și Probleme de Minerit Big Data
  • Analiză Predictivă Big Data pentru Farmacogenomică, Metabolomică și Proteomică
  • Big Data în Procesul Downstream de Genomică
  • Aplicații ale Analizei Predictive Big Data în Sănătatea Publică

Panou de Bord Big Data pentru Acces Rapid la Date Diverse și Afișare:

  • Integrarea Platformelor de Aplicații Existente cu Panoul de Bord Big Data
  • Managementul Big Data
  • Studiu de Caz al Panoului de Bord Big Data: Tableau și Pentaho
  • Utilizarea Aplicațiilor Big Data pentru Servicii Bazate pe Localizare în Guvern.
  • Sistem de Urmărire și Management

Ziua 5: Sesiunea 1: Cum să Justifici Implementarea Inteligenței de Business pe Bază de Big Data într-o Organizație:

  • Definirea ROI pentru Implementarea Big Data
  • Studii de Caz pentru Economisirea Timpului Analiștilor pentru Colectarea și Pregătirea Datelor – Creșterea Productivității
  • Studii de Caz pentru Câștiguri de Venit din Economisirea Costurilor Bazelor de Date Licențiate
  • Câștiguri de Venit din Servicii Bazate pe Localizare
  • Economii din Prevenirea Fraudei
  • O Abordare Integrată pe Foaie de Calcul pentru a Calcula Aproximativ Cheltuielile vs. Câștigurile/Economiile din Implementarea Big Data.

Ziua 5: Sesiunea 2: Procedura Pas cu Pas pentru Înlocuirea Sistemului de Date Legacy cu un Sistem Big Data:

  • Înțelegerea Practică a Planului de Migrare Big Data
  • Ce Informații Sunt Necesare Înainte de a Arhitecta o Implementare Big Data
  • Care Sunt Diferitele Metode de Calcul a Volumului, Vitezei, Varietății și Veracității Datelor
  • Cum să Estimezi Creșterea Datelor
  • Studii de Caz

Ziua 5: Sesiunea 4: Revizuirea Furnizorilor de Big Data și a Produselor Lor. Sesiune de Întrebări și Răspunsuri:

  • Accenture
  • APTEAN (Fostul CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Fostul 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Parte din EMC)

Cerințe

  • Cunoștințe de bază despre operațiunile de afaceri și sistemele de date din domeniul guvernamental
  • Înțelegere de bază a SQL/Oracle sau a bazelor de date relaționale
  • Înțelegere de bază a statisticii (la nivel de foaie de calcul)
 35 Ore

Numărul de participanți


Pret per participant

Mărturii (1)

Cursuri viitoare

Categorii înrudite