Mulțumim pentru trimiterea solicitării! Un membru al echipei noastre vă va contacta în curând.
Mulțumim pentru trimiterea rezervării! Un membru al echipei noastre vă va contacta în curând.
Schița de curs
Fiecare sesiune durează 2 ore
Ziua 1: Sesiunea 1: Prezentare de Business a Motivului din Spatele Inteligenței de Business pe Bază de Big Data în Guvern
- Studii de caz de la NIH, DoE
- Rata de adaptare a Big Data în Agențiile Guvernamentale și cum își aliniază operațiunile viitoare în jurul Analizei Predictive pe Bază de Big Data
- Zone de Aplicație pe Scară Largă în DoD, NSA, IRS, USDA etc.
- Interfațarea Big Data cu Datele Legacy
- Înțelegerea de bază a tehnologiilor care permit analiza predictivă
- Integrarea Datelor și Vizualizarea pe Panoul de Bord
- Managementul Fraudei
- Generarea Regulilor de Afaceri/Detecția Fraudei
- Detecția și Profilarea Amenințărilor
- Analiza Cost-Beneficiu pentru Implementarea Big Data
Ziua 1: Sesiunea 2: Introducere în Big Data-1
- Principalele caracteristici ale Big Data - volum, varietate, viteză și veracitate. Arhitectura MPP pentru volum.
- Depozite de Date – schemă statică, set de date care evoluează încet
- Baze de Date MPP precum Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Soluții Bazate pe Hadoop – fără condiții privind structura setului de date.
- Model tipic: HDFS, MapReduce (procesare), preluare din HDFS
- Lot – potrivit pentru analize/neinteractive
- Volum: Date de streaming CEP
- Alegere tipică – produse CEP (de ex. Infostreams, Apama, MarkLogic etc)
- Mai puțin gata pentru producție – Storm/S4
- Baze de Date NoSQL – (columne și cheie-valoare): Cel mai potrivit ca adjunct analitic la depozitul de date/bază de date
Ziua 1: Sesiunea 3: Introducere în Big Data-2
Soluții NoSQL
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Hierarhic) - GT.m, Cache
- KV Store (Ordonat) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Bază de Date Obiect - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Varietăți de Date: Introducere în Problemele de Curățare a Datelor în Big Data
- RDBMS – structură/schemă statică, nu promovează un mediu agil, explorator.
- NoSQL – semi-structurat, suficientă structură pentru a stoca date fără o schemă exactă înainte de stocare
- Probleme de curățare a datelor
Ziua 1: Sesiunea 4: Introducere în Big Data-3: Hadoop
- Când să alegi Hadoop?
- STRUCTURAT - Depozitele de date/baze de date de întreprindere pot stoca date masive (la un cost) dar impun structură (nu sunt bune pentru explorare activă)
- Date SEMI STRUCTURATE – greu de gestionat cu soluții tradiționale (DW/DB)
- Depozitarea datelor = EFORT URIAS și statică chiar și după implementare
- Pentru varietatea și volumul de date, procesate pe hardware de consum – HADOOP
- Hardware de consum necesar pentru a crea un cluster Hadoop
Introducere în Map Reduce /HDFS
- MapReduce – distribuirea calculului pe mai multe servere
- HDFS – asigurarea disponibilității locale a datelor pentru procesul de calcul (cu redundanță)
- Date – pot fi nestructurate/fără schemă (spre deosebire de RDBMS)
- Responsabilitatea dezvoltatorului de a da sens datelor
- Programarea MapReduce = lucrul cu Java (avantaje/dezavantaje), încărcarea manuală a datelor în HDFS
Ziua 2: Sesiunea 1: Ecosistemul Big Data - Construirea ETL pentru Big Data: universul instrumentelor Big Data - care să folosești și când?
- Hadoop vs. Alte soluții NoSQL
- Pentru acces interactiv, aleatoriu la date
- Hbase (bază de date orientată pe coloane) pe Hadoop
- Acces aleatoriu la date, dar cu restricții impuse (max 1 PB)
- Nu este bun pentru analize ad-hoc, este bun pentru înregistrări, numărătoare, serii de timp
- Sqoop - Import din baze de date în Hive sau HDFS (acces JDBC/ODBC)
- Flume – Flux de date (de ex. date de log) în HDFS
Ziua 2: Sesiunea 2: Sistem de Management al Big Data
- Piese în mișcare, noduri de calcul pornite/eșuate: ZooKeeper - Pentru configurare/coordonare/servicii de denumire
- Conducte/fluxuri de lucru complexe: Oozie – gestionarea fluxurilor de lucru, dependențelor, lanțuri de margarete
- Implementare, configurare, management de cluster, actualizare etc (administrator de sistem): Ambari
- În Cloud: Whirr
Ziua 2: Sesiunea 3: Analiza Predictive în Inteligența de Business -1: Tehnici Fundamentale & BI bazat pe Învățare Automată:
- Introducere în Învățarea Automată
- Tehnici de clasificare
- Predicție Bayesiană - pregătirea fișierului de antrenament
- Mașini cu Vectori de Suport
- KNN Algebra p-Arbore & minerit vertical
- Rețele Neuronale
- Problema Variabilelor Mari în Big Data - Pădure Aleatoare (RF)
- Problema Automatizării Big Data – Ansamblu Multi-Model RF
- Automatizare prin Soft10-M
- Instrument de Analiză Textuală - Treeminer
- Învățare Agilă
- Învățare Bazată pe Agenți
- Învățare Distribuită
- Introducere în Instrumente Open Source pentru Analiza Predictivă: R, Rapidminer, Mahut
Ziua 2: Sesiunea 4 Ecosistemul de Analiză Predictive-2: Probleme Comune de Analiză Predictivă în Guvern
- Analiză Insight
- Analiză Vizuală
- Analiză Predictivă Structurată
- Analiză Predictivă Nestructurată
- Profilarea Amenințărilor/Fraudăstar/Furnizori
- Motor de Recomandare
- Detecția Modelelor
- Descoperirea Regulilor/Scenariilor – eșec, fraudă, optimizare
- Descoperirea Cauzelor de Bază
- Analiza Sentimentelor
- Analiză CRM
- Analiză de Rețea
- Analiză Textuală
- Revizuire Asistată Tehnologic
- Analiză de Fraudă
- Analiză în Timp Real
Ziua 3: Sesiunea 1: Analiză în Timp Real și Scalabilă peste Hadoop
- De ce eșuează algoritmii comuni de analiză în Hadoop/HDFS
- Apache Hama - pentru calcul distribuit sincron în masă
- Apache SPARK - pentru calcul de cluster pentru analiză în timp real
- CMU Graphics Lab2 - Abordare asincronă bazată pe grafice pentru calcul distribuit
- Abordare bazată pe Algebra KNN p-Arbore de la Treeminer pentru costuri reduse de hardware
Ziua 3: Sesiunea 2: Instrumente pentru Descoperirea Electronică și Criminalistică
- Descoperirea Electronică peste Big Data vs. Date Legacy – o comparație a costului și performanței
- Codificare Predictivă și Revizuire Asistată Tehnologic (TAR)
- Demonstrație live a unui produs TAR (vMiner) pentru a înțelege cum funcționează TAR pentru o descoperire mai rapidă
- Indexare Rapidă prin HDFS – viteza datelor
- Prelucrarea Limbajului Natural (NLP) – diverse tehnici și produse open source
- Descoperirea Electronică în Limbi Străine - tehnologii pentru procesarea limbilor străine
Ziua 3: Sesiunea 3: Inteligența de Business pe Bază de Big Data pentru Securitate Cibernetică – Înțelegerea Vederii de 360 de Grade de la Colectarea Rapidă a Datelor la Identificarea Amenințărilor
- Înțelegerea Bazelor Analizei de Securitate - suprafața de atac, configurarea greșită a securității, apărări de gazdă
- Infrastructură de Rețea/ Conductă Mare de Date/ ETL de Răspuns pentru Analiză în Timp Real
- Prescriptiv vs. Predictiv – Reguli Fixe vs. Descoperire Automată a Regulilor de Amenințare din Meta Date
Ziua 3: Sesiunea 4: Aplicații ale Big Data în USDA: Aplicații în Agricultură
- Introducere în IoT (Internetul Obiectelor) pentru agricultură - Big Data bazat pe senzori și control
- Introducere în Imaginea Satelitară și Aplicațiile sale în Agricultură
- Integrarea Datelor de la Senzori și Imagine pentru Fertilitatea Solului, Recomandări de Cultivare și Prognoză
- Asigurarea Agricolă și Big Data
- Prognoza Pierderilor de Recoltă
Ziua 4: Sesiunea 1: Prevenirea Fraudei prin Inteligența de Business pe Bază de Big Data în Guvern - Analiză de Fraudă:
- Clasificarea de Bază a Analizei de Fraudă - bazată pe reguli vs. analiză predictivă
- Învățare Automată Supravegheată vs. Nesupravegheată pentru Detecția Modelelor de Fraudă
- Fraudă de la Furnizori/ Suprataxare pentru Proiecte
- Fraudă în Medicare și Medicaid - tehnici de detecție a fraudei pentru procesarea cererilor
- Fraudă de Rambursare pentru Călătorii
- Fraudă de Rambursare IRS
- Studii de caz și demonstrații live vor fi prezentate acolo unde sunt disponibile date.
Ziua 4: Sesiunea 2: Analiză a Rețelelor Sociale - Colectarea și Analiza Informațiilor
- API ETL Big Data pentru Extragerea Datelor din Rețelele Sociale
- Text, imagine, meta date și videoclipuri
- Analiză de Sentimente din Fluxurile de Rețele Sociale
- Filtrarea Contextuală și Non-Contextuală a Fluxurilor de Rețele Sociale
- Panou de Bord pentru Integrarea Diverselor Rețele Sociale
- Profilarea Automată a Profilurilor de Rețele Sociale
- Demonstrație live a fiecărei analize va fi prezentată prin Instrumentul Treeminer.
Ziua 4: Sesiunea 3: Analiză Big Data în Prelucrarea Imaginilor și Fluxurilor Video
- Tehnici de Stocare a Imaginilor în Big Data - Soluții de Stocare pentru Date care Depășesc Petabyte
- LTFS și LTO
- GPFS-LTFS (Soluție de Stocare Stratificată pentru Date Mari de Imagine)
- Bazele Analizei de Imagine
- Recunoașterea Obiectelor
- Segmentarea Imaginilor
- Urmărirea Mișcării
- Reconstrucția 3D a Imaginilor
Ziua 4: Sesiunea 4: Aplicații ale Big Data în NIH:
- Zone Emergente de Bioinformatică
- Meta-genomică și Probleme de Minerit Big Data
- Analiză Predictivă Big Data pentru Farmacogenomică, Metabolomică și Proteomică
- Big Data în Procesul Downstream de Genomică
- Aplicații ale Analizei Predictive Big Data în Sănătatea Publică
Panou de Bord Big Data pentru Acces Rapid la Date Diverse și Afișare:
- Integrarea Platformelor de Aplicații Existente cu Panoul de Bord Big Data
- Managementul Big Data
- Studiu de Caz al Panoului de Bord Big Data: Tableau și Pentaho
- Utilizarea Aplicațiilor Big Data pentru Servicii Bazate pe Localizare în Guvern.
- Sistem de Urmărire și Management
Ziua 5: Sesiunea 1: Cum să Justifici Implementarea Inteligenței de Business pe Bază de Big Data într-o Organizație:
- Definirea ROI pentru Implementarea Big Data
- Studii de Caz pentru Economisirea Timpului Analiștilor pentru Colectarea și Pregătirea Datelor – Creșterea Productivității
- Studii de Caz pentru Câștiguri de Venit din Economisirea Costurilor Bazelor de Date Licențiate
- Câștiguri de Venit din Servicii Bazate pe Localizare
- Economii din Prevenirea Fraudei
- O Abordare Integrată pe Foaie de Calcul pentru a Calcula Aproximativ Cheltuielile vs. Câștigurile/Economiile din Implementarea Big Data.
Ziua 5: Sesiunea 2: Procedura Pas cu Pas pentru Înlocuirea Sistemului de Date Legacy cu un Sistem Big Data:
- Înțelegerea Practică a Planului de Migrare Big Data
- Ce Informații Sunt Necesare Înainte de a Arhitecta o Implementare Big Data
- Care Sunt Diferitele Metode de Calcul a Volumului, Vitezei, Varietății și Veracității Datelor
- Cum să Estimezi Creșterea Datelor
- Studii de Caz
Ziua 5: Sesiunea 4: Revizuirea Furnizorilor de Big Data și a Produselor Lor. Sesiune de Întrebări și Răspunsuri:
- Accenture
- APTEAN (Fostul CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Fostul 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Parte din EMC)
Cerințe
- Cunoștințe de bază despre operațiunile de afaceri și sistemele de date din domeniul guvernamental
- Înțelegere de bază a SQL/Oracle sau a bazelor de date relaționale
- Înțelegere de bază a statisticii (la nivel de foaie de calcul)
35 Ore
Mărturii (1)
Abilitatea formatorului de a alinia cursul cu cerințele organizației, mai presus de a-l oferi doar pentru a îl prelua.
Masilonyane - Revenue Services Lesotho
Curs - Big Data Business Intelligence for Govt. Agencies
Tradus de catre o masina