Schița de curs

Ziua 01

Prezentare generală a Inteligenței Business pentru Big Data în Analiza Criminalistică

  • Studii de caz din aplicarea legii - Poliția predictivă
  • Rata de adoptare a Big Data în agențiile de aplicare a legii și cum își aliniază operațiunile viitoare în jurul analizei predictive Big Data
  • Soluții tehnologice emergente, cum ar fi senzorii de împușcături, videouri de supraveghere și social media
  • Utilizarea tehnologiei Big Data pentru a atenua supraîncărcarea informațională
  • Interfațarea Big Data cu datele Legacy
  • Înțelegere de bază a tehnologiilor care permit analiza predictivă
  • Integrarea datelor și vizualizarea pe tablou de bord
  • Gestionarea fraudelor
  • Reguli de afaceri și detectarea fraudelor
  • Detectarea și profilarea amenințărilor
  • Analiza cost-beneficiu pentru implementarea Big Data

Introducere în Big Data

  • Principalele caracteristici ale Big Data -- Volum, Varietate, Viteză și Veracitate.
  • Arhitectura MPP (Procesare Paralelă Masivă)
  • Depozite de date – schemă statică, set de date care evoluează lent
  • Baze de date MPP: Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Soluții bazate pe Hadoop – fără condiții asupra structurii setului de date.
  • Model tipic: HDFS, MapReduce (crunch), preluare din HDFS
  • Apache Spark pentru procesarea fluxurilor
  • Lot – potrivit pentru analize/non-interactive
  • Volum: Date de flux CEP
  • Alegerea tipică – produse CEP (de ex. Infostreams, Apama, MarkLogic etc)
  • Mai puțin pregătite pentru producție – Storm/S4
  • Baze de date NoSQL – (columnar și key-value): Cele mai potrivite ca adjunct analitic la depozitul de date/baza de date

Soluții NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Ierarhic) - GT.m, Cache
  • KV Store (Ordonat) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Bază de date orientată pe obiecte - ZopeDB, DB40, Shoal
  • Depozit de documente - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Depozit Wide Columnar - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Varietăți de date: Introducere în problemele de curățare a datelor în Big Data

  • RDBMS – structură/schemă statică, nu promovează un mediu agil, explorator.
  • NoSQL – semi-structurat, suficientă structură pentru a stoca date fără o schemă exactă înainte de stocare
  • Probleme de curățare a datelor

Hadoop

  • Când să alegi Hadoop?
  • STRUCTURAT – Depozitele de date/bazele de date ale întreprinderilor pot stoca date masive (la un cost), dar impun o structură (nu este bună pentru explorarea activă)
  • Date SEMI STRUCTURATE – dificil de realizat folosind soluții tradiționale (DW/DB)
  • Depozitarea datelor = EFORT URIAS și static chiar și după implementare
  • Pentru varietatea și volumul de date, procesate pe hardware de consum – HADOOP
  • Hardware de consum necesar pentru a crea un cluster Hadoop

Introducere în Map Reduce /HDFS

  • MapReduce – distribuirea calculului pe mai multe servere
  • HDFS – face datele disponibile local pentru procesul de calcul (cu redundanță)
  • Date – pot fi nestructurate/fără schemă (spre deosebire de RDBMS)
  • Responsabilitatea dezvoltatorului de a da sens datelor
  • Programarea MapReduce = lucrul cu Java (avantaje/dezavantaje), încărcarea manuală a datelor în HDFS

Ziua 02

Ecosistemul Big Data -- Construirea ETL (Extract, Transform, Load) pentru Big Data -- Care instrumente Big Data să folosești și când?

  • Hadoop vs. Alte soluții NoSQL
  • Pentru acces interactiv, aleatoriu la date
  • Hbase (bază de date orientată pe coloane) peste Hadoop
  • Acces aleatoriu la date, dar cu restricții impuse (max 1 PB)
  • Nu este bun pentru analize ad-hoc, este bun pentru înregistrări, numărătoare, serii temporale
  • Sqoop - Import din baze de date în Hive sau HDFS (acces JDBC/ODBC)
  • Flume – Transmiterea datelor de flux (de ex. date de jurnal) în HDFS

Sistemul de gestionare a datelor mari

  • Piese mobile, noduri de calcul care încep/eșuează: ZooKeeper - Pentru configurare/coordonare/servicii de denumire
  • Conductă/flux de lucru complex: Oozie – gestionează fluxul de lucru, dependențele, lanțul de margarete
  • Implementare, configurare, managementul clusterului, actualizare etc (administrator de sistem): Ambari
  • În Cloud: Whirr

Analiza predictivă -- Tehnici fundamentale și Inteligență Business bazată pe Învățare Automată

  • Introducere în Învățarea Automată
  • Tehnici de clasificare
  • Predicție Bayesiană – pregătirea unui fișier de antrenament
  • Mașină de vectori de suport
  • KNN Algebra p-Tree și minerit vertical
  • Rețele neuronale
  • Problema variabilelor mari în Big Data – Pădure aleatoare (RF)
  • Problema de automatizare a datelor mari – RF multimodel ensemblist
  • Automatizare prin Soft10-M
  • Instrument de analiză text – Treeminer
  • Învățare agilă
  • Învățare bazată pe agenți
  • Învățare distribuită
  • Introducere în instrumente open source pentru analiza predictivă: R, Python, Rapidminer, Mahut

Ecosistemul analizei predictive și aplicația sa în analiza criminalistică

  • Tehnologia și procesul investigativ
  • Analiză de insight
  • Analiză de vizualizare
  • Analiză predictivă structurată
  • Analiză predictivă nestructurată
  • Profilarea amenințărilor/fraudelor/furnizorilor
  • Motor de recomandare
  • Detectarea modelelor
  • Descoperirea regulilor/scenariilor – eșec, fraudă, optimizare
  • Descoperirea cauzelor principale
  • Analiza sentimentelor
  • Analiza CRM
  • Analiza rețelelor
  • Analiza textului pentru obținerea de informații din transcrieri, declarații ale martorilor, discuții pe internet, etc.
  • Revizuire asistată de tehnologie
  • Analiza fraudelor
  • Analiză în timp real

Ziua 03

Analiză în timp real și scalabilă peste Hadoop

  • De ce algoritmii comuni de analiză eșuează în Hadoop/HDFS
  • Apache Hama - pentru calcul distribuit sincronizat în bloc
  • Apache SPARK - pentru calcul distribuit și analiză în timp real
  • CMU Graphics Lab2 - Abordare asincronă bazată pe grafice pentru calcul distribuit
  • KNN p - Abordare bazată pe algebră din Treeminer pentru costuri reduse de hardware

Instrumente pentru eDiscovery și Criminalistică

  • eDiscovery peste Big Data vs. Date Legacy – o comparație a costurilor și performanței
  • Codificare predictivă și Revizuire Asistată de Tehnologie (TAR)
  • Demonstrație live a vMiner pentru înțelegerea modului în care TAR permite o descoperire mai rapidă
  • Indexare mai rapidă prin HDFS – Viteza datelor
  • NLP (Procesare naturală a limbajului) – produse și tehnici open source
  • eDiscovery în limbi străine – tehnologie pentru procesarea limbilor străine

Inteligența Business pentru Big Data în Securitatea Cibernetică – Obținerea unei viziuni complete, colectarea rapidă a datelor și identificarea amenințărilor

  • Înțelegerea elementelor de bază ale analizei de securitate – suprafața de atac, configurarea greșită a securității, apărarea gazdelor
  • Infrastructura de rețea / Conductă mare de date / Răspuns ETL pentru analiză în timp real
  • Prescriptivă vs predictivă – Reguli fixe vs descoperire automată a regulilor de amenințare din Meta date

Colectarea datelor disparate pentru analiza criminalistică

  • Utilizarea IoT (Internetul Obiectelor) ca senzori pentru captarea datelor
  • Utilizarea imaginilor din satelit pentru supravegherea internă
  • Utilizarea datelor de supraveghere și imagine pentru identificarea criminalilor
  • Alte tehnologii de colectare a datelor – drone, camere corporale, sisteme de etichetare GPS și tehnologie de imagistică termică
  • Combinarea colectării automate a datelor cu datele obținute de la informatori, interogări și cercetări
  • Prognozarea activităților criminale

Ziua 04

Inteligența Business pentru prevenirea fraudelor din Big Data în analiza fraudelor

  • Clasificarea de bază a analizei fraudelor – bazată pe reguli vs analiză predictivă
  • Învățare automată supervizată vs nesupervizată pentru detectarea modelelor de fraudă
  • Fraudă business-to-business, fraudă în cererile medicale, fraudă în asigurări, evaziune fiscală și spălare de bani

Analiza rețelelor sociale – Colectarea și analiza informațiilor

  • Cum folosesc criminalii rețelele sociale pentru a se organiza, a recruta și a planifica
  • API ETL Big Data pentru extragerea datelor din rețelele sociale
  • Text, imagine, meta date și video
  • Analiza sentimentelor din fluxurile de social media
  • Filtrarea contextuală și non-contextuală a fluxurilor de social media
  • Tablou de bord pentru integrarea diverselor rețele sociale
  • Profilarea automată a profilurilor de social media
  • Demonstrație live a fiecărei analize prin instrumentul Treeminer

Analiza Big Data în procesarea imaginilor și fluxurilor video

  • Tehnici de stocare a imaginilor în Big Data – Soluții de stocare pentru date care depășesc petabyte
  • LTFS (Sistem de fișiere liniar pe bandă) și LTO (Linear Tape Open)
  • GPFS-LTFS (Sistem de fișiere paralel general - Sistem de fișiere liniar pe bandă) – soluție de stocare stratificată pentru date mari de imagine
  • Fundamentele analizei imaginilor
  • Recunoașterea obiectelor
  • Segmentarea imaginilor
  • Urmărirea mișcării
  • Reconstrucția imaginilor 3D

Biometrie, ADN și Programe de Identificare de Următoarea Generație

  • Dincolo de amprente și recunoașterea facială
  • Recunoașterea vorbirii, analiza tiparului de tastare (analizarea modului în care un utilizator tastează) și CODIS (Sistemul Combinat de Indexare a ADN)
  • Dincolo de potrivirea ADN: utilizarea fenotipizării forense a ADN-ului pentru a construi o față din mostre de ADN

Tablou de bord Big Data pentru accesul rapid la date diverse și afișare:

  • Integrarea platformei de aplicații existente cu Tabloul de bord Big Data
  • Gestionarea datelor mari
  • Studiu de caz al Tabloului de bord Big Data: Tableau și Pentaho
  • Utilizarea aplicației Big Data pentru a împinge serviciile bazate pe locație în Guvern.
  • Sistemul de urmărire și management

Ziua 05

Cum să justifici implementarea Inteligenței Business pentru Big Data într-o organizație:

  • Definirea ROI (Return on Investment) pentru implementarea Big Data
  • Studii de caz pentru economisirea timpului analiștilor în colectarea și pregătirea datelor – creșterea productivității
  • Câștiguri de venit din costuri mai mici de licențiere a bazelor de date
  • Câștiguri de venit din serviciile bazate pe locație
  • Economii de costuri din prevenirea fraudelor
  • O abordare integrată prin foi de calcul pentru calcularea costurilor aproximative vs. Câștiguri/economii de venit din implementarea Big Data.

Procedură pas cu pas pentru înlocuirea unui sistem de date legacy cu un sistem Big Data

  • Planul de migrare Big Data
  • Ce informații critice sunt necesare înainte de a arhitecta un sistem Big Data?
  • Care sunt diferitele metode de calcul a Volumului, Vitezei, Varietății și Veracității datelor
  • Cum să estimezi creșterea datelor
  • Studii de caz

Revizuirea furnizorilor de Big Data și a produselor lor.

  • Accenture
  • APTEAN (fostă CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (fostă 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Parte din EMC)

Sesiune de Întrebări și Răspunsuri

Cerințe

  • Cunoștințe despre procesele de aplicare a legii și sistemele de date
  • Înțelegere de bază a SQL/Oracle sau a bazelor de date relaționale
  • Înțelegere de bază a statisticii (la nivel de foaie de calcul)

Public țintă

  • Specialiști în aplicarea legii cu un fundal tehnic
 35 Ore

Numărul de participanți


Pret per participant

Mărturii (3)

Cursuri viitoare

Categorii înrudite