Intrati in legatura

Schița de curs

Ziua 01

Prezentare generală a Inteligenței de Business cu Big Data pentru Analiza Informațiilor Criminale

  • Studii de caz din aplicarea legii - Poliția predictivă
  • Rata de adoptare a Big Data în agențiile de aplicare a legii și cum își aliniază operațiunile viitoare în jurul analiticii predictive Big Data
  • Soluții tehnologice emergente, cum ar fi senzorii de împușcături, videouri de supraveghere și rețelele sociale
  • Utilizarea tehnologiei Big Data pentru a atenua supraîncărcarea informațională
  • Interfațarea Big Data cu datele legacy
  • Înțelegerea de bază a tehnologiilor care permit analiza predictivă
  • Integrarea datelor și vizualizarea pe tablouri de bord
  • Gestionarea fraudelor
  • Reguli de afaceri și detectarea fraudelor
  • Detectarea și profilarea amenințărilor
  • Analiza cost-beneficiu pentru implementarea Big Data

Introducere în Big Data

  • Principalele caracteristici ale Big Data -- Volum, Varietate, Viteză și Veracitate.
  • Arhitectura MPP (Procesare Paralelă Masivă)
  • Depozite de date – schemă statică, set de date care evoluează lent
  • Baze de date MPP: Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Soluții bazate pe Hadoop – fără condiții asupra structurii setului de date.
  • Model tipic: HDFS, MapReduce (prelucrare), preluare din HDFS
  • Apache Spark pentru procesarea în flux
  • Procesare în lot – potrivită pentru analize/non-interactive
  • Volum: date de streaming CEP
  • Alegeri tipice – produse CEP (de ex. Infostreams, Apama, MarkLogic etc)
  • Mai puțin pregătite pentru producție – Storm/S4
  • Baze de date NoSQL – (columare și cheie-valoare): Cel mai potrivite ca adjunct analitic pentru depozitul de date/baza de date

Soluții NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Ierarhic) - GT.m, Cache
  • KV Store (Ordonat) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Bază de date de obiecte - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Varietăți de date: Introducere în problemele de curățare a datelor în Big Data

  • RDBMS – structură/schemă statică, nu promovează un mediu agil, explorator.
  • NoSQL – semi-structurat, suficientă structură pentru a stoca date fără o schemă exactă înainte de stocare
  • Probleme de curățare a datelor

Hadoop

  • Când să alegi Hadoop?
  • STRUCTURAT – Depozitele de date/baze de date enterprise pot stoca date masive (la un cost) dar impun o structură (nu este bună pentru explorarea activă)
  • Date SEMI STRUCTURATE – dificil de realizat folosind soluții tradiționale (DW/DB)
  • Depozitarea datelor = EFORT URIAS și statică chiar și după implementare
  • Pentru varietatea și volumul de date, prelucrate pe hardware de consum – HADOOP
  • Hardware de consum necesar pentru a crea un cluster Hadoop

Introducere în Map Reduce /HDFS

  • MapReduce – distribuirea calculului pe mai multe servere
  • HDFS – face datele disponibile local pentru procesul de calcul (cu redundanță)
  • Date – pot fi nestructurate/fără schemă (spre deosebire de RDBMS)
  • Responsabilitatea dezvoltatorului de a da sens datelor
  • Programarea MapReduce = lucrul cu Java (avantaje/dezavantaje), încărcarea manuală a datelor în HDFS

Ziua 02

Ecosistemul Big Data -- Construirea ETL (Extract, Transform, Load) pentru Big Data -- Ce instrumente Big Data să folosești și când?

  • Hadoop vs. Alte soluții NoSQL
  • Pentru acces interactiv, aleatoriu la date
  • Hbase (bază de date orientată pe coloane) pe Hadoop
  • Acces aleatoriu la date, dar cu restricții impuse (maxim 1 PB)
  • Nu este bun pentru analize ad-hoc, este bun pentru înregistrări, numărătoare, serii temporale
  • Sqoop - Import din baze de date în Hive sau HDFS (acces JDBC/ODBC)
  • Flume – Transmitere de date (de ex. date de log) în HDFS

Sistem de Management Big Data

  • Părți în mișcare, noduri de calcul care pornesc/eșuează: ZooKeeper - Pentru configurație/coordonare/servicii de denumire
  • Pipelin/flux de lucru complex: Oozie – gestionează fluxul de lucru, dependențe, lanțuri de dependențe
  • Implementare, configurare, management de cluster, actualizare etc (administrator de sistem): Ambari
  • În Cloud: Whirr

Analitică predictivă -- Tehnici fundamentale și Inteligență de Business bazată pe Învățare Automată

  • Introducere în Învățarea Automată
  • Tehnici de clasificare
  • Predicție Bayesiană – pregătirea unui fișier de antrenament
  • Mașină cu Vectori de Suport
  • Algebra KNN p-Tree și minerit vertical
  • Rețele neuronale
  • Problema variabilelor mari în Big Data – Pădure aleatoare (RF)
  • Problema automatizării Big Data – Ansamblu multi-model RF
  • Automatizare prin Soft10-M
  • Instrument de analiză textuală-Treeminer
  • Învățare agilă
  • Învățare bazată pe agenți
  • Învățare distribuită
  • Introducere în instrumente open source pentru analiza predictivă: R, Python, Rapidminer, Mahut

Ecosistemul analitici predictive și aplicarea sa în analiza informațiilor criminale

  • Tehnologia și procesul investigativ
  • Analitică de insight
  • Analitică de vizualizare
  • Analitică predictivă structurată
  • Analitică predictivă nestructurată
  • Profilarea amenințărilor/fraudelor/furnizorilor
  • Motor de recomandare
  • Detectarea de modele
  • Descoperirea regulilor/scenariilor – eșec, fraudă, optimizare
  • Descoperirea cauzelor principale
  • Analiza sentimentelor
  • Analitică CRM
  • Analitică de rețea
  • Analiza textului pentru obținerea de informații din transcrieri, declarații ale martorilor, discuții pe internet, etc.
  • Revizuire asistată de tehnologie
  • Analitică de fraudă
  • Analitică în timp real

Ziua 03

Analitică în timp real și scalabilă pe Hadoop

  • De ce algoritmii comuni de analiză eșuează în Hadoop/HDFS
  • Apache Hama- pentru calcul distribuit sincron în bloc
  • Apache SPARK- pentru calcul de cluster și analitică în timp real
  • CMU Graphics Lab2- Abordare asincronă bazată pe grafice pentru calcul distribuit
  • KNN p – Abordare bazată pe algebră din Treeminer pentru costuri reduse de hardware de operare

Instrumente pentru eDiscovery și Criminalistică

  • eDiscovery pe Big Data vs. date legacy – o comparație a costurilor și performanței
  • Codificare predictivă și Revizuire Asistată de Tehnologie (TAR)
  • Demonstrație live a vMiner pentru înțelegerea modului în care TAR permite descoperirea mai rapidă
  • Indexare mai rapidă prin HDFS – Viteza datelor
  • NLP (Procesare de Limbaj Natural) – produse și tehnici open source
  • eDiscovery în limbi străine – tehnologie pentru procesarea limbilor străine

Inteligență de Business cu Big Data pentru Securitate Cibernetică – Obținerea unei viziuni 360 de grade, colectarea rapidă a datelor și identificarea amenințărilor

  • Înțelegerea elementelor de bază ale analiticii de securitate – suprafața de atac, configurarea greșită a securității, apărarea gazdelor
  • Infrastructura de rețea / Conductă mare de date / ETL de răspuns pentru analitică în timp real
  • Prescriptiv vs. predictiv – Reguli fixe bazate pe descoperirea automată a regulilor de amenințare din Meta date

Colectarea de date disparate pentru analiza informațiilor criminale

  • Utilizarea IoT (Internetul Lucrurilor) ca senzori pentru capturarea datelor
  • Utilizarea imaginilor satelitare pentru supravegherea domestică
  • Utilizarea datelor de supraveghere și imagine pentru identificarea criminală
  • Alte tehnologii de colectare a datelor – drone, camere corporale, sisteme de etichetare GPS și tehnologie de imagistică termică
  • Combinarea colectării automate de date cu date obținute de la informatori, interogări și cercetări
  • Prognozarea activităților criminale

Ziua 04

Inteligență de Business pentru prevenirea fraudelor din Big Data în analiza fraudelor

  • Clasificarea de bază a analiticii fraudelor – bazată pe reguli vs. analitică predictivă
  • Învățare automată supervizată vs. nesupervizată pentru detectarea modelelor de fraudă
  • Fraudă business-to-business, fraudă în cererile medicale, fraudă în asigurări, evaziune fiscală și spălare de bani

Analiza rețelelor sociale – Colectarea și analiza informațiilor

  • Cum folosesc criminalii rețelele sociale pentru a se organiza, recruta și planifica
  • API ETL Big Data pentru extragerea datelor din rețelele sociale
  • Text, imagine, meta date și video
  • Analiza sentimentelor din fluxurile de rețele sociale
  • Filtrarea contextuală și non-contextuală a fluxurilor de rețele sociale
  • Tablou de bord pentru rețele sociale pentru integrarea diverselor rețele sociale
  • Profilarea automată a profilurilor de rețele sociale
  • Demonstrație live a fiecărei analitice prin instrumentul Treeminer

Analiza Big Data în procesarea imaginilor și fluxurilor video

  • Tehnici de stocare a imaginilor în Big Data – Soluții de stocare pentru date care depășesc petabyte
  • LTFS (Sistem de Fișiere Linear pe Bandă) și LTO (Linear Tape Open)
  • GPFS-LTFS (Sistem de Fișiere Paralel General - Sistem de Fișiere Linear pe Bandă) – soluție de stocare stratificată pentru date mari de imagine
  • Elemente de bază ale analizei imaginilor
  • Recunoașterea obiectelor
  • Segmentarea imaginilor
  • Urmărirea mișcării
  • Reconstrucția 3-D a imaginilor

Biometrică, ADN și Programe de Identificare de Următoarea Generație

  • Dincolo de amprente și recunoașterea facială
  • Recunoașterea vocală, analiza tiparului de tastare (analizarea modului în care un utilizator tastează) și CODIS (Sistem Combinat de Indexare ADN)
  • Dincolo de potrivirea ADN: utilizarea fenotipizării forense ADN pentru a construi o față din probe de ADN

Tablou de bord Big Data pentru acces rapid la date diverse și afișare:

  • Integrarea platformei de aplicații existente cu Tabloul de bord Big Data
  • Managementul Big Data
  • Studiu de caz al Tabloului de bord Big Data: Tableau și Pentaho
  • Utilizarea aplicației Big Data pentru a oferi servicii bazate pe locație în Guvern.
  • Sistem de urmărire și management

Ziua 05

Cum să justifici implementarea Inteligenței de Business cu Big Data într-o organizație:

  • Definirea ROI (Return on Investment) pentru implementarea Big Data
  • Studii de caz pentru economisirea timpului analistului în colectarea și pregătirea datelor – creșterea productivității
  • Câștiguri de venit din costurile reduse de licențiere a bazelor de date
  • Câștiguri de venit din serviciile bazate pe locație
  • Economii de costuri din prevenirea fraudelor
  • O abordare integrată de foaie de calcul pentru calcularea aproximativă a cheltuielilor vs. Câștiguri/economii de venit din implementarea Big Data.

Procedură pas cu pas pentru înlocuirea unui sistem de date legacy cu un sistem Big Data

  • Plan de migrare Big Data
  • Ce informații critice sunt necesare înainte de a arhitecta un sistem Big Data?
  • Care sunt diferitele metode de calcul a Volumului, Vitezei, Varietății și Veracității datelor
  • Cum să estimezi creșterea datelor
  • Studii de caz

Recenzie a furnizorilor Big Data și a produselor lor.

  • Accenture
  • APTEAN (Fostul CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Fostul 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Parte din EMC)

Sesiune de întrebări și răspunsuri

Cerințe

  • Cunoștințe despre procesele de aplicare a legii și sistemele de date
  • Înțelegere de bază a SQL/Oracle sau a bazelor de date relaționale
  • Înțelegere de bază a statisticii (la nivel de foaie de calcul)

Publicul țintă

  • Specialiști în aplicarea legii cu un fundal tehnic
 35 Ore

Numărul de participanți


Pret per participant

Mărturii (2)

Cursuri viitoare

Categorii înrudite