Schița de curs
Ziua 01
Prezentare generală a Inteligenței Business pentru Big Data în Analiza Criminalistică
- Studii de caz din aplicarea legii - Poliția predictivă
- Rata de adoptare a Big Data în agențiile de aplicare a legii și cum își aliniază operațiunile viitoare în jurul analizei predictive Big Data
- Soluții tehnologice emergente, cum ar fi senzorii de împușcături, videouri de supraveghere și social media
- Utilizarea tehnologiei Big Data pentru a atenua supraîncărcarea informațională
- Interfațarea Big Data cu datele Legacy
- Înțelegere de bază a tehnologiilor care permit analiza predictivă
- Integrarea datelor și vizualizarea pe tablou de bord
- Gestionarea fraudelor
- Reguli de afaceri și detectarea fraudelor
- Detectarea și profilarea amenințărilor
- Analiza cost-beneficiu pentru implementarea Big Data
Introducere în Big Data
- Principalele caracteristici ale Big Data -- Volum, Varietate, Viteză și Veracitate.
- Arhitectura MPP (Procesare Paralelă Masivă)
- Depozite de date – schemă statică, set de date care evoluează lent
- Baze de date MPP: Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Soluții bazate pe Hadoop – fără condiții asupra structurii setului de date.
- Model tipic: HDFS, MapReduce (crunch), preluare din HDFS
- Apache Spark pentru procesarea fluxurilor
- Lot – potrivit pentru analize/non-interactive
- Volum: Date de flux CEP
- Alegerea tipică – produse CEP (de ex. Infostreams, Apama, MarkLogic etc)
- Mai puțin pregătite pentru producție – Storm/S4
- Baze de date NoSQL – (columnar și key-value): Cele mai potrivite ca adjunct analitic la depozitul de date/baza de date
Soluții NoSQL
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Ierarhic) - GT.m, Cache
- KV Store (Ordonat) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Bază de date orientată pe obiecte - ZopeDB, DB40, Shoal
- Depozit de documente - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Depozit Wide Columnar - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Varietăți de date: Introducere în problemele de curățare a datelor în Big Data
- RDBMS – structură/schemă statică, nu promovează un mediu agil, explorator.
- NoSQL – semi-structurat, suficientă structură pentru a stoca date fără o schemă exactă înainte de stocare
- Probleme de curățare a datelor
Hadoop
- Când să alegi Hadoop?
- STRUCTURAT – Depozitele de date/bazele de date ale întreprinderilor pot stoca date masive (la un cost), dar impun o structură (nu este bună pentru explorarea activă)
- Date SEMI STRUCTURATE – dificil de realizat folosind soluții tradiționale (DW/DB)
- Depozitarea datelor = EFORT URIAS și static chiar și după implementare
- Pentru varietatea și volumul de date, procesate pe hardware de consum – HADOOP
- Hardware de consum necesar pentru a crea un cluster Hadoop
Introducere în Map Reduce /HDFS
- MapReduce – distribuirea calculului pe mai multe servere
- HDFS – face datele disponibile local pentru procesul de calcul (cu redundanță)
- Date – pot fi nestructurate/fără schemă (spre deosebire de RDBMS)
- Responsabilitatea dezvoltatorului de a da sens datelor
- Programarea MapReduce = lucrul cu Java (avantaje/dezavantaje), încărcarea manuală a datelor în HDFS
Ziua 02
Ecosistemul Big Data -- Construirea ETL (Extract, Transform, Load) pentru Big Data -- Care instrumente Big Data să folosești și când?
- Hadoop vs. Alte soluții NoSQL
- Pentru acces interactiv, aleatoriu la date
- Hbase (bază de date orientată pe coloane) peste Hadoop
- Acces aleatoriu la date, dar cu restricții impuse (max 1 PB)
- Nu este bun pentru analize ad-hoc, este bun pentru înregistrări, numărătoare, serii temporale
- Sqoop - Import din baze de date în Hive sau HDFS (acces JDBC/ODBC)
- Flume – Transmiterea datelor de flux (de ex. date de jurnal) în HDFS
Sistemul de gestionare a datelor mari
- Piese mobile, noduri de calcul care încep/eșuează: ZooKeeper - Pentru configurare/coordonare/servicii de denumire
- Conductă/flux de lucru complex: Oozie – gestionează fluxul de lucru, dependențele, lanțul de margarete
- Implementare, configurare, managementul clusterului, actualizare etc (administrator de sistem): Ambari
- În Cloud: Whirr
Analiza predictivă -- Tehnici fundamentale și Inteligență Business bazată pe Învățare Automată
- Introducere în Învățarea Automată
- Tehnici de clasificare
- Predicție Bayesiană – pregătirea unui fișier de antrenament
- Mașină de vectori de suport
- KNN Algebra p-Tree și minerit vertical
- Rețele neuronale
- Problema variabilelor mari în Big Data – Pădure aleatoare (RF)
- Problema de automatizare a datelor mari – RF multimodel ensemblist
- Automatizare prin Soft10-M
- Instrument de analiză text – Treeminer
- Învățare agilă
- Învățare bazată pe agenți
- Învățare distribuită
- Introducere în instrumente open source pentru analiza predictivă: R, Python, Rapidminer, Mahut
Ecosistemul analizei predictive și aplicația sa în analiza criminalistică
- Tehnologia și procesul investigativ
- Analiză de insight
- Analiză de vizualizare
- Analiză predictivă structurată
- Analiză predictivă nestructurată
- Profilarea amenințărilor/fraudelor/furnizorilor
- Motor de recomandare
- Detectarea modelelor
- Descoperirea regulilor/scenariilor – eșec, fraudă, optimizare
- Descoperirea cauzelor principale
- Analiza sentimentelor
- Analiza CRM
- Analiza rețelelor
- Analiza textului pentru obținerea de informații din transcrieri, declarații ale martorilor, discuții pe internet, etc.
- Revizuire asistată de tehnologie
- Analiza fraudelor
- Analiză în timp real
Ziua 03
Analiză în timp real și scalabilă peste Hadoop
- De ce algoritmii comuni de analiză eșuează în Hadoop/HDFS
- Apache Hama - pentru calcul distribuit sincronizat în bloc
- Apache SPARK - pentru calcul distribuit și analiză în timp real
- CMU Graphics Lab2 - Abordare asincronă bazată pe grafice pentru calcul distribuit
- KNN p - Abordare bazată pe algebră din Treeminer pentru costuri reduse de hardware
Instrumente pentru eDiscovery și Criminalistică
- eDiscovery peste Big Data vs. Date Legacy – o comparație a costurilor și performanței
- Codificare predictivă și Revizuire Asistată de Tehnologie (TAR)
- Demonstrație live a vMiner pentru înțelegerea modului în care TAR permite o descoperire mai rapidă
- Indexare mai rapidă prin HDFS – Viteza datelor
- NLP (Procesare naturală a limbajului) – produse și tehnici open source
- eDiscovery în limbi străine – tehnologie pentru procesarea limbilor străine
Inteligența Business pentru Big Data în Securitatea Cibernetică – Obținerea unei viziuni complete, colectarea rapidă a datelor și identificarea amenințărilor
- Înțelegerea elementelor de bază ale analizei de securitate – suprafața de atac, configurarea greșită a securității, apărarea gazdelor
- Infrastructura de rețea / Conductă mare de date / Răspuns ETL pentru analiză în timp real
- Prescriptivă vs predictivă – Reguli fixe vs descoperire automată a regulilor de amenințare din Meta date
Colectarea datelor disparate pentru analiza criminalistică
- Utilizarea IoT (Internetul Obiectelor) ca senzori pentru captarea datelor
- Utilizarea imaginilor din satelit pentru supravegherea internă
- Utilizarea datelor de supraveghere și imagine pentru identificarea criminalilor
- Alte tehnologii de colectare a datelor – drone, camere corporale, sisteme de etichetare GPS și tehnologie de imagistică termică
- Combinarea colectării automate a datelor cu datele obținute de la informatori, interogări și cercetări
- Prognozarea activităților criminale
Ziua 04
Inteligența Business pentru prevenirea fraudelor din Big Data în analiza fraudelor
- Clasificarea de bază a analizei fraudelor – bazată pe reguli vs analiză predictivă
- Învățare automată supervizată vs nesupervizată pentru detectarea modelelor de fraudă
- Fraudă business-to-business, fraudă în cererile medicale, fraudă în asigurări, evaziune fiscală și spălare de bani
Analiza rețelelor sociale – Colectarea și analiza informațiilor
- Cum folosesc criminalii rețelele sociale pentru a se organiza, a recruta și a planifica
- API ETL Big Data pentru extragerea datelor din rețelele sociale
- Text, imagine, meta date și video
- Analiza sentimentelor din fluxurile de social media
- Filtrarea contextuală și non-contextuală a fluxurilor de social media
- Tablou de bord pentru integrarea diverselor rețele sociale
- Profilarea automată a profilurilor de social media
- Demonstrație live a fiecărei analize prin instrumentul Treeminer
Analiza Big Data în procesarea imaginilor și fluxurilor video
- Tehnici de stocare a imaginilor în Big Data – Soluții de stocare pentru date care depășesc petabyte
- LTFS (Sistem de fișiere liniar pe bandă) și LTO (Linear Tape Open)
- GPFS-LTFS (Sistem de fișiere paralel general - Sistem de fișiere liniar pe bandă) – soluție de stocare stratificată pentru date mari de imagine
- Fundamentele analizei imaginilor
- Recunoașterea obiectelor
- Segmentarea imaginilor
- Urmărirea mișcării
- Reconstrucția imaginilor 3D
Biometrie, ADN și Programe de Identificare de Următoarea Generație
- Dincolo de amprente și recunoașterea facială
- Recunoașterea vorbirii, analiza tiparului de tastare (analizarea modului în care un utilizator tastează) și CODIS (Sistemul Combinat de Indexare a ADN)
- Dincolo de potrivirea ADN: utilizarea fenotipizării forense a ADN-ului pentru a construi o față din mostre de ADN
Tablou de bord Big Data pentru accesul rapid la date diverse și afișare:
- Integrarea platformei de aplicații existente cu Tabloul de bord Big Data
- Gestionarea datelor mari
- Studiu de caz al Tabloului de bord Big Data: Tableau și Pentaho
- Utilizarea aplicației Big Data pentru a împinge serviciile bazate pe locație în Guvern.
- Sistemul de urmărire și management
Ziua 05
Cum să justifici implementarea Inteligenței Business pentru Big Data într-o organizație:
- Definirea ROI (Return on Investment) pentru implementarea Big Data
- Studii de caz pentru economisirea timpului analiștilor în colectarea și pregătirea datelor – creșterea productivității
- Câștiguri de venit din costuri mai mici de licențiere a bazelor de date
- Câștiguri de venit din serviciile bazate pe locație
- Economii de costuri din prevenirea fraudelor
- O abordare integrată prin foi de calcul pentru calcularea costurilor aproximative vs. Câștiguri/economii de venit din implementarea Big Data.
Procedură pas cu pas pentru înlocuirea unui sistem de date legacy cu un sistem Big Data
- Planul de migrare Big Data
- Ce informații critice sunt necesare înainte de a arhitecta un sistem Big Data?
- Care sunt diferitele metode de calcul a Volumului, Vitezei, Varietății și Veracității datelor
- Cum să estimezi creșterea datelor
- Studii de caz
Revizuirea furnizorilor de Big Data și a produselor lor.
- Accenture
- APTEAN (fostă CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (fostă 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Parte din EMC)
Sesiune de Întrebări și Răspunsuri
Cerințe
- Cunoștințe despre procesele de aplicare a legii și sistemele de date
- Înțelegere de bază a SQL/Oracle sau a bazelor de date relaționale
- Înțelegere de bază a statisticii (la nivel de foaie de calcul)
Public țintă
- Specialiști în aplicarea legii cu un fundal tehnic
Mărturii (3)
Subiecte dificile prezentate într-un mod simplu și utilizator-orientat
Marcin - GE Medical Systems Polska Sp. z o.o.
Curs - Introduction to Predictive AI
Tradus de catre o masina
Deepthi a fost foarte atentă nevoilor mele, ea știa când să adauge straturi de complexitate și când să se împiedice și să adopte o abordare mai structurată. Deepthi a luat cu adevărat în considerare ritmul meu de lucru și s-a asigurat că am reușit să folosesc noile funcții/unelte pe cont propriu, întâi prin demonstrație, apoi lăsându-mă să recrez elementele cu propria mea mânu, ceea ce a ajutat enorm la încorporarea instruirii. Nu ar putea fi mai mulțumit de rezultatele acestei instruire și de nivelul de experiență al lui Deepthi!
Deepthi - Invest Northern Ireland
Curs - IBM Cognos Analytics
Tradus de catre o masina
Expus clar și explicat cu precizie
Harshit Arora - PwC South East Asia Consulting
Curs - Alteryx for Developers
Tradus de catre o masina