Schița de curs
Ziua 01
Prezentare generală a Inteligenței de Business cu Big Data pentru Analiza Informațiilor Criminale
- Studii de caz din aplicarea legii - Poliția predictivă
- Rata de adoptare a Big Data în agențiile de aplicare a legii și cum își aliniază operațiunile viitoare în jurul analiticii predictive Big Data
- Soluții tehnologice emergente, cum ar fi senzorii de împușcături, videouri de supraveghere și rețelele sociale
- Utilizarea tehnologiei Big Data pentru a atenua supraîncărcarea informațională
- Interfațarea Big Data cu datele legacy
- Înțelegerea de bază a tehnologiilor care permit analiza predictivă
- Integrarea datelor și vizualizarea pe tablouri de bord
- Gestionarea fraudelor
- Reguli de afaceri și detectarea fraudelor
- Detectarea și profilarea amenințărilor
- Analiza cost-beneficiu pentru implementarea Big Data
Introducere în Big Data
- Principalele caracteristici ale Big Data -- Volum, Varietate, Viteză și Veracitate.
- Arhitectura MPP (Procesare Paralelă Masivă)
- Depozite de date – schemă statică, set de date care evoluează lent
- Baze de date MPP: Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Soluții bazate pe Hadoop – fără condiții asupra structurii setului de date.
- Model tipic: HDFS, MapReduce (prelucrare), preluare din HDFS
- Apache Spark pentru procesarea în flux
- Procesare în lot – potrivită pentru analize/non-interactive
- Volum: date de streaming CEP
- Alegeri tipice – produse CEP (de ex. Infostreams, Apama, MarkLogic etc)
- Mai puțin pregătite pentru producție – Storm/S4
- Baze de date NoSQL – (columare și cheie-valoare): Cel mai potrivite ca adjunct analitic pentru depozitul de date/baza de date
Soluții NoSQL
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Ierarhic) - GT.m, Cache
- KV Store (Ordonat) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Bază de date de obiecte - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Varietăți de date: Introducere în problemele de curățare a datelor în Big Data
- RDBMS – structură/schemă statică, nu promovează un mediu agil, explorator.
- NoSQL – semi-structurat, suficientă structură pentru a stoca date fără o schemă exactă înainte de stocare
- Probleme de curățare a datelor
Hadoop
- Când să alegi Hadoop?
- STRUCTURAT – Depozitele de date/baze de date enterprise pot stoca date masive (la un cost) dar impun o structură (nu este bună pentru explorarea activă)
- Date SEMI STRUCTURATE – dificil de realizat folosind soluții tradiționale (DW/DB)
- Depozitarea datelor = EFORT URIAS și statică chiar și după implementare
- Pentru varietatea și volumul de date, prelucrate pe hardware de consum – HADOOP
- Hardware de consum necesar pentru a crea un cluster Hadoop
Introducere în Map Reduce /HDFS
- MapReduce – distribuirea calculului pe mai multe servere
- HDFS – face datele disponibile local pentru procesul de calcul (cu redundanță)
- Date – pot fi nestructurate/fără schemă (spre deosebire de RDBMS)
- Responsabilitatea dezvoltatorului de a da sens datelor
- Programarea MapReduce = lucrul cu Java (avantaje/dezavantaje), încărcarea manuală a datelor în HDFS
Ziua 02
Ecosistemul Big Data -- Construirea ETL (Extract, Transform, Load) pentru Big Data -- Ce instrumente Big Data să folosești și când?
- Hadoop vs. Alte soluții NoSQL
- Pentru acces interactiv, aleatoriu la date
- Hbase (bază de date orientată pe coloane) pe Hadoop
- Acces aleatoriu la date, dar cu restricții impuse (maxim 1 PB)
- Nu este bun pentru analize ad-hoc, este bun pentru înregistrări, numărătoare, serii temporale
- Sqoop - Import din baze de date în Hive sau HDFS (acces JDBC/ODBC)
- Flume – Transmitere de date (de ex. date de log) în HDFS
Sistem de Management Big Data
- Părți în mișcare, noduri de calcul care pornesc/eșuează: ZooKeeper - Pentru configurație/coordonare/servicii de denumire
- Pipelin/flux de lucru complex: Oozie – gestionează fluxul de lucru, dependențe, lanțuri de dependențe
- Implementare, configurare, management de cluster, actualizare etc (administrator de sistem): Ambari
- În Cloud: Whirr
Analitică predictivă -- Tehnici fundamentale și Inteligență de Business bazată pe Învățare Automată
- Introducere în Învățarea Automată
- Tehnici de clasificare
- Predicție Bayesiană – pregătirea unui fișier de antrenament
- Mașină cu Vectori de Suport
- Algebra KNN p-Tree și minerit vertical
- Rețele neuronale
- Problema variabilelor mari în Big Data – Pădure aleatoare (RF)
- Problema automatizării Big Data – Ansamblu multi-model RF
- Automatizare prin Soft10-M
- Instrument de analiză textuală-Treeminer
- Învățare agilă
- Învățare bazată pe agenți
- Învățare distribuită
- Introducere în instrumente open source pentru analiza predictivă: R, Python, Rapidminer, Mahut
Ecosistemul analitici predictive și aplicarea sa în analiza informațiilor criminale
- Tehnologia și procesul investigativ
- Analitică de insight
- Analitică de vizualizare
- Analitică predictivă structurată
- Analitică predictivă nestructurată
- Profilarea amenințărilor/fraudelor/furnizorilor
- Motor de recomandare
- Detectarea de modele
- Descoperirea regulilor/scenariilor – eșec, fraudă, optimizare
- Descoperirea cauzelor principale
- Analiza sentimentelor
- Analitică CRM
- Analitică de rețea
- Analiza textului pentru obținerea de informații din transcrieri, declarații ale martorilor, discuții pe internet, etc.
- Revizuire asistată de tehnologie
- Analitică de fraudă
- Analitică în timp real
Ziua 03
Analitică în timp real și scalabilă pe Hadoop
- De ce algoritmii comuni de analiză eșuează în Hadoop/HDFS
- Apache Hama- pentru calcul distribuit sincron în bloc
- Apache SPARK- pentru calcul de cluster și analitică în timp real
- CMU Graphics Lab2- Abordare asincronă bazată pe grafice pentru calcul distribuit
- KNN p – Abordare bazată pe algebră din Treeminer pentru costuri reduse de hardware de operare
Instrumente pentru eDiscovery și Criminalistică
- eDiscovery pe Big Data vs. date legacy – o comparație a costurilor și performanței
- Codificare predictivă și Revizuire Asistată de Tehnologie (TAR)
- Demonstrație live a vMiner pentru înțelegerea modului în care TAR permite descoperirea mai rapidă
- Indexare mai rapidă prin HDFS – Viteza datelor
- NLP (Procesare de Limbaj Natural) – produse și tehnici open source
- eDiscovery în limbi străine – tehnologie pentru procesarea limbilor străine
Inteligență de Business cu Big Data pentru Securitate Cibernetică – Obținerea unei viziuni 360 de grade, colectarea rapidă a datelor și identificarea amenințărilor
- Înțelegerea elementelor de bază ale analiticii de securitate – suprafața de atac, configurarea greșită a securității, apărarea gazdelor
- Infrastructura de rețea / Conductă mare de date / ETL de răspuns pentru analitică în timp real
- Prescriptiv vs. predictiv – Reguli fixe bazate pe descoperirea automată a regulilor de amenințare din Meta date
Colectarea de date disparate pentru analiza informațiilor criminale
- Utilizarea IoT (Internetul Lucrurilor) ca senzori pentru capturarea datelor
- Utilizarea imaginilor satelitare pentru supravegherea domestică
- Utilizarea datelor de supraveghere și imagine pentru identificarea criminală
- Alte tehnologii de colectare a datelor – drone, camere corporale, sisteme de etichetare GPS și tehnologie de imagistică termică
- Combinarea colectării automate de date cu date obținute de la informatori, interogări și cercetări
- Prognozarea activităților criminale
Ziua 04
Inteligență de Business pentru prevenirea fraudelor din Big Data în analiza fraudelor
- Clasificarea de bază a analiticii fraudelor – bazată pe reguli vs. analitică predictivă
- Învățare automată supervizată vs. nesupervizată pentru detectarea modelelor de fraudă
- Fraudă business-to-business, fraudă în cererile medicale, fraudă în asigurări, evaziune fiscală și spălare de bani
Analiza rețelelor sociale – Colectarea și analiza informațiilor
- Cum folosesc criminalii rețelele sociale pentru a se organiza, recruta și planifica
- API ETL Big Data pentru extragerea datelor din rețelele sociale
- Text, imagine, meta date și video
- Analiza sentimentelor din fluxurile de rețele sociale
- Filtrarea contextuală și non-contextuală a fluxurilor de rețele sociale
- Tablou de bord pentru rețele sociale pentru integrarea diverselor rețele sociale
- Profilarea automată a profilurilor de rețele sociale
- Demonstrație live a fiecărei analitice prin instrumentul Treeminer
Analiza Big Data în procesarea imaginilor și fluxurilor video
- Tehnici de stocare a imaginilor în Big Data – Soluții de stocare pentru date care depășesc petabyte
- LTFS (Sistem de Fișiere Linear pe Bandă) și LTO (Linear Tape Open)
- GPFS-LTFS (Sistem de Fișiere Paralel General - Sistem de Fișiere Linear pe Bandă) – soluție de stocare stratificată pentru date mari de imagine
- Elemente de bază ale analizei imaginilor
- Recunoașterea obiectelor
- Segmentarea imaginilor
- Urmărirea mișcării
- Reconstrucția 3-D a imaginilor
Biometrică, ADN și Programe de Identificare de Următoarea Generație
- Dincolo de amprente și recunoașterea facială
- Recunoașterea vocală, analiza tiparului de tastare (analizarea modului în care un utilizator tastează) și CODIS (Sistem Combinat de Indexare ADN)
- Dincolo de potrivirea ADN: utilizarea fenotipizării forense ADN pentru a construi o față din probe de ADN
Tablou de bord Big Data pentru acces rapid la date diverse și afișare:
- Integrarea platformei de aplicații existente cu Tabloul de bord Big Data
- Managementul Big Data
- Studiu de caz al Tabloului de bord Big Data: Tableau și Pentaho
- Utilizarea aplicației Big Data pentru a oferi servicii bazate pe locație în Guvern.
- Sistem de urmărire și management
Ziua 05
Cum să justifici implementarea Inteligenței de Business cu Big Data într-o organizație:
- Definirea ROI (Return on Investment) pentru implementarea Big Data
- Studii de caz pentru economisirea timpului analistului în colectarea și pregătirea datelor – creșterea productivității
- Câștiguri de venit din costurile reduse de licențiere a bazelor de date
- Câștiguri de venit din serviciile bazate pe locație
- Economii de costuri din prevenirea fraudelor
- O abordare integrată de foaie de calcul pentru calcularea aproximativă a cheltuielilor vs. Câștiguri/economii de venit din implementarea Big Data.
Procedură pas cu pas pentru înlocuirea unui sistem de date legacy cu un sistem Big Data
- Plan de migrare Big Data
- Ce informații critice sunt necesare înainte de a arhitecta un sistem Big Data?
- Care sunt diferitele metode de calcul a Volumului, Vitezei, Varietății și Veracității datelor
- Cum să estimezi creșterea datelor
- Studii de caz
Recenzie a furnizorilor Big Data și a produselor lor.
- Accenture
- APTEAN (Fostul CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Fostul 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Parte din EMC)
Sesiune de întrebări și răspunsuri
Cerințe
- Cunoștințe despre procesele de aplicare a legii și sistemele de date
- Înțelegere de bază a SQL/Oracle sau a bazelor de date relaționale
- Înțelegere de bază a statisticii (la nivel de foaie de calcul)
Publicul țintă
- Specialiști în aplicarea legii cu un fundal tehnic
Mărturii (2)
Abhi are cunoștințe excelente despre Alteryx și a explicat lucrurile foarte clar. A înțeles obiectivele noastre și a creat seturi de date demo personalizate, relevante pentru organizația noastră, lucru care a fost foarte impresionant. Training-ul a fost bine structurat și desfășurat într-un ritm potrivit, cu timp alocat pentru întrebări.
Samuel Taylor - Manchester Metropolitan University
Curs - Alteryx for Data Analysis
Tradus de catre o masina
noțiunile de bază și a apreciat documentele și exercițiile pregătite
Rekha Nallam - GE Medical Systems Polska Sp. z o.o.
Curs - Introduction to Predictive AI
Tradus de catre o masina