Kursplan
Dag 01
Oversikt over Big Data Business Intelligence for Criminal Intelligence Analysis
- Saksstudier fra rettshåndhevelse – prediktivt politiarbeid
- Big Data adopsjonsrate i rettshåndhevelsesbyråer og hvordan de justerer sin fremtidige drift rundt Big Data Predictive Analytics
- Nye teknologiløsninger som skuddsensorer, overvåkingsvideo og sosiale medier
- Bruke Big Data teknologi for å redusere informasjonsoverbelastning
- Grensesnitt Big Data med eldre data
- Grunnleggende forståelse av muliggjørende teknologier i prediktiv analyse
- Data Integration & Dashboardvisualisering
- Svindelhåndtering
- Business Rules og svindeloppdagelse
- Trusseldeteksjon og profilering
- Nyttekostnadsanalyse for Big Data implementering
Introduksjon til Big Data
- Hovedkarakteristika for Big Data -- Volum, Variety, Velocity og Veracity.
- MPP (Massively Parallel Processing) arkitektur
- Data Warehouses – statisk skjema, datasett i sakte utvikling
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Hadoop Baserte løsninger – ingen betingelser for strukturen til datasettet.
- Typisk mønster: HDFS, MapReduce (crunch), hente fra HDFS
- Apache Spark for strømbehandling
- Batch-egnet for analytisk/ikke-interaktiv
- Volum: CEP-strømmedata
- Typiske valg – CEP-produkter (f.eks. Infostreams, Apama, MarkLogic osv.)
- Mindre produksjonsklar – Storm/S4
- NoSQL Databases – (kolonne og nøkkelverdi): Passer best som analytisk tillegg til datavarehus/database
IngenSQL løsninger
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (hierarkisk) - GT.m, Cache
- KV Store (bestilt) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Objekt Database - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store – BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variasjoner av data: Introduksjon til Data Cleaning problemer i Big Data
- RDBMS – statisk struktur/skjema, fremmer ikke smidig, utforskende miljø.
- NoSQL – semistrukturert, nok struktur til å lagre data uten eksakt skjema før lagring av data
- Problemer med datarensing
Hadoop
- Når skal du velge Hadoop?
- STRUKTURERT - Enterprise datavarehus/databaser kan lagre massive data (til en kostnad), men påtvinge struktur (ikke bra for aktiv leting)
- SEMI STRUKTURERT data – vanskelig å utføre ved bruk av tradisjonelle løsninger (DW/DB)
- Lagerdata = ENORM innsats og statisk selv etter implementering
- For variasjon og volum av data, crunched på råvaremaskinvare – HADOOP
- Vare H/W som trengs for å lage en Hadoop-klynge
Introduksjon til Map Reduce /HDFS
- MapReduce – distribuer databehandling over flere servere
- HDFS – gjør data tilgjengelig lokalt for databehandlingen (med redundans)
- Data – kan være ustrukturerte/skjemaløse (i motsetning til RDBMS)
- Utvikleransvar for å forstå data
- Programming MapReduce = arbeider med Java (fordeler/ulemper), laster data manuelt inn i HDFS
Dag 02
Big Data Økosystem -- Bygging Big Data ETL (ekstrahere, transformere, laste) -- Hvilke Big Data verktøy skal brukes og når?
- Hadoop vs. andre NoSQL løsninger
- For interaktiv, tilfeldig tilgang til data
- Hbase (kolonneorientert database) på toppen av Hadoop
- Tilfeldig tilgang til data, men begrensninger pålagt (maks 1 PB)
- Ikke bra for ad-hoc-analyse, bra for logging, telling, tidsserier
- Sqoop - Importer fra databaser til Hive eller HDFS (JDBC/ODBC-tilgang)
- Flume – Strøm data (f.eks. loggdata) inn i HDFS
Big Data Management System
- Bevegelige deler, beregningsnoder starter/feiler :ZooKeeper - For konfigurasjons-/koordinerings-/navnetjenester
- Kompleks pipeline/arbeidsflyt: Oozie – administrer arbeidsflyt, avhengigheter, seriekjede
- Distribuer, konfigurer, klyngeadministrasjon, oppgradering etc (sys admin): Ambari
- In Cloud: Whirr
Predictive Analytics -- Grunnleggende teknikker og maskinlæringsbasert Business Intelligence
- Introduksjon til Machine Learning
- Lære klassifiseringsteknikker
- Bayesian Prediction -- forbereder en treningsfil
- Støtte Vector Machine
- KNN p-Tree Algebra & vertikal gruvedrift
- Neural Networks
- Big Data stort variabelt problem -- Tilfeldig skog (RF)
- Big Data Automatiseringsproblem – Multi-modell ensemble RF
- Automatisering gjennom Soft10-M
- Tekstanalyseverktøy-Treeminer
- Agile læring
- Agentbasert læring
- Distribuert læring
- Introduksjon til åpen kildekode-verktøy for prediktiv analyse: R, Python, Rapidminer, Mahut
Predictive Analytics Økosystem og dets anvendelse i Criminal Intelligence Analysis
- Teknologi og etterforskningsprosessen
- Innsiktsanalytisk
- Visualiseringsanalyse
- Strukturert prediktiv analyse
- Ustrukturert prediktiv analyse
- Trussel-/svindelstjerne-/leverandørprofilering
- Anbefalt motor
- Mønstergjenkjenning
- Oppdagelse av regel/scenario – feil, svindel, optimalisering
- Oppdagelse av rotårsak
- Sentimentanalyse
- CRM-analyse
- Nettverksanalyse
- Tekstanalyse for å få innsikt fra utskrifter, vitneforklaringer, nettprat, etc.
- Teknologiassistert gjennomgang
- Svindelanalyse
- Sanntidsanalyse
Dag 03
Sanntid og Scalable Analytics Over Hadoop
- Hvorfor vanlige analytiske algoritmer mislykkes i Hadoop/HDFS
- Apache Hama- for Bulk Synchronous distributed computing
- Apache SPARK- for klyngedatabehandling og sanntidsanalyse
- CMU Graphics Lab2- Grafbasert asynkron tilnærming til distribuert databehandling
- KNN p -- Algebrabasert tilnærming fra Treeminer for reduserte maskinvarekostnader ved drift
Verktøy for eDiscovery og etterforskning
- eDiscovery over Big Data vs. eldre data – en sammenligning av kostnader og ytelse
- Prediktiv koding og teknologiassistert gjennomgang (TAR)
- Live demo av vMiner for å forstå hvordan TAR muliggjør raskere oppdagelse
- Raskere indeksering gjennom HDFS – Datahastighet
- NLP (Natural Language Processing) – åpen kildekode-produkter og -teknikker
- eDiscovery i fremmedspråk -- teknologi for fremmedspråksbehandling
Big Data BI for Cyber Security – Få en 360-graders visning, rask datainnsamling og trusselidentifikasjon
- Forstå det grunnleggende om sikkerhetsanalyse -- angrepsoverflate, feilkonfigurasjon av sikkerhet, vertsforsvar
- Nettverksinfrastruktur / Stor datapipe / Response ETL for sanntidsanalyse
- Preskriptiv vs prediktiv - Fast regelbasert kontra automatisk oppdagelse av trusselregler fra metadata
Innsamling av ulike data for kriminaletterretningsanalyse
- Bruke IoT (Internet of Things) som sensorer for å fange data
- Bruk av satellittbilder for innenlandsk overvåking
- Bruk av overvåkings- og bildedata for kriminell identifikasjon
- Andre datainnsamlingsteknologier -- droner, kroppskameraer, GPS-merkesystemer og termisk bildeteknologi
- Kombinere automatisert datainnhenting med data hentet fra informanter, avhør og forskning
- Forecasting kriminell virksomhet
Dag 04
Fraud prevention BI fra Big Data i Fraud Analytics
- Grunnleggende klassifisering av svindelanalyse -- regelbasert kontra prediktiv analyse
- Overvåket vs uovervåket maskinlæring for svindelmønsterdeteksjon
- Business til forretningssvindel, medisinsk skadesvindel, forsikringssvindel, skatteunndragelse og hvitvasking av penger
Social Media Analyse – Etterretningsinnhenting og analyse
- Hvordan Social Media brukes av kriminelle til å organisere, rekruttere og planlegge
- Big Data ETL API for å trekke ut sosiale mediedata
- Tekst, bilde, metadata og video
- Sentimentanalyse fra feed for sosiale medier
- Kontekstuell og ikke-kontekstuell filtrering av sosiale medier-feed
- Social Media Dashboard for å integrere ulike sosiale medier
- Automatisert profilering av sosiale medier profil
- Live demo av hver analyse vil bli gitt gjennom Treeminer Tool
Big Data Analyse innen bildebehandling og videofeeder
- Bildelagringsteknikker i Big Data -- Lagringsløsning for data som overstiger petabyte
- LTFS (Linear Tape File System) og LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) -- lagdelt lagringsløsning for store bildedata
- Grunnleggende om bildeanalyse
- Gjenkjenning av objekter
- Bildesegmentering
- Bevegelsessporing
- 3-D bilderekonstruksjon
Biometrikk, DNA og neste generasjons identifiseringsprogrammer
- Utover fingeravtrykk og ansiktsgjenkjenning
- Talegjenkjenning, tastetrykk (analyse av brukerens skrivemønster) og CODIS (kombinert DNA-indekssystem)
- Beyond DNA-matching: bruk av rettsmedisinsk DNA-fenotyping for å konstruere et ansikt fra DNA-prøver
Big Data Dashboard for rask tilgang til ulike data og visning:
- Integrasjon av eksisterende applikasjonsplattform med Big Data Dashboard
- Big Data ledelse
- Kasusstudie av Big Data Dashboard: Tableau og Pentaho
- Bruk Big Data-appen til å pushe stedsbaserte tjenester i Govt.
- Sporingssystem og styring
Dag 05
Hvordan rettferdiggjøre Big Data BI-implementering i en organisasjon:
- Definere ROI (Return on Investment) for implementering Big Data
- Kasusstudier for å spare analytikertid ved innsamling og klargjøring av data – øke produktiviteten
- Inntektsgevinst fra lavere databaselisenskostnader
- Inntektsgevinst fra lokasjonsbaserte tjenester
- Kostnadsbesparelser fra svindelforebygging
- En integrert regnearktilnærming for å beregne omtrentlige utgifter vs. inntektsgevinst/besparelser fra Big Data implementering.
Trinn for trinn prosedyre for å erstatte et eldre datasystem med et Big Data system
- Big Data Migrasjonsveikart
- Hvilken kritisk informasjon er nødvendig før man bygger et Big Data-system?
- Hva er de forskjellige måtene for å beregne volum, hastighet, variasjon og sannhet av data
- Hvordan estimere datavekst
- Kasusstudier
Gjennomgang av Big Data Leverandører og gjennomgang av deres produkter.
- Accenture
- APTEAN (tidligere CDC-programvare)
- Cisco Systemer
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi datasystemer
- Hortonverk
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Tidligere 10Gen)
- MU Sigma
- Netapp
- Opera-løsninger
- Oracle
- Pentaho
- Platfora
- Qliktech
- Kvante
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institutt
- Sisense
- Software AG/Terracotta
- Soft10 automatisering
- Splunk
- Sqrrl
- Supermikro
- Tableau Programvare
- Teradata
- Tenk Big Analytics
- Tidemark Systems
- Treeminer
- VMware (En del av EMC)
Q/A økt
Krav
- Kjennskap til rettshåndhevelsesprosesser og datasystemer
- Grunnleggende forståelse av SQL/Oracle eller relasjonsdatabase
- Grunnleggende forståelse av statistikk (på regnearknivå)
Publikum
- Rettshåndhevelsesspesialister med teknisk bakgrunn
Testimonials (1)
Deepthi var super tilpasset mine behov, hun kunne fortelle når hun skulle legge til lag med kompleksitet og når hun skulle holde tilbake og ta en mer strukturert tilnærming. Deepthi jobbet virkelig i mitt tempo og sørget for at jeg var i stand til å bruke de nye funksjonene/verktøyene selv ved først å vise og deretter la meg gjenskape elementene selv, noe som virkelig hjalp med å bygge inn treningen. Jeg kunne ikke vært mer fornøyd med resultatene av denne opplæringen og med ekspertisen til Deepthi!
Deepthi - Invest Northern Ireland
Kurs - IBM Cognos Analytics
Machine Translated