Kursplan

Dag 01

Oversikt over Big Data Business Intelligence for Criminal Intelligence Analysis

  • Saksstudier fra rettshåndhevelse – prediktivt politiarbeid
  • Big Data adopsjonsrate i rettshåndhevelsesbyråer og hvordan de justerer sin fremtidige drift rundt Big Data Predictive Analytics
  • Nye teknologiløsninger som skuddsensorer, overvåkingsvideo og sosiale medier
  • Bruke Big Data teknologi for å redusere informasjonsoverbelastning
  • Grensesnitt Big Data med eldre data
  • Grunnleggende forståelse av muliggjørende teknologier i prediktiv analyse
  • Data Integration & Dashboardvisualisering
  • Svindelhåndtering
  • Business Rules og svindeloppdagelse
  • Trusseldeteksjon og profilering
  • Nyttekostnadsanalyse for Big Data implementering

Introduksjon til Big Data

  • Hovedkarakteristika for Big Data -- Volum, Variety, Velocity og Veracity.
  • MPP (Massively Parallel Processing) arkitektur
  • Data Warehouses – statisk skjema, datasett i sakte utvikling
  • MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Hadoop Baserte løsninger – ingen betingelser for strukturen til datasettet.
  • Typisk mønster: HDFS, MapReduce (crunch), hente fra HDFS
  • Apache Spark for strømbehandling
  • Batch-egnet for analytisk/ikke-interaktiv
  • Volum: CEP-strømmedata
  • Typiske valg – CEP-produkter (f.eks. Infostreams, Apama, MarkLogic osv.)
  • Mindre produksjonsklar – Storm/S4
  • NoSQL Databases – (kolonne og nøkkelverdi): Passer best som analytisk tillegg til datavarehus/database

IngenSQL løsninger

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (hierarkisk) - GT.m, Cache
  • KV Store (bestilt) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Objekt Database - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store – BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variasjoner av data: Introduksjon til Data Cleaning problemer i Big Data

  • RDBMS – statisk struktur/skjema, fremmer ikke smidig, utforskende miljø.
  • NoSQL – semistrukturert, nok struktur til å lagre data uten eksakt skjema før lagring av data
  • Problemer med datarensing

Hadoop

  • Når skal du velge Hadoop?
  • STRUKTURERT - Enterprise datavarehus/databaser kan lagre massive data (til en kostnad), men påtvinge struktur (ikke bra for aktiv leting)
  • SEMI STRUKTURERT data – vanskelig å utføre ved bruk av tradisjonelle løsninger (DW/DB)
  • Lagerdata = ENORM innsats og statisk selv etter implementering
  • For variasjon og volum av data, crunched på råvaremaskinvare – HADOOP
  • Vare H/W som trengs for å lage en Hadoop-klynge

Introduksjon til Map Reduce /HDFS

  • MapReduce – distribuer databehandling over flere servere
  • HDFS – gjør data tilgjengelig lokalt for databehandlingen (med redundans)
  • Data – kan være ustrukturerte/skjemaløse (i motsetning til RDBMS)
  • Utvikleransvar for å forstå data
  • Programming MapReduce = arbeider med Java (fordeler/ulemper), laster data manuelt inn i HDFS

Dag 02

Big Data Økosystem -- Bygging Big Data ETL (ekstrahere, transformere, laste) -- Hvilke Big Data verktøy skal brukes og når?

  • Hadoop vs. andre NoSQL løsninger
  • For interaktiv, tilfeldig tilgang til data
  • Hbase (kolonneorientert database) på toppen av Hadoop
  • Tilfeldig tilgang til data, men begrensninger pålagt (maks 1 PB)
  • Ikke bra for ad-hoc-analyse, bra for logging, telling, tidsserier
  • Sqoop - Importer fra databaser til Hive eller HDFS (JDBC/ODBC-tilgang)
  • Flume – Strøm data (f.eks. loggdata) inn i HDFS

Big Data Management System

  • Bevegelige deler, beregningsnoder starter/feiler :ZooKeeper - For konfigurasjons-/koordinerings-/navnetjenester
  • Kompleks pipeline/arbeidsflyt: Oozie – administrer arbeidsflyt, avhengigheter, seriekjede
  • Distribuer, konfigurer, klyngeadministrasjon, oppgradering etc (sys admin): Ambari
  • In Cloud: Whirr

Predictive Analytics -- Grunnleggende teknikker og maskinlæringsbasert Business Intelligence

  • Introduksjon til Machine Learning
  • Lære klassifiseringsteknikker
  • Bayesian Prediction -- forbereder en treningsfil
  • Støtte Vector Machine
  • KNN p-Tree Algebra & vertikal gruvedrift
  • Neural Networks
  • Big Data stort variabelt problem -- Tilfeldig skog (RF)
  • Big Data Automatiseringsproblem – Multi-modell ensemble RF
  • Automatisering gjennom Soft10-M
  • Tekstanalyseverktøy-Treeminer
  • Agile læring
  • Agentbasert læring
  • Distribuert læring
  • Introduksjon til åpen kildekode-verktøy for prediktiv analyse: R, Python, Rapidminer, Mahut

Predictive Analytics Økosystem og dets anvendelse i Criminal Intelligence Analysis

  • Teknologi og etterforskningsprosessen
  • Innsiktsanalytisk
  • Visualiseringsanalyse
  • Strukturert prediktiv analyse
  • Ustrukturert prediktiv analyse
  • Trussel-/svindelstjerne-/leverandørprofilering
  • Anbefalt motor
  • Mønstergjenkjenning
  • Oppdagelse av regel/scenario – feil, svindel, optimalisering
  • Oppdagelse av rotårsak
  • Sentimentanalyse
  • CRM-analyse
  • Nettverksanalyse
  • Tekstanalyse for å få innsikt fra utskrifter, vitneforklaringer, nettprat, etc.
  • Teknologiassistert gjennomgang
  • Svindelanalyse
  • Sanntidsanalyse

Dag 03

Sanntid og Scalable Analytics Over Hadoop

  • Hvorfor vanlige analytiske algoritmer mislykkes i Hadoop/HDFS
  • Apache Hama- for Bulk Synchronous distributed computing
  • Apache SPARK- for klyngedatabehandling og sanntidsanalyse
  • CMU Graphics Lab2- Grafbasert asynkron tilnærming til distribuert databehandling
  • KNN p -- Algebrabasert tilnærming fra Treeminer for reduserte maskinvarekostnader ved drift

Verktøy for eDiscovery og etterforskning

  • eDiscovery over Big Data vs. eldre data – en sammenligning av kostnader og ytelse
  • Prediktiv koding og teknologiassistert gjennomgang (TAR)
  • Live demo av vMiner for å forstå hvordan TAR muliggjør raskere oppdagelse
  • Raskere indeksering gjennom HDFS – Datahastighet
  • NLP (Natural Language Processing) – åpen kildekode-produkter og -teknikker
  • eDiscovery i fremmedspråk -- teknologi for fremmedspråksbehandling

Big Data BI for Cyber Security – Få en 360-graders visning, rask datainnsamling og trusselidentifikasjon

  • Forstå det grunnleggende om sikkerhetsanalyse -- angrepsoverflate, feilkonfigurasjon av sikkerhet, vertsforsvar
  • Nettverksinfrastruktur / Stor datapipe / Response ETL for sanntidsanalyse
  • Preskriptiv vs prediktiv - Fast regelbasert kontra automatisk oppdagelse av trusselregler fra metadata

Innsamling av ulike data for kriminaletterretningsanalyse

  • Bruke IoT (Internet of Things) som sensorer for å fange data
  • Bruk av satellittbilder for innenlandsk overvåking
  • Bruk av overvåkings- og bildedata for kriminell identifikasjon
  • Andre datainnsamlingsteknologier -- droner, kroppskameraer, GPS-merkesystemer og termisk bildeteknologi
  • Kombinere automatisert datainnhenting med data hentet fra informanter, avhør og forskning
  • Forecasting kriminell virksomhet

Dag 04

Fraud prevention BI fra Big Data i Fraud Analytics

  • Grunnleggende klassifisering av svindelanalyse -- regelbasert kontra prediktiv analyse
  • Overvåket vs uovervåket maskinlæring for svindelmønsterdeteksjon
  • Business til forretningssvindel, medisinsk skadesvindel, forsikringssvindel, skatteunndragelse og hvitvasking av penger

Social Media Analyse – Etterretningsinnhenting og analyse

  • Hvordan Social Media brukes av kriminelle til å organisere, rekruttere og planlegge
  • Big Data ETL API for å trekke ut sosiale mediedata
  • Tekst, bilde, metadata og video
  • Sentimentanalyse fra feed for sosiale medier
  • Kontekstuell og ikke-kontekstuell filtrering av sosiale medier-feed
  • Social Media Dashboard for å integrere ulike sosiale medier
  • Automatisert profilering av sosiale medier profil
  • Live demo av hver analyse vil bli gitt gjennom Treeminer Tool

Big Data Analyse innen bildebehandling og videofeeder

  • Bildelagringsteknikker i Big Data -- Lagringsløsning for data som overstiger petabyte
  • LTFS (Linear Tape File System) og LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) -- lagdelt lagringsløsning for store bildedata
  • Grunnleggende om bildeanalyse
  • Gjenkjenning av objekter
  • Bildesegmentering
  • Bevegelsessporing
  • 3-D bilderekonstruksjon

Biometrikk, DNA og neste generasjons identifiseringsprogrammer

  • Utover fingeravtrykk og ansiktsgjenkjenning
  • Talegjenkjenning, tastetrykk (analyse av brukerens skrivemønster) og CODIS (kombinert DNA-indekssystem)
  • Beyond DNA-matching: bruk av rettsmedisinsk DNA-fenotyping for å konstruere et ansikt fra DNA-prøver

Big Data Dashboard for rask tilgang til ulike data og visning:

  • Integrasjon av eksisterende applikasjonsplattform med Big Data Dashboard
  • Big Data ledelse
  • Kasusstudie av Big Data Dashboard: Tableau og Pentaho
  • Bruk Big Data-appen til å pushe stedsbaserte tjenester i Govt.
  • Sporingssystem og styring

Dag 05

Hvordan rettferdiggjøre Big Data BI-implementering i en organisasjon:

  • Definere ROI (Return on Investment) for implementering Big Data
  • Kasusstudier for å spare analytikertid ved innsamling og klargjøring av data – øke produktiviteten
  • Inntektsgevinst fra lavere databaselisenskostnader
  • Inntektsgevinst fra lokasjonsbaserte tjenester
  • Kostnadsbesparelser fra svindelforebygging
  • En integrert regnearktilnærming for å beregne omtrentlige utgifter vs. inntektsgevinst/besparelser fra Big Data implementering.

Trinn for trinn prosedyre for å erstatte et eldre datasystem med et Big Data system

  • Big Data Migrasjonsveikart
  • Hvilken kritisk informasjon er nødvendig før man bygger et Big Data-system?
  • Hva er de forskjellige måtene for å beregne volum, hastighet, variasjon og sannhet av data
  • Hvordan estimere datavekst
  • Kasusstudier

Gjennomgang av Big Data Leverandører og gjennomgang av deres produkter.

  • Accenture
  • APTEAN (tidligere CDC-programvare)
  • Cisco Systemer
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi datasystemer
  • Hortonverk
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Tidligere 10Gen)
  • MU Sigma
  • Netapp
  • Opera-løsninger
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Kvante
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institutt
  • Sisense
  • Software AG/Terracotta
  • Soft10 automatisering
  • Splunk
  • Sqrrl
  • Supermikro
  • Tableau Programvare
  • Teradata
  • Tenk Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (En del av EMC)

Q/A økt

Krav

  • Kjennskap til rettshåndhevelsesprosesser og datasystemer
  • Grunnleggende forståelse av SQL/Oracle eller relasjonsdatabase
  • Grunnleggende forståelse av statistikk (på regnearknivå)

Publikum

  • Rettshåndhevelsesspesialister med teknisk bakgrunn
 35 timer

Antall deltakere


Price per participant

Testimonials (1)

Upcoming Courses

Related Categories