Kursplan

Introduksjon til Multi-Modal AI

  • Hva er multimodal AI?
  • Sentrale utfordringer og applikasjoner
  • Oversikt over ledende multimodale modeller

Tekstbehandling og naturlig språkforståelse

  • Utnytte LLM-er for tekstbaserte AI-agenter
  • Forstå prompt engineering for multimodale oppgaver
  • Finjustere tekstmodeller for domenespesifikke applikasjoner

Bildegjenkjenning og generering

  • Behandling av bilder med AI: klassifisering, bildetekst og objektgjenkjenning
  • Generer bilder med diffusjonsmodeller (Stable Diffusion, DALLE)
  • Integrering av bildedata med tekstbaserte modeller

Tale- og lydbehandling

  • Talegjenkjenning med Whisper ASR
  • Tekst-til-tale (TTS) synteseteknikker
  • Forbedrer brukerinteraksjon med stemmebasert AI

Integrering av multimodale innganger

  • Bygge AI-rørledninger for behandling av flere inputtyper
  • Fusjonsteknikker for å kombinere tekst-, bilde- og taledata
  • Virkelige applikasjoner av multimodale AI-agenter

Utplassering av multimodal AI Agents

  • Bygge API-drevne multimodale AI-løsninger
  • Optimalisering av modeller for ytelse og skalerbarhet
  • Beste praksis for distribusjon av multimodal AI i produksjon

Etiske vurderinger og fremtidige trender

  • Bias og rettferdighet i multimodal AI
  • Personvernhensyn med multimodale data
  • Fremtidig utvikling innen multimodal AI

Sammendrag og neste trinn

Krav

  • En forståelse av grunnleggende maskinlæring
  • Erfaring med Python programmering
  • Kjennskap til rammeverk for dyp læring (f.eks. TensorFlow, PyTorch)

Publikum

  • AI-utviklere
  • Forskere
  • Multimediaingeniører
 21 timer

Antall deltakere


Price per participant

Upcoming Courses

Related Categories