Kursplan

Introduksjon til Multimodal AI

  • Oversikt over multimodal AI og virkelige applikasjoner
  • Utfordringer med å integrere tekst-, bilde- og lyddata
  • State-of-the-art forskning og fremskritt

Databehandling og funksjonsteknikk

  • Håndtering av tekst-, bilde- og lyddatasett
  • Forbehandlingsteknikker for multimodal læring
  • Funksjonsutvinning og datafusjonsstrategier

Bygge multimodale modeller med PyTorch og Hugging Face

  • Introduksjon til PyTorch for multimodal læring
  • Bruker Hugging Face Transformers for NLP og synsoppgaver
  • Kombinere ulike modaliteter i en enhetlig AI-modell

Implementere tale, visjon og tekstfusjon

  • Integrering OpenAI Whisper for talegjenkjenning
  • Bruker DeepSeek-Vision for bildebehandling
  • Fusjonsteknikker for tverrmodal læring

Trening og optimalisering Multimodal AI modeller

  • Modell treningsstrategier for multimodal AI
  • Optimaliseringsteknikker og hyperparameterinnstilling
  • Å adressere skjevhet og forbedre modellgeneralisering

Utplassering Multimodal AI i Real-World-applikasjoner

  • Eksportere modeller for produksjonsbruk
  • Utplassering av AI-modeller på skyplattformer
  • Ytelsesovervåking og modellvedlikehold

Avanserte emner og fremtidige trender

  • Zero-shot og few-shot læring i multimodal AI
  • Etiske hensyn og ansvarlig AI-utvikling
  • Nye trender innen multimodal AI-forskning

Sammendrag og neste trinn

Krav

  • Sterk forståelse av maskinlæring og dyplæringskonsepter
  • Erfaring med AI-rammeverk som PyTorch eller TensorFlow
  • Kjennskap til tekst-, bilde- og lyddatabehandling

Publikum

  • AI-utviklere
  • Maskinlæringsingeniører
  • Forskere
 21 timer

Antall deltakere


Price per participant

Upcoming Courses

Related Categories