YouTube beskriver en løsning der sanntids effekter kjører på mobiler ved hjelp av kunstlig intelligens (KI) og on-device-optimering med MediaPipe. En stor lærer-modell danner grunnlaget; en mindre student-modell kjører i telefonen med en UNet-arkitektur og MobileNet-encoder. Gjennom distillasjon genereres tusenvis av før/etter-bilder fra et kurert datasett, og trenes med L1, LPIPS og adversarial-tap for å bevare detaljer og identitet. Over 20 effekter er lansert for Shorts.
Datainnhentingen inkluderer lisensierte bilder og vurdering av mangfold via Monk Skin Tone Scale. En viktig del er inversion og pivotal tuning inversion (PTI) for å bevare identitet når effekten manipulerer hele rammen. Infrastrukturen kjører i MediaPipe Face Mesh for ansiktsdeteksjon, og pipeline beregner et stabilt, rotert ansiktskutt for konsistens. Dette er AI-nyheter.
Kilde: https://research.google/blog/from-massive-models-to-mobile-magic-the-tech-behind-youtube-real-time-generative-ai-effects/ | Sammendraget er KI-generert med OpenAI API av Ainy.no