Forskere presenterer LLM-JEPA, en treningsmetode som kombinerer JEPA med standard neste-token-prediksjon for store språkmodeller.
I en ny studie fra forskere ved Atlassian, New York University og Brown University — med medforfatter Yann LeCun — beskrives hvordan LLM-JEPA bevarer den autoregressive neste-token-prediksjonsmålet samtidig som en JEPA‑objektiv legges til for å lære abstrakte representasjoner. JEPA lærer i latentrom framfor å rekonstruere alle detaljer, noe som tidligere har vist parametereffektivitet. Forskerne fine‑tuned og pre‑traint modeller fra Llama3, Gemma2, OpenELM og Olmo på datasett som NL-RX, GSM8K og Spider, og rapporterer konsekvente forbedringer i både finjustering og pretraining. Tidlige resultater viser bedre treningseffektivitet og robusthet mot overtilpasning, men metoden krever om lag tredobbel beregningskostnad under trening; dette påvirker ikke inferenshastighet. Dette er et bidrag innen kunstlig intelligens (KI) som forsøker å forene generative og prediktive tilnærminger.
Relevans for Norge: norske utviklere og forskningsmiljøer som bruker LLM-er følger slike utviklinger, ettersom metoden adresserer både generative evner og representasjonslæring — tema som nå dominerer mange AI-nyheter.
Kilde: https://bdtechtalks.com/2025/09/29/llm-jepa | Sammendraget er KI-generert med OpenAI API av Ainy.no