Följande är en 3-4 meningars sammanfattning av nyhetsartikeln: Vision Language Models (VLM) har utvecklats enormt det senaste året med nya arkitekturer, förmågor och paradigm. Vi har sett framväxten av "any-to-any"-modeller, resoneringsmodeller, små men kraftfulla modeller samt modeller med Mixture-of-Experts-dekodrar. Dessutom har VLM:er nu specialiserade förmågor som objektdetektion, segmentering och räkning, och nya typer av modeller som säkerhetsmodeller, hämtningsförstärkta modeller och videospråkmodeller har introducerats. Nya benchmarks som MMT-Bench och MMMU-Pro har också utvecklats för att bättre utvärdera VLM:ers breda kapacitet.