Sammanfattning av nyhetsartikeln: I den här artikeln implementerades KV-cachelagring från grunden i nanoVLM-databasen, vilket resulterade i en 38% snabbare generering. KV-cachelagring är en optimeringsteknik som eliminerar onödig omberäkning av nyckel- och värdevektorer under autoregressiv texttillverkning. Genom att cachelagra beräknade nyckel- och värdevektorer och bara beräkna dem för det nya tecknet kan transformermodellen effektivt generera längre utdata utan onödig redundans. Implementeringen i nanoVLM involverade uppdateringar i uppmärksamhetsblocket, spårning av cache mellan lager och separation av förifyllnings- och avkodningsfaserna under genereringen. Denna teknik möjliggör inkrementell tillväxt av cachen och positionsmedveten avkodning samtidigt som den förbättrar effektiviteten avsevärt, särskilt för längre sekvenser.