Genom att co-lokalisera vLLM med GRPO-träning möjliggörs betydande effektivitetsvinster vid träning av stora språkmodeller, inklusive modeller så stora som Qwen2.5-72B. Traditionellt har TRL endast stött vLLM i serverläge, vilket krävde separata processer och GPU:er för inferens, vilket ledde till outnyttjad beräkningskraft och inaktiv tid. Med introduktionen av vLLM:s externa launcher och co-lokaliseringen i TRL PR #3394 kan vi nu köra träning och inferens inom samma distribuerade processgruppp, på samma GPU:er, med fullt stöd för TP, DP och Accelerate. Detta minskar inaktiv tid, eliminerar interprocess-kommunikation och levererar högre genomströmning utan att öka maskinvarukraven.