SmolVLA: Efficient Vision-Language-Action Model trained on Lerobot Community Data

2025-06-041 minute read
Article image

SmolVLA är en kompakt (450M), open source Vision-Language-Action-modell för robotik som kan köras på konsumenthardvara. Den är förtränad enbart på kompatibla, licensierade, open source community-delade dataset under lerobot-taggen. SmolVLA-450M överträffar mycket större VLA-modeller och starka baslinjer som ACT på simulering (LIBERO, Meta-World) och verkliga uppgifter (SO100, SO101). Den stöder asynkron inferens för 30% snabbare svarstid och dubbel uppgiftsgenomströmning.