1. DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation - 동적 객체 조작 문제를 다루기 위한 컴팩트한 비전-언어-행동 모델을 소개합니다. - 새로운 벤치마크를 통해 적시적응이 가능하고 시간적 추론을 지원합니다. [자세히 보기](https://arxiv.org/abs/2601.22153)2. MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods - 대규모 멀티모달 추론 데이터셋 MMFineReason를 소개하여 비전-언어 모델의 성능을 개선합니다. - 하이 퀄리티 추론 주석을 통해 파라미터 효율성을 보여줍니다...