인공지능(AI) 및 생성형 인공지능/AI 이슈 및 동향

2월 3일 AI 주요 논문

최술사 2026. 2. 6. 15:25

1. FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents
   - 파일 시스템 기반의 이중 에이전트 프레임워크는 지속적인 저장소를 외부 메모리로 활용하여 대규모 언어 모델 에이전트가 컨텍스트 윈도우 한계를 넘어 연구 작업을 수행할 수 있도록 합니다.
   - [자세히 보기](https://arxiv.org/abs/2602.01566)

2. WildGraphBench: Benchmarking GraphRAG with Wild-Source Corpora
   - WildGraphBench는 위키피디아의 구조화된 콘텐츠를 사용하여 다양한 문서 유형에 대한 다중 사실 집계 및 요약 기능을 평가합니다.
   - [자세히 보기](https://arxiv.org/abs/2602.02053)

3. PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards
   - PISCES는 인간의 선호 주석 없이 시각적 품질과 의미적 정렬을 개선하기 위해 이중 최적 수송 정렬 보상을 사용하는 주석 없는 텍스트-비디오 생성 방법을 제시합니다.
   - [자세히 보기](https://arxiv.org/abs/2602.01624)

4. Closing the Loop: Universal Repository Representation with RPG-Encoder
   - RPG-Encoder 프레임워크는 코드 인코딩을 통해 레포지토리 이해 및 생성을 통합된 사이클로 변환하여 이해 및 재구성 정확성을 향상시킵니다.
   - [자세히 보기](https://arxiv.org/abs/2602.02084)

5. Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles
   - 딥 리서치 에이전트는 자율 정보 검색 기능을 시연하지만, 전문가 수준의 위키피디아 기사에 대한 새로운 라이브 벤치마크에서 평가할 때 상당한 격차를 보입니다.
   - [자세히 보기](https://arxiv.org/abs/2602.01590)

6. RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System
   - RLAnything은 동적 모델 최적화와 폐쇄 루프 피드백 메커니즘을 통해 정책 및 보상 모델 훈련을 개선하여 LLM 및 에이전트의 강화 학습을 향상시킵니다.
   - [자세히 보기](https://arxiv.org/abs/2602.02488)

7. How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing
   - VIBE는 생성 모델의 시각적 지시 따르기 능력을 평가하기 위한 세 가지 상호작용 계층 구조를 소개합니다.
   - [자세히 보기](https://arxiv.org/abs/2602.01851)

8. Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models
   - Vision-DeepResearch 벤치마크는 다중 모달 모델의 시각-텍스트 검색 능력을 평가하는 데 한계를 해결하고 있습니다.
   - [자세히 보기](https://arxiv.org/abs/2602.02185)

9. Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars
   - InteractAvatar라는 이중 스트림 프레임워크를 통해 말하는 아바타가 환경 내 물체와 상호 작용할 수 있도록 생성하며, 분리된 인식 및 계획 모듈을 통해 인간-객체 상호작용의 문제를 해결합니다.
   - [자세히 보기](https://arxiv.org/abs/2602.01538)

10. Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models
    - Vision-DeepResearch는 다중 모달 심층 연구 패러다임을 도입하여 다중 턴, 다중 엔티티 및 다중 스케일 시각 및 텍스트 검색을 가능하게 합니다.
    - [자세히 보기](https://arxiv.org/abs/2601.22060)