ARC-AGI-2가 공개되었습니다! 이번 버전에서는 ARC-AGI 1의 1000개 task (train 400 + eval 400 + hidden test 200)를 전부 학습 데이터로 제공했고, 새로운 Eval set 360개가 추가로 공개되었습니다. 이 중 120개는 공개되어 즉시 모델 평가가 가능하고, 나머지 240개(120+120)는 Kaggle 컴페티션 운영 및 결산 용도로 활용된다고 합니다.

📌 공식 발표 블로그

📊 Leaderboard 보기

🧩 (O2ARC) Eval set 체험해보기: 곧 업데이트 예정

🧩 (ARCPRIZE) Eval set 체험해보기

🎥 Machine Learning Street Talk (Chollet & Ellis & Tavares)

주최측이 기존 TTT 기반 모델들과 상용 LLM을 ARC-AGI-2 eval set에 평가해 본 결과, ARC-AGI-1보다 성능이 크게 하락했습니다. 이는 LLM의 compositional generalization 능력이 여전히 사람에 비해 부족하다는 점을 다시금 보여줍니다.

ARC-AGI-1에서 test-time computing + data augmentation등 엔지니어링 기법을 바탕으로 Top-performer는 인간 성능에 가까운 55%수준의 모델을 달성할 수 있었지만, 30x30 그리드에 담을 수 있는 창의성 및 잠재력은 그 이상이라는 것을 주최측이 강조한 것으로 보입니다.


예상되는 커뮤니티 흐름

ARC-AGI-2 수준에 맞는 데이터 증강 및 curriculum 구성으로 BARC-v2와 같은 시도들이 등장할 것이며, 기존 LLM/VLM (예: Architect)의 checkpoint를 기반으로 fine-tuning한 결과들이 빠르게 공유될 것입니다. HuggingFace나 Colab을 통해 관련 리소스가 몇 주 내에 등장할 것으로 기대됩니다.

그러나 이러한 접근은 ARC-AGI-2는 어느 정도 해결하더라도, 이후 등장할 ARC-AGI-3의 본질적 문제를 건드리지 못할 가능성이 높습니다.


우리가 나아갈 방향

벤치마크가 업데이트되어도 지속 가능한 연구 방향을 설정하는 것이 중요합니다. 현재 우리 연구실에서 진행 중인 다음의 주제들은 향후에도 충분히 유효하다 생각합니다:

  • 프로그램 합성 기반 접근
  • 스킬 탐색 및 라이브러리 빌딩
  • 사람의 풀이 전략을 반영한 베이지안 추론
  • Low-level primitive를 이해하는 월드 모델 설계 후 이를 활용한 전략 수립
  • Action-based reward shaping 및 planning 기반의 문제 해결

특히, ARC-AGI-2의 문제 난이도를 고려할 때, 커리큘럼 러닝 / 지속 학습 / 지식 증류 관점에서의 연구도 매우 유망해 보입니다. 이후 ARC-AGI-3에도 충분히 대응 가능한 연구 주제를 찾아야 할 것입니다.


To-do

벤치마크가 새로 등장하고, 커뮤니티가 반응하는 지금 할 만한 일을 고민해 볼 수 있습니다.

1) 손이 빠른 학생들에게: 단기 개발을 통해 커뮤니티에 기여할 수 있는 기회가 많습니다. 예를 들어:

  • 1120개 공개 데이터셋을 쉽게 탐색/시각화할 수 있도록 O2ARC 웹사이트 업데이트
  • 1000개 학습 데이터 + 공개 eval set 120개에 대한 모범 풀이 데이터 수집 및 H-ARC과 같은 분석
  • 레벨별 curriculum을 구성해 ARC-AGI-2 kaggle competition 대응을 위한 학습 및 평가 프레임워크 마련

2) 연구 논문 작성을 위해 주제를 잡고 나아가는 학생들에게: 여러분들도 지금 하고 있는 연구의 방향성이 장기적으로도 의미 있는지 고민해보면 좋겠습니다. 넓은 시야를 가지고, 다가올 변화 속에서도 유효한 핵심을 놓치지 않도록 합시다.

우리의 관점에서 본 ARC-AGI-2의 의미

ARC-AGI-2의 등장은 단순한 벤치마크의 업데이트가 아닙니다. 이는 ARC-AGI-1을 통해 AGI를 실현하지 못했다는 평가와, 기존 접근 방식의 한계에 대한 반성에서 비롯된 방향 전환이라 볼 수 있습니다.

ARC-AGI-1의 궁극적인 목표는 AGI를 달성하는 것이었지만, 상위권 모델 대부분은 LLM을 과도하게 활용하며 높은 비용의 계산 자원에 의존한 방식이었습니다. 예를 들어, TTT는 강력한 augmentation 기법을 통해 test-time에 LLM을 반복 호출함으로써 높은 성능을 달성했으나, 이는 근본적으로 “지능”이라기보다는 data interpolation의 극대화였습니다.

주최측은 이러한 방식이 AGI의 본질에 부합하지 않는다고 판단했습니다. 결과적으로, ARC-AGI-2에서는 문제의 복잡도를 높이고, 단순한 pretrain된 지식을 반복 호출하는 방식으로는 해결할 수 없는 새로운 문제들을 포함시켰습니다. 또한 향후 평가 방식에도 지식 습득의 비용(예: 모델 크기, 학습/추론 시간, 금전적 자원 등)이 반영될 가능성이 크며, 이는 Chollet이 정의한 지능의 본질인 적은 자원으로 새로운 문제를 일반화하는 능력에 더 가까운 방향입니다.


연구실 전략

우리 연구실은 대규모 자원과 정교한 엔지니어링을 통해 leaderboard를 경쟁하는 연구실은 아닐 수 있습니다. 오히려 우리는 개념적 기여(conceptual contribution)와 프레임워크의 참신함(novel frameworks)에 강점이 있는 연구실이라 생각하며, 이러한 방향의 연구를 통해 AGI의 본질에 다가가고자 합니다.

다행히도 ARC Prize 주최측 역시 이러한 연구를 적극 환영하고 있으며, 올해 ARC Prize 2025 Paper Award의 주요 심사 기준도 기술적 성능뿐 아니라 아이디어의 새로움과 일반화 가능성에 초점을 맞출 것으로 보입니다.

우리 연구실의 전략은 명확합니다:

  • ARC-AGI-2에서 일정 수준 이상의 성능을 확보하여 실용적인 기반을 다진 후,
  • 문제 해결 방식에서 인간의 인지 전략을 반영하는 새로운 접근을 제시하여
  • Paper Award에 도전하는 것

즉, 단순한 성능 비교에서 벗어나, 지능을 어떻게 구성할 것인가에 대한 철학적이면서도 실질적인 프레임워크를 제안할 수 있어야 합니다.


이번 주 금요일 (3/25)에는 학과 오픈랩 행사가 있어 ARC Coffee chat 시간 (금요일 오후 1시)에 TED-Hall은 사용이 어렵지만, 같은 시간에 2층 연구실에서 삼삼오오 모여 자유롭게 이야기 나누면 좋겠습니다. 참석 전 위에 공지한 링크들을 살펴봐 주시기 바랍니다.