Research Direction

Introduction

(작성 중)

하고 싶은 이야기 원본

연구실의 Research Direction을 이야기하고자 한다. ARC-AGI-3 및 open-endedness와 관련된 디렉션임. 다양한 문제를 순차적으로 잘 풀어낼 수 있는 에이전트를 만들려면, 어떤 것들을 고민해야 할까? 일단 알다시피 ARC-AGI-3은 게임 형태의 Interactive benchmark로, 하나의 게임은 여러 개의 스테이지를 가지고 있으며, 각각의 스테이지마다 새로운 기믹이 추가된다.

일단 하나의 문제를 해결할 수 있다는 것은, 그 문제가 담고 있는 개념들을 코드로 짜 낼 수 있다는 것을 뜻한다. (코드로 구현하는 것이 익숙하지 않은 인간의 경우에는 적어도 말로 할 수 있어야겠지). 일단 하나의 문제가 담고 있는 범위 내에서 예상치 못한 기믹이 추가되어도 문제를 해결할 수 있으려면, 현재 내가 가지고 있는 코드가 최대한 일반화 가능한 코드여야 할 것이다. 기본적인 솔루션을 하드코딩하여 만들어 놓는다고 하더라도, 최대한 하드코딩 되어 있는 컴포넌트를 줄여야지 오브젝트의 변화에 쉽게 대응할 수 있을 것이다. 일례로, ARC-AGI-3의 LS20 문제에서 컨트롤해야 하는 대상 객체가 항상 2x2 크기가 아니고, 3x3이 될 수도 있고, 모양은 같은데 색깔이 바뀌어 있을 수도 있다. 현 게임에는 존재하지 않지만, (일례로, 석기 학생의 경우에는 문제의 특징을 Hierarchical Knowledge Graph 형태의 지식 그래프로 담은 뒤에, generalizable한 컴포넌트를 anti-unification하려고 시도하고 있다.)

그렇다면 한 문제(Task or Game)를 해결하는 솔루션을 하드코딩한 후 다른 문제에 전이하는 방법은 어떨까?

일단 Laura 박사님/박성수 학생이 찾아보고 있는 디렉션: 하나의 ARC-AGI-3 Task을 해결하는 하드코딩 솔루션을 손으로 작성한 후 frontier language model을 활용하여 새로운 Task로 전이를 시도해본다. 전이를 하는 과정에서, 유사한 아케이드 게임들을 해결한 코드 베이스나, 공개된 물리 엔진 코드 등을 재료로 활용하는 RAG 시스템을 만들어 보는 등의 시도를 할 수 있을 거라 기대한다. 일련의 작업은 budget constraint (e.g., Claude Code Max: 1달에 220달러) 안에서 수행하며, 인간 피험자가 문제를 푸는 데 필요한 action count에 비견하는 모델을 만드는 것을 목표로 하고 있다. 이와 연계해서 frontier language 모델 대신 Qwen 같은 조금 덜 powerful한 로컬 모델을 활용하여 같은 수준의 전이를 시키기 위해서는 로컬 모델의 어떤 부분을 개선해야 하는지 탐구해 볼 수 있을 것이다. => 3월 23일 현재, LS20 모델을 해결하는 코드를
석기 학생은 ARC-AGI-1/2를 바라보는 하나의 unified framework을 바라보고 있으며, inter-task => intra-task => inter-pair => intra-pair => inter-grid => intra-grid => inter-object => intra-object => inter-pixel => intra-pixel 순서대로 분석해가며 commonality and differences를 자체 DSL를 활용하여 분석해가며 Hierarchical한 comparison receipt를 작성한 결과를 바탕으로 program induction을 수행하는 것을 목표로 한다. 재밌는 부분은 inter-pair의 레벨에서도, grid-level, object-level, pixel-level analysis 순서로 상세 분석이 가능하다는 점이다. 제안하고 있는 하나의 프레임워크가 어떤 문제를 풀어야 하는지에 따라 어떤 레벨까지 파고들어서 comparison receipt를 뽑아내게 할지 관건이며, 어떤 순서대로 분석을 수행할 지 결정을 해야 할 것 같다(inter-pair에서 grid-level을 본 뒤에 object-level까지 본 다음에 intra-pair를 볼 것인지? 혹은 inter-pair grid level만 본 뒤에 intra-pair 안에서의 분석을 할 것인지 등을 결정해야 한다는 것). 1) 사람이 이렇게 문제를 다층으로 바라보며 해결하는 지, 혹은 SOAR와 같은 (AI) cognitive archiecture가 그런 점을 다루고 있는지 알아보아야 할 것이며, 2) Comparison receipt를 이용하여 Program induction을 수행하는 synthesizer가 구현이 빠르게 되어서 전체 파이프라인의 성능을 확인해 보아야 할 것이며, 3) Analysis order estimator, Budget allocator, comparison receipt generator (each level), program synthesizer 등의 롤을 기술한 뒤 각각을 Agent로 구현하여, 상호 대화를 통해 문제를 풀어나가는 agentic-framework 형태로 구현에 속도를 내 볼 수 있을 것 같다는 생각이 든다.
현석 학생은 넓은 시야를 바탕으로, 우리의 direction을 멀리서 돌아 따라오는 과정에서 자기만의 문제를 정의해 가고 있는데, 다음곽 ㅏㅌ음. (ARC-AGI-3와 같은 문제를 해결하기 위해서는 ‘동사’, ‘움직임’에 대한 이해가 필요하다고 생각하였음 -> 현존하는 트랜스포머 기반의 모델로 방대한 양의 비디오를 학습하는 방식으로 해결할 수도 있지만, 좀더 computationally efficient하게 ‘움직임’을 학습하는 방식이 무엇일까 알아보다가 event camera란 도메인을 접하게 되었음. event camera는 특정 영역이 변화량이 threshold 이상일 때를 캐치하는 디바이스로, event camera에서 수집되는 데이터를 좀더 압축하여 저장하기 위해 voxelization을 수행할 수 있다고 함. 다만 voxelization을 하는 과정에서 정보 손실이 불가피하다 (3D 매니폴드를 2D 매니폴드로 차원을 낮추는 것부터). 일반적으로 빛이 일정한 가운데 물체가 움직임에 따라서, 빛의 변화량의 변하게 되는데 이 정보는 주파수 도메인에서도 파악할 수 있다고 함. 에너지 도메인(?)에서 모든 걸 설명할 수 있다고 했던 것 같은데 정확히 이해를 하지 못하였음.
이승필 학생은 우여곡절 끝에 상해에 있는 MSRA로 파견을 갔고, Xufang의 지도 하에 agent-lightning의 RL기반 학습 방법을 skill을 통해 좀더 고도화하는 법을 연구하게 될 것임. 우왕좌왕하면서도 하던 속도가 있는 학생인만큼 굉장히 빠르게 연구를 수행해 나갈 것이라 생각함. 박사과정 어드미션을 받게 될 경우 2026년 가을에 유학을 가게 될 것으로 보이며, 그렇지 않은 경우 석박연계를 제안해 볼 생각임. 이미 랩에서 어느 정도 증명을 해온 만큼, 박사 과정까지 하게 되면, 인턴십을 하거나 파견 공동 연구의 선봉장을 설 수 있는 기회를 최대한 만들어 주고자 함. 연구실에 있는 동안 벌렸던 프로젝트들을 확실히 주워담기 위해서는 팀원들의 페이스가 중요한데, 중국에 있는 동안 어떻게 리더십을 보여줄 수 있을 지 관건. (신동현) Gambling addiction 논문의 경우, 신동현 졸업생이 마무리 실험을 얼마나 짬을 내서 어떻게 하느냐에 따라, 논문 제출 시기가 바뀔 거라 보임. 이미 viral을 탔던 article인 만큼 Nature Machine Intelligence에 제출을 해 보자고 말을 꺼내두었으나, 신동현 학생의 현재 priority는 논문 완성은 아닌 것으로 생각됨. (김희준) MemGen과 LTPO를 활용하여 GSM8k, ARC-AGI 등을 해결해 보려던 연구는 김희준 학부생이 얼마나 끈기이게 이어가느냐에 따라 논문 제출 가능 여부 및 MSRA 과제의 지속 가능성이 달라질 거라 보임. (박주현) 새롭게 조인한 박주현 학부생은 팀 미팅을 통해 생각보다 빠르게 실험까지 진행하고 있는거로 보임. 다만 원래 의논했던 방향과는 좀 먼 실험을 하고 있는데, 실험을 끝냈을 때 나오는 결과가, 발화점이 비슷하면 아 그런가보다, 틀리다면 사람과는 다르네? 이외에 우리 랩의 지향점(self-evolving agents 등)을 달성하기 위한 방법론을 개발하는 데 어떤 역할을 할 수 있을 지 불명확함. 원래 의논했던 방향: (open-world 문제는 욕망이나 생존 욕구가 있는 agent가 그렇지 않은 agent에 비해 더 잘 해결할 것으로 보이는데, 그렇다면 생존 욕구는 모델 학습 과정에 어떻게 infuse할 수 있을 것인가? (reward로 해결이 가능한 영역인가?) -> 방법론 지향 // 혹은 이걸 잘 테스트하기 위한 셋업 혹은 벤치마크는 어떻게 디자인해볼 수 있을까? - ARC-AGI-3에서 한 단계 더 나아간 형태의 오픈월드 벤치마크일 것 같은데? -> 벤치마크 지향) 현재 진행하는 실험 내용: 뇌의 비슷한 곳을 자극한다고 알려진 self-referential (모르는 건 모른다고 하는 Judgement)과 theory of mind (Sally Anne Test)을 language model이 하였을 때에도 비슷한 위치의 뉴론이 발화될 것이라는 conjecture를, LLaMA, Qwen 등으로 테스트 해보려고 함. 위에 언급한 실험에 더불어 “Self-referential 데이터로 SFT를 한 모델이 발화점이 비슷한 theory of mind (sally anne test) 문제를, GSM8k등 로직 문제에 비해 비교적 잘 해결할 것이다” 를 뒷받침 실험으로 준비하고 있다고 들었는데, 이 또한 주현 학생의 가설을 뒷받침할 뿐, 랩 방향성과 맞지 않다 생각함. ‘욕망/생존욕구/self-aware’를 소위 ‘skill’이나 ‘curiosity’처럼 AI 모델이 learning by experiencing 능력을 갖게 하는데 영향을 주는 하나의 큰 factor인지 알아보는 류의 실험을 설계해서 안내해주면 좀더 align이 될 것 같음. –
김세진 박사님은 랩에서 머무른 기간을 고려해 보았을 때 최대의 퍼포먼스를 낼 수 있는 시기를 맞았지만, 개인적인 일들로 연구로부터 distract이 많이 될 수 밖에 없는 상황임(알바+예비군+출산+구직). 세종과학펠로우십의 낙방은 매우 아쉬운 바이며, 이에 따라 다음 세 가지 갈래 사이에서 스트레스가 클 것이라 생각됨. 1) 박사후국내연수나 포닥공동연구 제안서를 작성하거나, 2) 과제 기획과 함께 수업을 해야 하는 – PI 준비 차원에서는 실질적 도움이 되나, 연구적 성과 속도를 저해할 수 있는 연구교수라는 계륵 포지션을 잡거나, 3) 배수진을 친 채로 교수임용을 지원하거나. 나도 학과장님의 InnoCORE 제안서를 도왔기에 성공시 포지션이 생길 수 있고, 그마저 떨어지면 공동책임을 하고 있는 LLM InnoCORE 측에 부탁을 해 볼 수는 있는 상태이나, IITP 튜링테스트 과제 등이 떨어진 바, 현 상태로는 지속 고용을 보장할 만큼의 인건비가 연구실에 확보되어 있지 않은 상태임. 5월까지 NeurIPS를 두 편 내고, PI 홀로서기 준비를 착실히 해 두어야지 포지션을 잡는 데 유리한 고지를 점할 거라 생각되나, 챙겨야 할 일들이 많은 바 압박을 주기는 어려울 것 같으니, 어떤 속도로 움직이게 될지는 믿고 기다리는 수밖에…

ARCTraj 시리즈 연구의 마무리는 결국 trajectory가 똘똘한 모사학습을 하는 데에 좋은 촉매가 될 거라는 Conjecture를 실험적으로 보이는 연구가 되어야 한다고 생각함. 2022년 Multi-game decision transformer가 많은 trajectory로 보여주었던 결과를, frontier model를 도입하여 적은 트라젝토리로도 가능하다는 점을 보이는 식으로 3부작 논문을 마무리할 수 있을 것 같음. 그렇다면 Frontier model을 어떻게 활용해야 훨씬 적은 숫자의 trajectory로도 다각도의 문제 풀이 기법을 학습하고, 그 중에서도 가장 좋은 풀이 위주들의 쪼를 파악하여 새로운 문제를 풀어나가는 모습을 볼 수 있을까? 이는 인간이 풀어야 하는 문제들을

Frontier model에게 적절히 긴 시스템 프롬프트(Task/Environment related: ARC 문제, ARCLE, JaxARC 환경), Alignment 페이퍼에서 언급한 각종 정의들(Popular node, misalignment type), 랩에서 기존에 개발한 모사학습/역강화학습/커리큘럼 학습 방법론들의 repository(Decision Transformer, LDCQ, TRACED in JaxUED)를 제공해 주고, 각각의 ARCTraj들을 유저 단위 및 Task 단위에서 살펴보면서 1) 한 유저가 다양한 문제를 순차적으로 풀어가는 과정에서 터득하는 스킬들, 2) 많은 유저들이 한 문제를 바라보는 다양한 시각들(misalignment paper에서 어느 정도 다루었음)들을 evolving_skill_{user_name}.md, diverse_perspective_{task_name}.md와 같이 해석 가능한 형태로 저장해둘 수 있을 것이다. 이와 같이 중간에 도출된 개념들은 새로운 문제를 푸는 데 활용할 수 있는 skill-book 역할을 하여서, 새로운 문제가 주어졌을 때, 좀더 data-efficient하게 접근해나갈 수 있을 거라 생각된다. (중견 과제의)

이 아이디어는 NeurIPS 2025 - Google Code Golf Championship에서 수집된 다양한 데이터들을 활용하여 확장될 수 있을 것이라 본다. => (https://www.notion.so/xair/Sundong-s-note-267b35a070f780869840d4a316c22dd5?source=copy_link의 From NeurIPS-25 탭에 작성했던 내용: 코드 골프를 통해 수집된 코드의 진화는, 한 유저가 o2arc에서 같은 문제를 연달아 풀면서 더 짧은 ARCTraj를 고민하는 것에 대응되는 개념이라 생각해도 좋을 것 같다. 골프를 통해 한 문제를 해결한 점점 짧은 코드를 모을 수 있게 되었고, 이는 ARCTraj에서도 마찬가지. 따라서 ARCTraj 연구를 설명할 때 Kolmogorov complexity 개념을 바탕으로 설명해도 좋을 것 같다.) (김윤호) 김세진 박사의 가이드를 따라서 ARCTraj를 이용한 위 연구를 수행하거나, code golf 데이터를 만지는 쪽으로 가이드해야 할 것 같다.

Looking for a contributor: distilling self-evolving agent traces into smaller models ( & want to discuss this in the thread)

@Laura has been building a self-evolving game agent (ralph-loop) using Claude Code for ARC-AGI-3. Starting from hand-crafted heuristics that partially solved up to Stage 3 of LS20, Claude iteratively rewrote and improved its own code until it solved all stages. Throughout this process, we collected long reasoning traces (Claude’s full thinking while modifying code) and code version history (each iteration tracked via Git PRs) — an unusually rich dataset of an AI agent self-evolving through a complex reasoning task. We’re now pushing this PoC forward in two directions: (1) generalizing to new ARC-AGI-3 tasks with fewer or no initial heuristics, bootstrapping from previously solved tasks, and (2) improving efficiency by minimizing the total actions/tokens needed to clear all stages. Separately — if the ARC-AGI-3 leaderboard doesn’t allow API access to frontier models (as in the past), we’ll eventually need to cultivate this kind of problem-solving ability in smaller, locally-runnable models (e.g., Qwen 3.5, 8B-class). The ralph-loop traces already give us a starting dataset for this. So we’re looking for someone interested in exploring: can we fine-tune a small model on these self-evolving dialogue traces and code snapshots? Key challenges include figuring out what training signal to extract from long unstructured dialogues (trajectory-level reasoning? code-diff prediction?), what data formatting works, and whether any self-evolving capability actually transfers. Designing the right training methodology here is itself a research problem.

Relevant background: LLM fine-tuning, training data curation, long-context reasoning.

Related project: @Sejin Kim’s ARCtraj project, NeurIPS-25 Code Golf Challenge (https://neurips.cc/virtual/2025/loc/san-diego/competition/127722), memory for LM, ..

If you’re interested, or want to discuss this, please use this thread and let @Laura know!