Thoughts on Othello and AGI Aspect

Exploring game intelligence as a pathway to AGI through Othello

Korean

그럼 지금부터는 한 종류의 게임을 바탕으로 intelligence에 대해서 생각을 해 봅시다 (10분)
- Play Othello
- 오델로란 게임은 어떻게 작동하는가?
  
  오델로의 필승 규칙을 명확하게 말로 설명할 수 있거나, 글로 서술할 수 있는가
  1) 아주 간단한 베이스라인: 가능한 곳 중 아무 곳에나 두기 2) 간단한 휴리스틱: 둘 수 있는 옵션 중에서 가장 많은 돌이 넘어가는 곳에 두기 3) 좀더 복잡한 휴리스틱: 오델로 판 내에서 승부와 관련이 있는 자리에 가중치를 두는 방식 (오델로란 게임을 잘 이해하기 위한 "공부"나 "경험"이 필요한 부분) 4) 더욱더 복잡한 방법론: 도메인 지식을 바탕으로 전략을 디자인. 오델로란 게임의 형태나 진행 방식에 따라 최적의 전략을 고민해 볼 수 있음.
- References related to Othello
  - Othello, A Minute to Learn… A Lifetime to Master
    
    Book Summary
    1) Covers basic rule to advanced tactics, 2) Positioning, Edge play, Defense, Parity, 3) Opening strategy, Endgame strategy, Tesuji (Brilliant tactical moves to force the opponent into unfavorable moves),
    The book covers a broad range of Othello strategies—from the basic rules up to advanced tactics—designed to help players improve from beginner to advanced levels. It begins by explaining the basic rules and notation, such as how discs are flipped by sandwiching opponent’s discs and how the board is labeled (for example, a1, h8, etc.). Next, it discusses the importance of corners and stable discs. Securing a corner is crucial because a disc placed in a corner cannot be flipped, making it permanently stable, and controlling a corner often allows a player to build a chain of stable discs around it. The book then moves on to the concept of frontier discs and walls. Frontier discs are those adjacent to empty squares and play a key role in both attack and defense; connected groups of these discs, known as walls, can restrict an opponent’s options, although creating too many "loud" moves can sometimes backfire by giving the opponent extra possibilities.
    In the section on openings, the focus is on central control and positioning in the early moves of the game. Various opening strategies—such as perpendicular, diagonal, and parallel—are discussed, with the advice that beginners should focus more on practical experience rather than memorizing fixed sequences. The book also emphasizes basic edge play, highlighting that nearly half of all moves in a game occur along the board’s edges. It introduces ideas like free moves, gaining tempo (an extra move advantage), and pairing squares to limit the opponent’s choices. As the game progresses into the endgame, the book explains basic endgame strategies. Here, simple tactics like the “interior sweep,” where a player might even sacrifice a corner in order to secure more central discs, become crucial; the aim is to force the opponent into positions with no safe moves remaining.
    Defense is another key element covered in the book. In addition to attacking, a player must prevent the opponent from executing strong moves. The text details defensive tactics such as flipping opponent’s discs to deny them good moves, occupying squares the opponent wants to use, and otherwise making their strong moves less effective. An important advanced concept discussed is even number theory, or parity. This involves dividing the board into regions based on the number of empty squares (even or odd) and planning to secure the last move in each region. Mastering parity can help determine whether it’s advantageous to move first or second in a given region, and the book even covers more advanced ideas like hyper even number theory. Finally, the book explores tesuji—a term referring to brilliant tactical moves that can decisively change the course of a game. It includes a variety of tesuji patterns, especially those related to corner attacks, double corner attacks, and traps such as the Stoner trap, illustrating how to force the opponent into unfavorable moves or force them to concede critical squares.
    Overall, if you are already an intermediate player, focusing on managing frontier discs, gaining tempo, using parity in the endgame, and mastering tesuji patterns—particularly those involving corner play—will be key to advancing your skills.
- Brainstorming on Othello-AI Engine <!– 여기서 깊은 디스커션을 이끌어가는 게 좋겠어. 모듈을 brainstorm할 때 다음과 같은 방향으로 토론을 유도해보면 좋겠어: 모듈 예시 게임 환경 모듈 (Environment): 상태 표현, legal moves 검증 전략/정책 모듈: 간단한 휴리스틱 (탐색 범위, 가중치) Reinforcement Learning 기반 모듈 (Monte Carlo Tree Search, Minimax with Alpha-beta pruning) 학습/기억 모듈 Board Representation (numeric vector vs. symbolic representation) Value evaluation network (NN or symbolic rules) 연구 논문 추천
  - DeepMind AlphaZero (Silver et al., Nature 2017): Othello 같은 게임을 잘 푸는 방식과 generalization에 대한 이해를 제공
  - MuZero: World-model과 planning의 결합 (Schrittwieser et al., 2020) –>
  - 필요한 모듈에 대해 의논하기 & 그 모듈이 왜 필요한지, 모듈을 구현하기 위해서 어떤 정보가 필요한 지 작성해 보자.
  - ㅇㅇㅇ
  - ㅇㅇㅇ
  - ㅇㅇㅇ
- 오델로의 필승 전략을 찾아내려면… (디스커션의 결과를 바탕으로 이야기하기)
  - 얼마나 게임의 동작 원리를 잘 이해해야 할까? <!– 1. 규칙 기반 지식:
    - 코너와 에지의 중요성
    - 안정적인 돌(뒤집히지 않는)의 가치
    - X-square와 C-square의 위험성
    - 패리티(홀/짝) 전략 –> <!– 2. 패턴 인식:
    - 개막 정석과 그 변형
    - 중반 전략적 패턴
    - 종반 최적화 패턴 –> <!– 3.Program Synthesis 접근법:
    - 게임 규칙을 프로그램으로 완벽히 모델링
    - 상태 공간 표현의 최적화
    - 가능한 수의 효율적 생성 알고리즘 –>
  - 얼마나 많이 게임을 해보아야 할까? 게임 경험 축적 (Data-driven, RL)
  - 얼마나 깊게 생각할 수 있어야 할까? <!– 사고 깊이 (Planning, Search)
    
    탐색 깊이와 넓이:
    
    초반: 넓은 탐색으로 전략적 방향 설정 중반: 균형 잡힌 탐색으로 전술적 우위 확보 종반: 깊은 탐색으로 완벽한 계산(종종 완전 탐색 가능)
    
    메타 전략:
    
    상대 전략 모델링과 카운터 전략 개발 시간 관리 전략(critical move 파악) 위험-보상 균형 전략
    
    General Intelligence 접근:
    
    다중 시간 규모 계획(multi-time scale planning) 추상화 레벨 전환 능력(tactical ↔ strategic) 메타 학습(learning to learn) –>
  - 또 다른 방향, RQ가 있을 수 있다 (Vision Transformer 등을 통한 접근) <!– Vision Transformer를 활용한 접근 Vision Transformer를 오델로에 적용하는 것은 흥미로운 접근입니다:
    
    가능성:
    
    보드 상태를 이미지로 인식하여 직접 처리 가능 특히 실제 물리적 보드를 카메라로 인식하는 시스템에 유용 보드의 전체적 패턴을 한번에 인식하는 장점
    
    한계:
    
    오델로는 명확한 규칙이 있어 이미지 인식보다 구조화된 표현이 효율적 8x8 그리드는 단순한 배열로 표현 가능(64개 요소) 규칙 기반 유효 수 계산 알고리즘이 더 정확하고 빠름
    
    하이브리드 접근:
    
    보드 상태는 구조화된 데이터로 처리 Vision Transformer는 사람과의 물리적 상호작용 인터페이스로 활용 학습된 패턴 인식에 Transformer 아키텍처 활용 가능 –>
- 오델로를 푸는 AI를 다시 구현해 보자! ()
  - 나온 디스커션을 바탕으로 오델로를 푸는 AI를 풀기 위해 필요한 모듈들을 다시 디자인하고 input & output 명세를 짜 보자.
- 과연 LLM은 오델로를 잘 푸는가? 상용 LLM에게 오델로를 두어 보자고 하였다.
  - Grok 3과의 대화
    - Grok3은 오델로가 어떤 게임인지 올바르게 설명해 내었고, 나는 정말로 LLM이 오델로를 잘 두는 지 궁금하여 한판을 함께 하기를 제안하였다. 오델로 게임을 하기 위해서 자체적으로 판을 그려서 나에게 보여주었고, 어떤 곳에 둘 지 텍스트로 알려주면 그에 맞추어서 판을 업데이트해 주었다. 현재 놓을 수 있는 칸이 어딘지 친절히 알려주기도 하였다. 이후 자기 턴을 사용하여 새로운 곳에 돌을 두고, 업데이트된 판을 보여주며 어디에 둘지 물었다. 게임을 이끌어가는 모습이 능숙하였고, 친절한 느낌이 들어서 AI 에이전트와도 킬링타임을 할 수 있다는 점이 신선하게 다가왔다.
    - 다만 grok3과 게임을 해 보니, 오델로의 규칙을 명확히 이해하지는 못한 것 같다. 보드를 생성하는 과정이나, 말을 놓는 과정에서 의도하지 않은 액션을 수행하는 것이 보인다. $\rightarrow$ 생성 모델이 가지는 Hallucination 이슈로 확인된다.
    - 그렇다면 어떤 LLM과 오델로를 둘 수 있을까?
  - Claude 3.7와의 대화
    - 오델로를 한판 두어보자고 하였더니 오델로 보드 및 모든 로직을 html + css + js로 구현을 한 후 게임을 하는 환경을 만들어 주었고 AI와 게임을 할 수 있었다. 제공된 AI는 주요 규칙을 숙지하고 있었고, 사용자로서 중급 봇과 겨루는 느낌이 들어서 재밌었다. Claude-othello
    - Claude 3.7 Sonnet이 오델로를 둘 수 있는 이유는 무엇일까? 같은 QA형태의 인터페이스를 가지고 있지만, 답변으로 웹 인터페이스를 만든 후, 해당 웹 인터페이스 내에서 원하는 작업을 수행할 수 있게 해 냈다는 점. 상용 LLM 간에는 어떤 차이가 있는가?
    - References related to LLM
      - How I use LLMs - Andrej Karpathy
      - Deep Dive into LLMs like ChatGPT
그러면 이 모델이 오델로만 잘 하는 것 아닌가요? 오델로 말고 다른 것들도 다 잘 해야 AGI 아닌가요?
- 그렇다 여러분 말이 맞다. 오델로만 잘 푸는 모델은 AGI라 하기 어렵다. 그러면 오델로만 잘 푸는 모델이 아니라 유사 오델로도 잘 푸는 모델을 만들 수 있다면 AGI에 가까워지는 거겠지?
- 다양한 확장 방안 의논?
  - 살짝 꼬아놓은 문제에서 모델이 적응할 수 있게 조정한다. (Parameter tuning, )
  - 아예 다른 게임을 도전한다.
  - 이 task, 저 task에 모두 잘 작동하는 모델을 만들 수 있는 모델을 학습한다. (Multi-task learning, Meta learning, ….)

오델로를 넘어: AGI를 향한 확장 방안 오델로만 잘하는 모델은 확실히 AGI(Artificial General Intelligence)라고 할 수 없습니다. 진정한 AGI는 다양한 문제 영역에서 일반화된 지능을 보여줄 수 있어야 합니다. 이를 위한 확장 방안을 구체적으로 살펴보겠습니다.

유사 오델로로 확장하기 기존 오델로 AI를 약간 변형된 환경에 적응시키는 접근법입니다: 변형된 규칙에 적응

보드 크기 변경: 8x8에서 6x6, 10x10, 비대칭 보드로 확장 룰 변형:

“Must-Pass” 대신 “Can-Pass” 규칙 적용 시작 배치 변경 (기본 2x2 대신 다른 패턴) 유효한 이동 규칙 수정 (대각선만 허용, 한 방향만 뒤집기 등)

목표 변형:

최다 돌 대신 특정 패턴 완성이 목표 최소 돌로 이기기

구현 방법

메타-파라미터 도입:

게임 규칙을 파라미터화 (보드 크기, 뒤집기 규칙 등) 메타-학습으로 이런 파라미터 변화에 빠르게 적응하는 모델 개발

Few-shot 학습 능력:

새 규칙에서 몇 번의 게임만으로 적응하는 구조 규칙 변화를 인식하고 전략을 조정하는 모듈 개발

다른 보드 게임으로 확장 유사성이 있는 게임부터 점차 다른 특성의 게임으로 확장합니다: 단계적 확장

유사 턴제 완전정보 게임:

체커, 오목, 육목 바둑, 체스

불완전정보 게임:

포커, 브릿지 같은 카드 게임 스트라테고 같은 숨겨진 정보가 있는 게임

협력 게임:

팬데믹 같은 협력적 보드 게임 팀 기반 전략 게임

구현 방법

모듈식 아키텍처:

게임 상태 표현 모듈 (State Representation) 행동 생성 모듈 (Action Generation) 가치 평가 모듈 (Value Evaluation)

각 게임마다 특화된 모듈을 개발하되, 공통 추론 구조는 공유 전이 학습 (Transfer Learning):

한 게임에서 학습한 패턴 인식과 전략적 사고를 다른 게임에 적용 공통된 추상 개념 (제어, 영역 장악, 기동성 등) 학습 및 전이

범용 학습 모델 개발 (Meta-Learning) 다양한 게임/문제를 학습할 수 있는 메타 학습자 개발: 메타 학습 접근법

Model-Agnostic Meta-Learning (MAML):

다양한 게임 규칙에 빠르게 적응할 수 있는 초기 파라미터 학습 적은 샘플로 새로운 게임에 fine-tuning 가능한 구조

하이퍼네트워크 (HyperNetworks):

게임 규칙 설명을 입력으로 받아 적절한 게임 플레이 네트워크 생성 규칙 변화에 따라 동적으로 네트워크 구조 조정

Neuromodulation 기반 아키텍처:

컨텍스트에 따라 네트워크 활성화를 조절하는 메커니즘 게임 종류와 상태에 따라 다른 “사고 모드” 활성화

구체적 구현 요소

규칙 임베딩 모듈:

게임 규칙을 벡터 공간에 매핑 유사한 규칙은 임베딩 공간에서 가까이 위치

메타-강화학습 프레임워크:

내부 루프: 특정 게임에서의 학습 외부 루프: 다양한 게임 간 학습 전이 최적화

자기 생성 커리큘럼 (Self-Generated Curriculum):

모델이 자신의 능력에 맞는 난이도의 게임/변형을 자동 생성 점진적 복잡성 증가로 일반화 능력 향상

실제 구현 전략 제안된 접근법들을 실제로 구현하기 위한 구체적 전략: 아키텍처 설계 Copy[게임 규칙 처리 모듈] –> [상태 인코더] –> [전략 생성기] | | | v v v [규칙 임베딩] –> [상태 임베딩] –> [행동 가치 평가] | | | +——-> [메타 컨트롤러] <—————-+ | v [적응형 파라미터] 학습 파이프라인

기초 단계: 오델로 특화 모델 개발 확장 단계: 유사 게임으로 점진적 확장 일반화 단계: 규칙 설명만으로 새 게임 이해 및 플레이 메타 학습 단계: 게임 자체를 생성하고 학습하는 능력 개발

이런 접근법을 통해 단일 게임 전문가 시스템에서 점차 범용적인 게임 지능으로, 궁극적으로는 게임 영역을 넘어 다양한 문제 해결이 가능한 AGI 방향으로 발전시킬 수 있을 것입니다.