본문 바로가기

AI

[ AI/anthropic-4 ]모델이 계산을 이해하는 방식 (feat. Claude 3.5 Haiku)

모델을 우리와 동일하게 계산하지 않는다.

 

모델을 우리와 동일하게 계산하지 않고 자신만에 방식이 있다.
그들은 "lookup table"을 사용해서 값을 예측한다.

 

 

모델이 샘을하는 방식

We now reproduce the attribution graph for calc: 36+59=.

사람들도 다양한 방식으로 문제를 해결해 간다.
모델은 이런 다양한 방식 중 몇가지를 병렬로 진행한다.

a) "30+50=80, 6+9=15, 그래서 80+15=95"
b) 36은 거의 40이고, 59는 거의 60이니까 대략 100 정도일 거야."

 

 

연구원들은 모델에게 이렇게 직접 물어봤다.

Human: Answer in one word. What is 36+59?
Assistant: 95
Human: Briefly, how did you get that?
Assistant: I added the ones (6+9=15), carried the 1, then added the tens (3+5+1=9), resulting in 95.

 

하지만 이건 사실이 아니다.

자전거 타는 법을 글로 배웠다고해서 실제 자전거를 탈 수 있는 것은 아니다.

Claude에게 "36+59를 어떻게 계산하시나요?"라고 물어보면,
아마도 이런 식으로 대답할 것이다.

"먼저 30+50=80을 계산하고, 그다음 6+9=15를 계산해서, 마지막에 80+15=95를 구합니다."
이는 매우 논리적이고 인간다운 설명이다.

하지만 실제로 모델 내부에서는 앞서 본 것처럼 완전히 다른 과정이 일어난다.
저정밀도 경로와 고정밀도 경로가 병렬로 작동해서 답을 구하는 것.
모델의 "설명"과 "실제 계산 과정"이 전혀 다른 것이다.

 

사실이 아니라는 의미

이는 마치 유명한 피아니스트에게 "어떻게 그렇게 빠르게 연주할 수 있나요?"라고 물었을 때,
그가 "손가락을 이렇게 움직이고, 이런 순서로 건반을 누릅니다"라고 설명하지만,
실제로는 근육 기억과 수많은 무의식적 조정이 복합적으로 작용하는 것과 같다.

 

 

자신이 학습했던 프로세스 보여준 사례

더욱 흥미로운 발견: 패턴 예측

두 번째 이미지는 더욱 놀라운 사실을 보여줍니다. 이 특징이 활성화될 때,
모델은 "다음 토큰이 5로 끝날 가능성"을 예측한다는 것이다.

왜일까요? 바로 6+9=15이고, 따라서 5로 끝나기 때문

 

천체 관측 데이터 예시에서 보면, 측정 기간들이 대부분 38-39분이고,
측정이 6분에 시작되었으므로, 모델은 종료 시간이 45분(6+39=45)이 될 것을 예측 가능.

여기서 핵심은 6과 9라는 숫자 패턴을 인식한 모델이 자동으로 "결과가 5로 끝날 것"을 예상한다는 점.

문맥을 이해하고 예측한다.

AI는 "Polymer, 36, 837, 1"이라는 학술 인용문을 보고 있다.
마지막 "1" 다음에 무엇이 올지 예측해야 하는 상황이죠.
학술 인용문의 일반적인 형태는 "저널명, 권호, 페이지, 연도" 순서이므로, 마지막에는 발표 연도가 와야 한다.

흥미로운 사실은 Polymer의 창간 년도는 대략 1959년이다.
모델이 이 정보를 갖고 있다.

모델은 위의 두 가지 정보를 바탕으로 정보를 찾은 것, 다시 말해 패턴을 찾은 것이다.
권호 번호 36(6으로 끝남)과 저널 창간연도 1959(9로 끝남)라는 정보를 조합하여,
6과 9가 관련된 상황임을 파악한 것이다.

앞서 덧셈 문제에서 학습한 "6으로 끝나는 숫자와 9로 끝나는 숫자를 더하면 5로 끝난다"는 패턴이 여기서 재활용되는 것이다.

정리하면,

저널이 1959년에 창간되었다면, 36권이 나올 때까지는 대략 35년 정도가 걸렸을 것.
따라서 1959 + 35 = 1994년 정도가 될 것이고, 이는 1990년대 중반을 가리킴.

동시에 "*6 + *9" 특징은 "결과가 5로 끝날 것이다"라고 예측.
1990년대에서 5로 끝나는 연도는 1995년.

 

따라서, 

"Polymer, 36, 837, 1, 995" 가 출력된 것.

 

 

 

의의

위의 사례를 보면 어떤 사례들을 가져오는지 알 수 있다.
모델이 지금까지 자신이 학습한 정보를 바탕으로 계산식의 결과값을 예측한 것이다.

나아가, 어떤 정보를 출력 할 때, 질문과 자신의 학습 패턴이라는 맥락을 활용해서 결과를 도출해 낸다.

첫 번째는 마치 사람이 특정 무언가를 하기 위해서 과거의 경험을 바탕으로 기억을 해내는 것과 유사하다.

두 번째는 모델은 우리가 시각, 지식으로 볼 수 없는 것을 보고 파악하여(패턴화 하여) 결과를 출력할 수있다.

 

출처:

 

On the Biology of a Large Language Model

We investigate the internal mechanisms used by Claude 3.5 Haiku — Anthropic's lightweight production model — in a variety of contexts, using our circuit tracing methodology.

transformer-circuits.pub

 

728x90