본문 바로가기

UI

[ AI/anthropic-4 ] 환각(feat. Claude 3.5 Haiku)

모델은 가끔 거짓말을 한다.
그 이유는 당연하다. 왜냐하면 그는 그럴듯한 답변을 하는 확률모델이기 때문이다.

모델은 사실 거짓말을 하지말라고 예방 장치가 존재한다.
그럼에도 불구하고 거짓말을 하는 것은 질문에서 반은 알고 반은 모르기 때문에 알고 있다라는 버튼이 활성화되는 것이다.

In this section we provide evidence that:
The model contains “default” circuits that causes it to decline to answer questions.

When a model is asked a question about something it knows, it activates a pool of features which inhibit this default circuit, thereby allowing the model to respond to the question.

At least some hallucinations can be attributed to a “misfire” of this inhibitory circuit. For example, when asking the model for papers written by a particular author, the model may activate some of these “known answer” features even if it lacks knowledge of the author’s specific papers.

 

인지 회로

 

 

기본 거부 회로

이 모델은 일단 난 모른다고 시작한다.

사용자: "Michael Batkin이 쓴 논문은?"

1단계: 대화 시작 → 거부 회로 자동 ON (기본값)
2단계: "Michael Batkin" 감지 → "모르는 이름" 특징 활성화
3단계: 거부 회로 더욱 강화
4단계: "죄송합니다, 정보가 없습니다" 출력

 

1. 두 회로의 경쟁

회로 A (답변 회로): "스포츠"라는 키워드 감지 → 스포츠 이름을 말하려고 함
회로 B (거부 회로): "죄송합니다만..." 응답을 시작
결과: 거부 회로가 더 강하게 작동해서 사과 응답이 나옴 (다수결처럼)

2. 핵심 발견: "답할 수 없음" 특징

이 특징들이 활성화되는 경우:
사용자 질문의 전제가 잘못됨을 지적할 때
"정보가 부족합니다"라고 말할 때


3. 놀라운 사실: 기본값이 거부!

Human/Assistant 대화 형식이 시작되면 "답할 수 없음" 특징이 자동으로 켜짐
의미: AI는 처음부터 "일단 의심하고 보는" 태도로 설정되어 있음

4. 낯선 이름의 추가 효과

"Michael Batkin"이라는 생소한 이름이 입력됨
→ "이름" 토큰 감지 + "모르는 이름" 특징 활성화
→ "답할 수 없음" 특징을 더욱 강화

 

번외) 여기서 다수결이 나오는데, 한 때(?) 멀티 에이전트 이야기가 나왔고 에이전트끼리 토론시키면 더 좋아진다라고 논문이 있었음.

알고보니까, 토론을 하는 것이 아니라 투표를 하는 쪽에 더 가깝다고 했음.

 

 

거부회로는 복잡하다 다만 조작도 가능하다.

Michael Batkin (모름) → 거부 회로 억제 실패 → "모르겠습니다"
Michael Jordan (앎) → 거부 회로 억제 성공 → "Basketball"

// 거부 회로 진행 절차
"Michael Jordan은 어떤 스포츠?" 입력

1단계: 대화 시작 → 거부 회로 자동 ON (기본값)

2단계: "Michael Jordan" 감지 → MJ 관련 특징 활성화

3단계: MJ 특징이 "알려진 엔티티" 특징 활성화

4단계: "알려진 엔티티" 특징이 거부 회로를 억제(OFF)

5단계: "Basketball" 답변 생성

 

 

만약 거부 회로를 가중치를 조작하면 환각을 만들어 낼 수 있다.

 

그럼에도,

Unknwon Name을 활성화하면 정보가 없을 것으로 예상했지만
여전히 Basketball이라고 Assistant는 답변했다.

이 말은 여전히 거부회로 외에도 다양한 조건값들이 모델의 답변에 영향을 미친다는 뜻으로 추론 가능하다.

 

 

 

참조:

https://transformer-circuits.pub/2025/attribution-graphs/biology.html

728x90