이제 엔진을 더 갈고 닦아보자.
기술의 발달함에 있어서 기능을 더 갈고 닦는 것이 시대의 흐름이다.
이번 KIM가 기존 LLMs의 모델의 한계를 확인하고 그걸 개선한 논문이다.
다만, 개인적인 생각은 기능이 좋아지면 trade-off로서 더 많은 compute 필요하다고 생각한다.
https://arxiv.org/pdf/2603.15031
표준 잔차 연결의 한계 와 희석
현대 신경망의 근간인 PreNorm 기반 잔차 연결 공식은 안정적인 학습을 가능케 했으나,
기술적 관점에서 보면 '고정 가중치(Fixed unit weights)'라는 치명적인 제약이 존재
PreNorm Dilution(PreNorm 희석)
모든 층의 기여도를 1.0이라는 동일한 가중치로 합산함에 따라,
신경망이 깊어질수록 은닉 상태(Hidden-state)의 크기는 O(L)로 선형적으로 성장
PreNurm(Pre-Layer Normalization)
- Pre가 있으니까 앞에서 수행한다는 말
- Layer Normalization을 이해하면 된다.
즉 정규화. 정규화를 통해서 들쭉 날쭉한 데이터를 일정한 크기로 만드는 과정
임베딩 벡터(입력값) = [10, 20, 30, 40, 50]
평균 계산: (10+20+30+40+50) / 5 = 30
평균 빼기: [-20, -10, 0, 10, 20]
표준편차로 나누기: (계산 생략 후 결과만 보면) 대략 => [-1.4, -0.7, 0, 0.7, 1.4]
1. 선택적 접근의 부재
어텐션 층과 MLP 층은 성격이 전혀 다른 정보를 생성함에도, 다음 층은 항상 이들이 획일적으로 뒤썩인 결과물만 입력
2. 사라진 정보
정보가 한 번 합산(Aggregation)되어 합축되면, 더 깊은 층에서 특정 과거 층의 세부 정보를 복원하거나 가중치 불가능
3. 출력 크기 팽창
후반부 층들이 이미 거대해진 누적값에 의미 있는 변화를 주려면 더 큰 출력값을 만들어내야 하며, 이는 수렴 속도를 늦추고 훈련의 불안정 초래

해결책 : 소프트맥스 어텐션
AttnRes는 고정된 합산 방식 대신, 현재 층에서 가장 필요한 과거 정보를 골라 담는 소프트맥스 어텐션 가중치(α)를 도입
핵심 : Pseudo-query
현재 층의 입력값에 투명되는 것이 아니라, 각 층에 할당된 독립적으로 학습 가능한 정적 파라미터. 즉 데이터 상관 없이 구조적 중요도만 파악.
각 층이 이전 층들의 정보를 어떤 비율로 섞어 쓸 때 가장 똑똑해지는지를 학습 과정에서 스스로 깨닫고 그 최적의 비율을 저장해두는 지능형 스위치
1단계 초기화
처음엔 아무런 정보가 없는 랜덤 데이터로 채워짐
2단계 순전파와 점수 매기기
예를 들어, 10레이어까지 있다고 한다면 앞선 1-9 레이어의 결과물(key)과 내적(벡터 데이터의 닮은 정도 파악) 연산

의사 쿼리 (W10) : 10번 레이어가 가진 "I like this style data"라 이상형 정보
이전 레이어(Keyi) : 1번부터 9번까지 각 레이어의 고유 특징
내적 연산 : 10번 레이어의 이상형 정보와 각 레이어의 특징 내적(유사도) 비교
내적도가 높은 정보를 10번에게 더 많이 전달
=> 이 점수들을 스포트맥스에 통과시키면서 가중치 출력
3단계 손길 계산과 역전파
모델이 예측한 값과 실제 정답을 비교하며 오차를 계산하고 변경된 내용을 의사 코드에게도 전달
4단계 최적화
여러 번 시도함면서 경사하강법을 통해서 의사 코드 숫자값 수정 => 최적의 비율 찾기

Block AttnRes의 핵심 역할
Full AttnRes는 현재 100번째 레이어를 계산할 때, 앞선 1층부터 99층까지의 모든 데이터를 일일이 다 훑어봄. 반면, 몇 개의 '블록'으로 묶어 관리함으로써 계산 복잡도를 획기적으로 낮춤.
1단계 레이어 그룹화
먼저 전체 은닉층을 일정한 단위로 묶음
2단계 블록 요약값 생성
기존의 단순 잔차 연결(덧셈) 방식을 활용해 해당 블록의 정보를 하나로 합친 대표값
3단계 블록 단위 선택적 어텐션
현재 레이어는 앞선 모든 레이어를 보는 것이 아니라, 앞에 있는 블록들의 '요약본'들만 대상으로 어텐션을 수행(의사 쿼리 비율 활용)
4단계 시스템 최적화
ps-
모델이 깊다라는 뜻
모델이 깊어(층 수)진다= 깊이 : Layer 층 수 x 표현 공간의 차원 수
'AI' 카테고리의 다른 글
| [ AI/Claude ] Anthropic에서 제공하는 수업듣기-2(Feat. Claude 101) (0) | 2026.03.23 |
|---|---|
| [ AI/LLM ] 어떻게 결과의 품질을 높일 것인가?(Feat. MoDA) (0) | 2026.03.22 |
| [ AI/Claude ] Anthropic에서 제공하는 수업듣기-1(Feat. Claude 101) (0) | 2026.03.17 |
| [ AI/Vision ] 언어와 시각을 한 번에 처리하는 게 어쩌면(Feat. world model) (0) | 2026.03.17 |
| [ AI/LLMs ] 어쩌면 훈련의 방식이 조금 저렴해질지도(Feat. Fine-tunring) (1) | 2026.03.15 |