[ LLM/멀티헤드&MLP ] LLM 어떻게 사용자의 질문을 이해하고 답할까?

Soo_Parkle 2025. 6. 15. 11:24

이 내용은 3blue1Brown 채널을 만든 사람이 나와서 발표한 내용을 바탕으로 구성했봤다.

특히 내가 좀 헷갈리는 부분을 조금 더 시각적으로 처리하기 위해서 작성해본다.

https://www.youtube.com/watch?v=KJtZARuO3JY

이 개념은 Layer Block에 대한 개념을 크게 2 부분으로 나눠서 설명한다.

- Multi-Header Attetion

- Multi-Layer Perceptron

문맥을 이해하는 멀티헤더

LLM은 사용자로부터 질의를 받는다.

그리고 질의를 파싱하고 토큰화하고 임베딩 처리(벡터화 처리)를 한다.

이 과정에서 LLM은 attention block을 통해서 사용자에 문장의 문맥을 더 깊게 이해한다.

쿼리(Q), 키(K), 값(V)
공식도 있지만 그것 패스(pass)

여기서 Multi-Head-Attention 이라는 개념이 작동한다.
사용자의 질문/질의를 바탕으로 여러가지 문장/문맥의 관계, 의미적 관계, 장거리 종속성 등을 다각도로 파악한다.
이때 정보가 병렬 처리된다.

3blue1brown, Multi-Head Attetion 과정을 시각화 해보기

학습한 지식으로 정보를 변환

이과정이 끝나면 MLP(Multi-Layer Perceptron)이 진행된다.

여기선 a Model 학습한 지식을 바탕으로 개념적 연관성을 더 한다.
어텐션에서 파악한 관계 정보를 바탕으로 모델이 학습한 지식을 활용하여 정보를 변환하고 정제한다.

이 과정 전체를 하나에 Layer Block이라고 한다.
여기서는 위에서 말한 큰 2가지 과정으로 이해해볼 수 있다.

1. Multi-Head-Attention Block : 사용자의 질문/질의를 바탕으로 여러가지 문장/문맥의 관계를 다각도로 파악한다.

2. MLP Block : a Model 학습한 지식을 바탕으로 개념적 연관성을 더 한다.

총 96개의 Layer Block 존재 : GPT-3

GPT-3는 총 96의 Layer Block이 존재 한다. 따라서 총 96번의 반복을 한다고 말할 수있다.

여기서 반복은 단순한 1번째의 반복과 96번째의 반복과 동일한 의미가 아니다.
첫번째 반복(Layer)에서는 기본적인 언어 패턴을 분석한다면,
마지막 반복(Layer)에서는 좀 더 추상적 의미나 암시적 정보를 파악한다.

96번에 과정을 순차적으로 진행된다.
여기서각 레이어의 처리는 이전 레이어의 출력을 받아 다음 레이어로 전달하는 순차적 과정으로 진행

1번 레이어 → 2번 레이어 → 3번 레이어 ... 96번 레이어

이 총 96번 작업한 정보를 최종 합산하여 다음 토큰을 출력한다.

MLP 안에서는 어떤 일이 벌어지는가?

https://life-explorer.tistory.com/542

[ AI/antropic-1 ] LLM은 다중 추론을 진짜 할까?(feat. Claude 3.5 Haiku)

이 글은 antropic에서 시도했던 모델에 블랙박스를 확인하기 위한 전략 중 다중 추론에 대한 검증글입니다. Introductory Example: Multi-step Reasoning On the Biology of a Large Language ModelWe investigate the internal mecha

life-explorer.tistory.com

저작자표시 비영리 변경금지 (새창열림)