[ LLM/멀티헤드&MLP ] LLM 어떻게 사용자의 질문을 이해하고 답할까?
이 내용은 3blue1Brown 채널을 만든 사람이 나와서 발표한 내용을 바탕으로 구성했봤다.
특히 내가 좀 헷갈리는 부분을 조금 더 시각적으로 처리하기 위해서 작성해본다.
https://www.youtube.com/watch?v=KJtZARuO3JY
이 개념은 Layer Block에 대한 개념을 크게 2 부분으로 나눠서 설명한다.
- Multi-Header Attetion
- Multi-Layer Perceptron
문맥을 이해하는 멀티헤더
LLM은 사용자로부터 질의를 받는다.
그리고 질의를 파싱하고 토큰화하고 임베딩 처리(벡터화 처리)를 한다.
이 과정에서 LLM은 attention block을 통해서 사용자에 문장의 문맥을 더 깊게 이해한다.
쿼리(Q), 키(K), 값(V)
공식도 있지만 그것 패스(pass)
여기서 Multi-Head-Attention 이라는 개념이 작동한다.
사용자의 질문/질의를 바탕으로 여러가지 문장/문맥의 관계, 의미적 관계, 장거리 종속성 등을 다각도로 파악한다.
이때 정보가 병렬 처리된다.
학습한 지식으로 정보를 변환
이과정이 끝나면 MLP(Multi-Layer Perceptron)이 진행된다.
여기선 a Model 학습한 지식을 바탕으로 개념적 연관성을 더 한다.
어텐션에서 파악한 관계 정보를 바탕으로 모델이 학습한 지식을 활용하여 정보를 변환하고 정제한다.
이 과정 전체를 하나에 Layer Block이라고 한다.
여기서는 위에서 말한 큰 2가지 과정으로 이해해볼 수 있다.
1. Multi-Head-Attention Block : 사용자의 질문/질의를 바탕으로 여러가지 문장/문맥의 관계를 다각도로 파악한다.
2. MLP Block : a Model 학습한 지식을 바탕으로 개념적 연관성을 더 한다.
총 96개의 Layer Block 존재 : GPT-3
GPT-3는 총 96의 Layer Block이 존재 한다. 따라서 총 96번의 반복을 한다고 말할 수있다.
여기서 반복은 단순한 1번째의 반복과 96번째의 반복과 동일한 의미가 아니다.
첫번째 반복(Layer)에서는 기본적인 언어 패턴을 분석한다면,
마지막 반복(Layer)에서는 좀 더 추상적 의미나 암시적 정보를 파악한다.
96번에 과정을 순차적으로 진행된다.
여기서각 레이어의 처리는 이전 레이어의 출력을 받아 다음 레이어로 전달하는 순차적 과정으로 진행
1번 레이어 → 2번 레이어 → 3번 레이어 ... 96번 레이어
이 총 96번 작업한 정보를 최종 합산하여 다음 토큰을 출력한다.
MLP 안에서는 어떤 일이 벌어지는가?
https://life-explorer.tistory.com/542
[ AI/antropic-1 ] LLM은 다중 추론을 진짜 할까?(feat. Claude 3.5 Haiku)
이 글은 antropic에서 시도했던 모델에 블랙박스를 확인하기 위한 전략 중 다중 추론에 대한 검증글입니다. Introductory Example: Multi-step Reasoning On the Biology of a Large Language ModelWe investigate the internal mecha
life-explorer.tistory.com