본문 바로가기

AI

[ AI/Memory ]MoE를 활용한 토큰과 비용 최적화(Feat. NVIDIA via President 이안)

다양한 전문가가 존재하는 모델 MoE(Mixture of Exports)

 

NIVIDA korea

MoE 모델의 가장 큰 장점은 전체 모델의 크기(총 뉴런 수)는 거대하게 유지하면서도,
실제 질문에 답할 때는 그중 일부 전문가만 활성화한다는 점입니다. 

 

 

호퍼란?

기존의 암페어(Ampere, A100) 아키텍처를 잇는 차세대 GPU 아키텍처로, 대표적인 제품은 NVIDIA H100입니다. 이 아키텍처는 단순히 연산 속도만 빨라진 것이 아니라, '트랜스포머(Transformer) 모델을 가속화하기 위해' 설계 단계부터 특화되었다는 점이 특징.

호퍼는 미국의 컴퓨터 과학자 그레이스 호퍼(Grace Hopper)의 이름을 딴 NVIDIA의 GPU 아키텍처

호퍼(Hopper)는 거대언어모델(LLM)을 위한 '물리적 엔진'입니다."

 

 

LLM 관점에서의 3가지 핵심 특징

트랜스포머 엔진 (Transformer Engine)

기능: LLM의 핵심 알고리즘인 '트랜스포머' 신경망 처리를 비약적으로 가속화합니다.

핵심 기술 (FP8): 기존에는 주로 FP16(16비트 부동소수점)을 사용했으나, 호퍼는 FP8(8비트) 연산을 도입했습니다. 정밀도를 8비트로 낮추면서도 AI 정확도는 유지하는 기술을 통해, 메모리 사용량을 절반으로 줄이고 연산 속도는 A100 대비 최대 6배까지 끌어올렸습니다.

의미: 더 적은 메모리로 더 큰 모델을 더 빠르게 학습시킬 수 있게 되었습니다.



4세대 NVLink (확장성)

기능: LLM은 단일 GPU로 처리가 불가능합니다. 수천 개의 GPU를 연결해야 하는데, 호퍼는 GPU 간의 통신 속도(대역폭)를 획기적으로 늘렸습니다.

의미: 최대 256개의 H100 GPU를 연결하여 마치 '하나의 거대한 GPU'처럼 작동하게 만듭니다. 이는 수천억 개의 파라미터를 가진 초거대 모델을 학습시킬 때 병목 현상을 없애줍니다.

 

HBM3 메모리 탑재

기능: 초고속 광대역 메모리인 HBM3를 탑재하여 초당 3TB 이상의 데이터를 전송합니다.

의미: GPU 코어가 아무리 빨라도 데이터를 가져오는 속도가 느리면 소용이 없습니다(메모리 병목). 호퍼는 데이터가 이동하는 '고속도로'를 획기적으로 넓혀 LLM 추론 속도를 극대화했습니다.