본문 바로가기

AI

[ AI/Vision ] 언어와 시각을 한 번에 처리하는 게 어쩌면(Feat. world model)

멀티모달, 통합 데이터 처리

인간이 가장 먼저 멀티모달을 느끼는 시점은 아이가 엄마의 행동과 말을 보면서 일 것이다.
엄마는 하는 말과 행동에서 동일한 행동이지만 다른 모달리티의 차이를 느끼기 때문이다.

 

이미 Frontier 집단은 세상 밖으로 나오고 있다.
이유는 뭐 인터넷 데이터의 한계이지 않을까?

 

 

 

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Unified models (Zhang et al., 2025a; Xiao et al., 2025; Geng et al., 2025; Xu et al., 2025a; Xin et al., 2025; Li et al., 2025a; Wang et al., 2025b; Wei et al., 2025; Wang et al., 2025a; Li et al., 2025d; Nguyen et al., 2025; Pan et al., 2025; Li et al., 2

arxiv.org

 

 

 

멀티모달 AI 4가지 특징

시각 표현(RAE) :
시각 정보를 이해하는 눈과 생성하는 손을 동시에 갖춘 통합적 능력 발현
RAE(Representation Autoencoder)란 시각 데이터를 AI용 암호로 압축하고 다시 그림으로 복원하는기술로, 이해와 생성 모두에서 압축적인 성능을 보임

데이터 시너지:
시각과 언어 데이터가 만나면 서로를 보완하여 개별 학습 시보다 성능이 향상
글로만 배울 때보다 영상을 함께 볼 때 더 깊이 이해할 수 있다는 원리

월드 모델링:
다양한 데이터를 접한 AI는 세상이 돌아가는 물리적 법칙을 스스로 시뮬레이션하기 시작
인위적인 주입 없이도 일반적인 학습 과정 중에 서셍을 이해하는 지능이 시작

효율적 구조:
서로 성격이 다른 시각과 언어를 전문가 집단이 나누어 처리하여 효율성 극대화
MoE는 모든 문제를 한 명이 푸는 게 아니라 여러 전문가가 자기가 잘하는 전문 분야 담당

 

Figure 23: Scaling laws for unified dense models. We compute IsoFLOP curves across compute budgets. We project the optimal model size and token count for each FLOP budget, and find that the vision modality is more data-hungry, while text follows Chinchilla-like scaling.

 

 

Transfusion 프레임워크

Transfusion 프레임워크 내에서 MoE(Mixture-of-Experts) 아키텍처가 결합해 언어는 '예측'으로, 시각은 '확산'으로 처리하는 이원화된 전략을 취하면서도, MoE를 통해 자원 배분을 최적화

 

어떻게 데이터 비대칭을 처리하는 가?

'확장 비대칭'의 본질: 머리(용량) vs 공부량(데이터)

언어 (Language):
똑똑해지려면 아주 큰 '두뇌(모델 용량)'가 필요
파라미터 수가 많아야 복잡한 논리와 지식을 담을 수 있음 

시각 (Vision):
똑똑해지려면 엄청나게 많은 '문제집(데이터량)'을 풀어봐야 함
언어보다 훨씬 더 방대한 데이터를 처리해야 패턴을 익힘

 

Figure 18: Emergent Modality Specialization. Expert specialization forms naturally. Most experts are text-focused, but later layers contain more vision and multimodal experts.

 

 

한계

1. 처음부터 학습하는 방식을 취했기 때문에 비용 이슈 및 대규모 상용 모델에서의 적용 양상은 조금 다를 수 있을 것

 

 

ps-

여긴 또 다른 용어로 이해하긴 쉽진않네요