지금까지의 LLMs의 모델은 scaling law의 법칙을 따라갔다.
하지만 이곳에선 한계점이 발견된다.
이것은 단순 데이터 양의 문제가 아니라 데이터가 많아질 Semetic Collision이 발생한다.
즉 구조가 달라서 갖고 있는 의미가 유사하기 때문이다.
이유는 모델이 이제 상당히 똑똑하기 때문이다.
| 표면적 중복 | 의미적 중복 | |
| 정의 | 글자 하나하나가 완전한 일지 | 표현은 다르지만 핵심 의미나 정보가 동일 |
| 예시 | 복사 붙여 넣기 된 동일 문장 | 영문 기사와 그 기사의 한국어 번역본 |
| 처리 방식 | Simhash 등으로 필터링 및 제거가 쉬움 | 기존 방식으로 구분 이 어려워 학습에 중복 투입 |
| 모델 인지 | 모든 모델이 동일한 모델로 인식(구분x) | 충분히 역량이 높은 모델만 동일 정보 인식 |
추론의 비약적 발전 확인 가능성
추론이 비약적으로 발전함으로써, 모델의 매개변수와 연산량이 늘어나 데이터 표면적 노이즈를 제거하고 핵심 시맨틱 신호만을 추출할 수 있게 됨.
합성 데이터는 실제 웹 데이터보다 약 10배(one order of magnitude) 빠른 시점에서 시맨틱 다양성 붕괴
확인 하는 방식(평균 최근접 이웃 코사인 유사도(Mean Nearest-Neighbor Cosine)

Figure 3:
NN cosine similarity scaling deviates sharply at large corpus sizes. We embed 190M FineWeb-Edu-Dedup documents with EmbeddingGemma-300m and sample subsets of size ranging from 104-108 without replacement. For each N, we estimate the mean nearest-neighbor cosine similarity using FAISS. Dashed lines show best-fit power laws over the small-N regime where the uniform/vMF null predicts 𝔼[Δi]∝N−2/d. Beyond a scale threshold, the empirical curve steepens (smaller gaps than predicted), indicating substantially more near neighbors than expected under isotropic baselines.
합성데이터의 한계
실제 웹 데이터(FineWeb-Edu-Dedup)와 합성 데이터(Recycling-the-Web)의 시맨틱 밀도를 비교 분석한 결과,
합성 데이터의 구조적 취약성 확인
합성데이터의 한계와 그래서 중요한 것은 초기 좋은 데이터들
다만, 합성데이터의 뜻이 조금씩 다를 수 있다는 것을 주의
존 문서의 패러프레이징(Paraphrasing):
이미 존재하는 웹 문서의 내용을 바탕으로 문맥을 유지한 채 단어나 문장 구조만 바꿔서 다시 쓰게 한 데이터.
형식 변환 및 번역:
동일한 지식이나 정보를 다른 언어로 번역하거나(예: 영어 문서를 프랑스어로 번역), 문장 형태를 대화형이나 Q&A 형식으로 바꾼 데이터.
표면적 변형(Surface transformation):
대소문자를 바꾸거나, 포맷을 변경하여 마치 새로운 문서인 것처럼 생성해 낸 텍스트
결론:
FineWeb' 프로젝트는 웹상의 노이즈를 걷어내고 당대 최고 수준으로 정제한 고품질 데이터를 구축하는 데 성공.
하지만 'Scale Dependent Data Duplication' 연구는 바로 그 '고도로 정제된 데이터'조차도 모델의 규모가 임계점을 넘어서면 '의미적 충돌(Semantic Collisions)'이라는 새로운 형태의 데이터 중복 문제를 피할 수 없음을 입증.
sematic collision data source:
We study semantic collisions by embedding 192M documents from FineWeb-Edu-Dedup (Penedo et al., 2024) documents and analyzing nearest-neighbor (NN) statistics across dataset scales from
documents. We discover that power laws governing scaling for moderate corpus sizes break down for large corpora. This collapse of scaling laws occurs earlier for synthetic corpora, revealing lower semantic diversity.
FineWeb-Edu-Dedup (Penedo et al., 2024)
In this work, we aim to minimize this gap by developing and releasing the FineWeb datasets, a collection of large-scale pretraining datasets that can be used to train performant LLMs. Specifically, we first introduce FineWeb, a 15-trillion token dataset of text sourced from 96 Common Crawl snapshots. FineWeb is sufficiently large to train a Chinchilla-optimal model [1] with more than 500 billion parameters. Beyond scale, FineWeb’s recipe involves a principled strategy for choosing and tuning filtering heuristics that helped produce a small set of effective filters out of over fifty candidate filters from past work. In addition, we performed an in-depth exploration of how different deduplication strategies and granularities can impact performance. To validate our design choices, we ultimately demonstrate that models trained on FineWeb perform better than those trained on other public web-based pre-training datasets. Inspired by recent work advocating for training LLMs on educational data [8, 9], we additionally introduce FineWeb-Edu, a subset of 1.3 trillion tokens from FineWeb that was rated as highly educational by a custom classifier. Models trained on FineWeb-Edu exhibit significantly better performance on knowledge- and reasoning-intensive benchmarks like MMLU [10] and ARC [11]. Both datasets are released under the permissive
ODC-By License. Apart from contributing datasets, we also release datatrove[12], the data processing library we developed to create FineWeb. On the whole, our work represents a significant step towards improving public knowledge and resources for curating LLM pre-training datasets.
'AI' 카테고리의 다른 글
| [ AI/Vision ] 언어와 시각을 한 번에 처리하는 게 어쩌면(Feat. world model) (0) | 2026.03.17 |
|---|---|
| [ AI/LLMs ] 어쩌면 훈련의 방식이 조금 저렴해질지도(Feat. Fine-tunring) (1) | 2026.03.15 |
| [ AI/Harness ]하니스란 말은 무엇인가? (feat. LLMs 외 전부) (0) | 2026.03.08 |
| [ AI/Claude ]Dario Amodei 인도에서 그래도 비전을 말해보다 (1) | 2026.03.03 |
| [ AI/LLMs ] AI 연구의 세 가지 핵심: 메모리, 세계 모델, 추론 (Feat.Joelle Pineau) (1) | 2026.02.08 |