1 Abstract
최근 몇 년 동안 대량의 텍스트 데이터가 LLM(대형 언어 모델) 개발에 크게 기여해 왔습니다. 이 데이터는 일반적으로 인터넷을 스크랩하여 수집되며, 이는 시끄러운 웹 텍스트로 구성된 사전 학습 데이터 세트로 이어집니다. 지금까지 이러한 데이터 세트를 더 높은 품질의 하위 세트로 정리하려는 노력은 규칙 기반 필터로 인코딩된 손으로 만든 휴리스틱에 의존해 왔습니다. 이 작업에서 우리는 사전 훈련 데이터의 품질을 체계적으로 측정하는 데 사용할 수 있는 데이터 품질의 확장 가능한 추정치를 더 넓은 관점에서 탐색합니다. 우리는 단순 데이터 품질 추정기인 Perplexity뿐만 아니라 오류 L2-Norm 및 기억에 대한 보다 정교하고 계산 집약적인 추정치 규모로 엄격한 비교를 수행합니다. 이러한 측정항목은 사전 훈련 말뭉치의 순위를 매기고 정리하는 데 사용되며, 이후 정리된 데이터 세트에서 훈련된 LLM을 비교합니다. 놀랍게도 우리는 단순한 당황 기법이 계산 비용이 많이 드는 채점 방법보다 성능이 뛰어나다는 사실을 발견했습니다. 원래 훈련 데이터 세트의 30% 정도만 훈련하면서 가지치기 없는 기준선보다 개선되었습니다. 우리의 작업은 고품질 코퍼스를 자동으로 선별하는 데 있어 탐색되지 않은 전략의 기초를 설정하고 성능을 유지하면서 대부분의 사전 훈련 데이터를 제거할 수 있음을 제안합니다.