1 Abstract
최근 연구에 따르면 교육 데이터 세트의 다양성이 증가하면 대규모 언어 모델에 대한 일반적인 도메인 간 지식과 다운스트림 일반화 기능이 향상되는 것으로 나타났습니다. 이를 염두에 두고 대규모 언어 모델 훈련을 목표로 하는 825GiB 영어 텍스트 코퍼스인 Pile을 제시합니다. The Pile은 기존 및 새로 건설된 22개의 다양한 고품질 하위 집합으로 구성되며, 그 중 다수는 학술 또는 전문 소스에서 파생됩니다. Pile에서 GPT-2 및 GPT-3의 조정되지 않은 성능에 대한 우리의 평가는 이러한 모델이 학술 작문과 같은 많은 구성 요소에서 어려움을 겪고 있음을 보여줍니다. 반대로, Pile에서 훈련된 모델은 Pile의 모든 구성 요소에서 Raw CC 및 CC-100보다 크게 향상되는 동시에 다운스트림 평가 성능도 향상됩니다. 심층적인 탐구 분석을 통해 잠재 사용자를 위해 잠재적으로 관련이 있는 데이터 측면을 문서화합니다. 우리는 해당 구성에 사용된 코드를 공개적으로 제공합니다