1 Abstract

최근 딥러닝의 성공은 부분적으로 훨씬 더 큰 데이터 세트에서 점점 더 과도하게 매개변수화되는 네트워크를 훈련함으로써 비롯되었습니다. 따라서 얼마나 많은 데이터가 불필요한지, 어떤 예제가 일반화에 중요한지, 어떻게 찾을 수 있는지 묻는 것은 당연합니다. 이 작업에서는 표준 비전 벤치마크에서 여러 가중치 초기화에 걸쳐 평균화된 개별 훈련 예제의 초기 손실 기울기 규범을 사용하여 일반화에 중요한 더 작은 훈련 데이터 세트를 식별할 수 있다는 점을 눈에 띄게 관찰했습니다. 또한 몇 번의 훈련 후 기울기 규범의 정보는 테스트 정확도를 희생하지 않고 데이터 세트의 상당 부분을 가지치기하는 데 사용할 수 있는 예측 확률과 하나의 핫 레이블 사이의 표준 오류-L2 거리에 반영됩니다. 이를 기반으로 저희는 훈련 초기에 로컬 정보만 사용하는 데이터 가지치기 방법을 제안하고, 훈련 과정에서 거의 잊혀지지 않는 예제를 폐기하여 데이터를 가지치기하는 최근 작업에 연결합니다. 저희의 방법은 또한 기본 데이터 분포가 훈련 역학을 형성하는 방법을 조명합니다. 일반화에 대한 중요성을 기반으로 예제의 순위를 매기고, 시끄러운 예제를 감지하고, 훈련에 비해 비교적 안정적인 모델 데이터 표현의 하위 공간을 식별합니다.

2 정리

데이터셋을 잘 나타내는, 일반화에 중요한 sample을 찾아내자 데이터를 일정 epoch만큼 학습 시켰을 때 신경망의 출력 의 변화를 관찰. GraNd Score를 사용하여 각 데이터가 신경망에 영향을 끼치는 정도를 계산. 이를 통해 sample 수집 높은 점수를 가지는 sample만으로 학습하는 것이 최적은 아니다. 또한, 노이즈가 일부 존재할 때 더 나은 결과가 나타남. 데이터 품질의 영향을 줄일 수 있다! 학습 데이터의 노이즈가 낮을 수록 GraNd Score가 높은 데이터가 학습시키기에 좋다. CINIC10를 pruning 했을 때 기존 데이터와 동등한 혹은 더 나은 수준의 결과

GraNd Score

#작성중

Paul, Mansheej, Surya Ganguli, and Gintare Karolina Dziugaite. “Deep learning on a data diet: Finding important examples early in training.” Advances in Neural Information Processing Systems 34 (2021): 20596-20607.