그람 슈미츠 직교화를 사용하여 text embedding에 대한 직교 기저를 구한다. → 이는 각 문장에서 독립적인 성분들을 추출해낸 것이므로 데이터셋이 가지는 의미, 문장 구조 등에 대한 정보를 가지고 있을 것이다. 직교화 방법도 여러가지로 가능한가
발표나 보고서에서 시각화 많이 하자.
- D4에서 clustering 및 dedup 같은거
사전학습의 중요성.
- downstream task에 대한 성능 향상 및 일반 도메인 지식 증가
- LLM을 sLM으로 경량화하는 방법들 (knownledge distillation, quatinization, pruning, PEFT)
리소스 부족으로 인해 sLM을 학습시키는 것에 대한 당위성
기존 방법
- dedup
- pruning
- quality
- clustering
- perplexity → LLM의 학습을 통해 데이터를 평가…
평가 기준
- 직교 벡터의 분산, 표준편차, 평균 등
- 크기 분포
- 직교화가 진행될수록 벡터의 크기가 점점 줄어들 것임 → 변화 추이?
- 직교화 과정에서 시간 복잡도 줄이기
https://ar5iv.labs.arxiv.org/html/2312.01700 https://github.com/ZigeW/data_management_LLM?tab=readme-ov-file#data-quality
직교 변환 관련 https://velog.io/@riverdeer/paper-review-Ultradense-Word-Embeddings-by-Orthogonal-Transformation