🪴 My Second Brain

Search

❯

사전 학습용 텍스트 데이터셋 평가

사전 학습용 텍스트 데이터셋 평가

Mar 13, 2024, 2 min read

그람 슈미츠 직교화를 사용하여 text embedding에 대한 직교 기저를 구한다. → 이는 각 문장에서 독립적인 성분들을 추출해낸 것이므로 데이터셋이 가지는 의미, 문장 구조 등에 대한 정보를 가지고 있을 것이다. 직교화 방법도 여러가지로 가능한가

발표나 보고서에서 시각화 많이 하자.

D4에서 clustering 및 dedup 같은거

사전학습의 중요성.

downstream task에 대한 성능 향상 및 일반 도메인 지식 증가
LLM을 sLM으로 경량화하는 방법들 (knownledge distillation, quatinization, pruning, PEFT)

리소스 부족으로 인해 sLM을 학습시키는 것에 대한 당위성

기존 방법

dedup
pruning
quality
clustering
perplexity → LLM의 학습을 통해 데이터를 평가…

평가 기준

직교 벡터의 분산, 표준편차, 평균 등
크기 분포
직교화가 진행될수록 벡터의 크기가 점점 줄어들 것임 → 변화 추이?
직교화 과정에서 시간 복잡도 $O (n^{2})$ 줄이기

https://ar5iv.labs.arxiv.org/html/2312.01700 https://github.com/ZigeW/data_management_LLM?tab=readme-ov-file#data-quality

직교 변환 관련 https://velog.io/@riverdeer/paper-review-Ultradense-Word-Embeddings-by-Orthogonal-Transformation

Graph View

Backlinks

No backlinks found

Created with Quartz v4.2.2 © 2024

Github
Tistory