단어를 바라보는 단위 형태소 단위의 토큰화가 널리 사용되는 이유는 무엇일까? 문자 단위에서 토큰화를 하게 되면 정보를 얻기 위해 형태소를 찾아내야해서? zero-shot으로 쓰기에는 좋을 듯
문자 단위 토큰화 사용시 장점? 언어에 따라 필요한 토큰화가 다를텐데, 최소 단위로 토큰화하여 언어에 따라 적합한 방식이 사용되도록
https://seen-point-bd9.notion.site/Tokenizer-Expansion-ecb6d78211a54ba6b3cf8ebc0ec1d105