progress:: 4/9.5
fill:๐ฉ
transition:๐จ
empty:โป๏ธ
prefix:[
suffix:]
length:10Abstract
โ์์ฐ์ด ์์ฑ ๋ชจ๋ธ์ ์ด์ ์ ๋ฌธ๋งฅ์ ๊ธฐ๋ฐ์ผ๋ก ๋จ์ด๋ฅผ ์์ฑํฉ๋๋ค. ๊ธฐ์กด์ ๋ฐฉ์์ ๋ชจ๋ธ์ ์์ธก์ ๋ํ ์ค๋ช ์ผ๋ก ์ ๋ ฅ ๊ธฐ์ฌ๋๋ฅผ ์ ๊ณตํ์ง๋ง, ์์ ๋จ์ด๊ฐ ์ด๋ป๊ฒ ๋ ์ด์ด๋ฅผ ๊ฑฐ์ณ ๋ชจ๋ธ์ ์ํฅ์ ๋ผ์น๋์ง ์์ง ๋ถ๋ถ๋ช ํฉ๋๋ค. ์ด ์ฐ๊ตฌ์์, ์ฐ๋ฆฌ๋ Transformer์ ์ค๋ช ๊ฐ๋ฅ์ฑ์ ๋ํ ์ต๊ทผ์ ๋ฐ์ ์ ํ์ฉํ๊ณ ์ธ์ด ์์ฑ ๋ชจ๋ธ์ ๋ถ์ํ๋ ์ ์ฐจ๋ฅผ ์ ์ํฉ๋๋ค. ๋์กฐ์ ์ธ ์์๋ฅผ ์ฌ์ฉํ์ฌ, ์ฐ๋ฆฌ์ ์ค๋ช ์ด ์ธ์ด ํ์์ ์ฆ๊ฑฐ^[๋ฌธ๋ฒ์ ์ผ๋ก ๋ค์ ๋จ์ด์ ๋ฌด์์ด ์์ผ ํ๋ค๊ณ ์ถ์ ํ ์ ์๋๋ก ํ๋ ์ฃผ๋ ๋จ์๋ค์ ์ธ์ด ํ์์ ์ฆ๊ฑฐ๋ผ๊ณ ํํํ๋ ๋ฏํ๋ค. ์์๋ Table 2 ์ฐธ์กฐ.]์ ์ด๋ป๊ฒ ์ ๋ ฌ๋๋์ง ๋น๊ตํ๊ณ , ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ด ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ๋ฐ ์ญ๋ ๊ธฐ๋ฐ์ ๊ธฐ์ค๋ณด๋ค ์ผ๊ด๋๊ฒ ๋ ์ ์ ๋ ฌ๋จ์ ๋ณด์ฌ์ค๋๋ค. ๊ทธ ๋ค์, Transformer ๋ด๋ถ์ MLPs์ ์ญํ ์ ์กฐ์ฌํ๊ณ , ์ด๋ค์ด ๋ฌธ๋ฒ์ ์ผ๋ก ํ์ฉ๋๋ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ฐ ๋์์ด ๋๋ ํน์ง์ ํ์ตํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ๋ง์ง๋ง์ผ๋ก, ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ ์ ๊ฒฝ ๊ธฐ๊ณ ๋ฒ์ญ ๋ชจ๋ธ์ ์ ์ฉํ์ฌ, ์ด๋ค์ด ์์ธก์ ๊ตฌ์ถํ๋ ๋ฐ ์ธ๊ฐ๊ณผ ์ ์ฌํ source-target alignment^[์ผ๋ฐ์ ์ผ๋ก alignment๋ ๋จ์ด ๋๋ ๋ฌธ์ฅ ๊ฐ์ ๋์์ ๋ํ๋ด๋ ๋ฏ ํจ. source vector๋ฅผ ์๋ง์ target vector์ ๋์ ์ํจ๋ค๋ ์ ์์ ์ ๋ ฌ์ด๋ผ๊ณ ํํํ๋ ๋ฏ]์ ์์ฑํ๋ค๋ ๊ฒ์ ์ ์ฆํฉ๋๋ค.
1 Introduction
โ์ธ์ด ๋ชจ๋ธ๋ค, ํนํ Transformer ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ๋ค (Brown et al., 2020; Zhang et al., 2022a)์ ์ต๊ทผ ์์ฐ์ด ์ฒ๋ฆฌ ๋ถ์ผ์ ํ๋ช ์ ์ผ์ผ์ผฐ์ต๋๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ์ด ๋ชจ๋ธ๋ค์ด ์ด๋ป๊ฒ ์ธ๊ฐ์ ์ธ์ด์ ์ ์ฌํ ์ธ์ด๋ฅผ ์์ฑํ๋ ์ง์ ๋ํ ์ดํด์๋ ์ฌ์ ํ ๊ฐ๊ทน์ด ์์ต๋๋ค. ์ด๋ ํน์ ์ํฉ์์ ๋ชจ๋ธ์ ์คํจ ์์ธ์ ๊ฒฐ์ ํ ์ ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ฉฐ, ์ด๋ก ์ธํด halluination์ ํฌํจํ๊ฑฐ๋ ์ ํดํ ๋ด์ฉ์ ์์ฑํ ์ ์์ต๋๋ค.
โNLP ๋ชจ๋ธ ์์ธก์ ์ค๋ช
๊ฐ๋ฅ์ฑ์ ๋ํ ์์ ์ฐ๊ตฌ๋ค ์ค ๋๋ค์๋ ์ผ๋ฐ์ ์ผ๋ก ์์ ์ถ๋ ฅ ์ฐจ์์ ๊ฐ์ง๋ ํ
์คํธ ๋ถ๋ฅ๋ ์์ฐ์ด ์ถ๋ก ๊ณผ ๊ฐ์ ๋ค์ด์คํธ๋ฆผ ์์
์ ์ค์ฌ์ผ๋ก ์ด๋ฃจ์ด์ก์ต๋๋ค (Atanasova et al., 2020; Bastings et al., 2022; Zaman and Belinkov, 2022). ์ด ์ฐ๊ตฌ ๋ถ์ผ์๋ attention mechanism ๋ถ์์ ์ค์ ์ ๋ ๋ง์ ์ฐ๊ตฌ(Jain and Wallace, 2019; Serrano and Smith, 2019; Pruthi et al., 2020)์ ์
๋ ฅ ๊ธฐ์ฌ๋ ์ ์๋ฅผ ์ป๊ธฐ ์ํด ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ(Li et al., 2016a; Sundararajan et al., 2017)์ ์ ์ฉํ๋ ์ฐ๊ตฌ๋ ํฌํจ๋ฉ๋๋ค.
Table 1:
โ์ต๊ทผ ๋ค์ด, ์ฌ๋ฌ ์ฐ๊ตฌ๋ค์ ์ธ์ด ๋ชจ๋ธ๋ง ์์
์์ Transformer์ ํด์ ๊ฐ๋ฅ์ฑ์ ๋ํด ๋ค๋ฃจ๊ณ ์์ต๋๋ค (Vaswani et al., 2017). Elhage et al. (2021)์ Figure 1์ ์ค๋ช
๋ Transformer๋ฅผ ๋ค์ํ ์์(MLPs, attention headsโฆ)๊ฐ residual stream์ ํ์ ๊ณต๊ฐ์ ์ฝ๊ณ ์ฐ๋ residual stream์ ๊ด์ ^[residual connection์ผ๋ก ์ฐ๊ฒฐ๋ stream, ํ๋ฆ์ ์ ๋ณด๋ฅผ ์ถ๊ฐํด ๋๊ฐ๋ ๊ฒ์ write into the residual stream์ด๋ผ๊ณ ํํํ ๊ฑฐ ๊ฐ๋ค. ์ฆ, ์ด ๋
ผ๋ฌธ์์๋ attention๊ณผ MLP ๋ฑ์ residual stream์ ์ ๋ณด๋ฅผ ์ฝ๊ณ ์์ ํด ๋๊ฐ๋ ์ญํ ์ด๋ผ๊ณ ํด์ํ๋ค (Figure 1 ์ฐธ์กฐ).]์์ ์ฐ๊ตฌํ์์ต๋๋ค. ์ด ์ ๊ทผ๋ฒ์ attention heads๊ฐ ๋งฅ๋ฝ์ ํ์ํ์ฌ ๋์ผํ ํ ํฐ์ ์ด์ ๋ฐ๋ณต์ ์ฐพ๊ณ ๋ค์ ํ ํฐ์ ๋ณต์ฌํ๋ induction heads (Olsson et al., 2022)๋ Indirect Object Identification (IOI) ํด๊ฒฐ์ ํนํ๋ heads(Wang et al., 2023) ๊ฐ์ด ์ธ์ด ๋ชจ๋ธ๋ค์ ํน์ ํ๋์ ์ค๋ช
ํ๋ ๋ฐ์ ๋์์ด ๋์์ต๋๋ค. ๋น์ทํ๊ฒ, Transformer ๋ด๋ถ์ MLPs ๋ํ residual stream์ ์ฐ๋ ์์๋ก ์ฐ๊ตฌ๋์ด ์์ต๋๋ค. Geva et al. (2022)์ MLP ๋ธ๋ก์ด value๋ฅผ residual์ ์ถ๊ฐํ๋ key-value meory ์ฒ๋ผ ๋์ํ์ฌ ์ ์ฌํ ์๋ฏธ๋ฅผ ๊ฐ์ง ๋จ์ด๊ฐ ์์ธก๋๋๋ก ํ ์ ์์์ ๊ด์ธกํ์์ต๋๋ค.
โ๋ ๋์๊ฐ, attention heads, output weigh matrix ๊ทธ๋ฆฌ๊ณ layer normalization์ผ๋ก ๊ตฌ์ฑ๋ transformer์ attention mechnism์ ํด์ ๊ฐ๋ฅํ ์์ ์ผ๋ก ๋ถํด ๊ฐ๋ฅํ๊ณ (Kobayashi et al., 2020, 2021), ์ ๋ขฐ์ฑ์ด ๋งค์ฐ ๋๋ค๊ณ ์ฆ๋ช ๋ ๋ ์ด์ด๋ณ ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค (Ferrando et al., 2022b,a).
โ์ด ์ฐ๊ตฌ์์ ์ฐ๋ฆฌ๋ Transformers language generators์ ์์ธก์ ์ค๋ช ํ๊ธฐ ์ํด attention ๋ถํด์ ํจ๊ป residual stream analysis์ ๊ด์ ์ ์ฌ์ฉํ๋ ๊ฒ์ ์ ์ํฉ๋๋ค. ์ฐ๋ฆฌ์ ์ ๊ทผ ๋ฐฉ์์ ๊ฐ ๋ ์ด์ด์์ ๊ฐ๊ฐ์ token representation์ ์ํด ๋ํด์ง๊ฑฐ๋ ๋นผ์ง logit์ ์์ ์ธก์ ํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ๋ ์ด์ด๋ฅผ ๊ฑฐ์ณ ์ง๊ณํจ์ผ๋ก์จ ๋ชจ๋ธ ์ ๋ ฅ์ผ๋ก logit ๊ธฐ์ฌ๋๋ฅผ ์ถ์ ํฉ๋๋ค (Logit explanation). ์ถ๊ฐ์ ์ผ๋ก, ALTI(Ferrando et al., 2022b)๋ฅผ ์ฌ์ฉํ์ฌ ์ค๊ฐ ๋ ์ด์ด์์ ์ ๋ณด์ ํผํฉ์ ๊ณ ๋ คํฉ๋๋ค (ALTI-Logit explanation).
โ์ ์๋ ํด์ ๊ฐ๋ฅ์ฑ์ ๋ํ ๋ฐฉ์์ ํ๊ฐํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ์ต๊ทผ์ ์๊ฐ๋ constrastive explanation framework(Yin and Neubig, 2022)๋ฅผ ๋ฐ๋ฅด๋ฉฐ ์ด๋ ๋ชจ๋ธ์ด ์ด๋ฏธ ๋ช๋ช ์ธ์ด์ phenomena evidence์ ์ํด ์ค๋ช ๋ foil token ๋์ ํน์ token์ ์์ธกํ ์ด์ ๋ฅผ ์ค๋ช ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋์ ์ฐ๋ฆฌ๋ MLPs์ ์ญํ ์ ๋ถ์ํ๊ณ ๊ทธ๋ค์ด ๋ฌธ๋ฒ์ ๋ฐ๋ฅด๋ prediction์ ์ ํํ๋ ๋ฐ์ ๋์์ ์ค๋ค๋ ๊ฒ์ ๋ณด์์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก, ์ฐ๋ฆฌ๋ NMT ๋ชจ๋ธ๋ค์ด ๋ฒ์ญ๋ฌธ์ ๋ง๋ค๊ธฐ ์ํด ์ฌ๋๊ณผ ์ ์ฌํ source-target alignment๋ฅผ ์์ฑํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.1
2 Approach
2.1 Residual Stream
Figure 1: residual stream์ ์ฐ๋ ๋ชจ๋๋ก์จ ํํ๋ Transformer ์ธ์ด ๋ชจ๋ธ
โ์ธ์ด ์์ฑ์ด timestep ๋ฅผ ๋ฐ๋ผ ์ฃผ์ด์ง ๋, ๋ง์ง๋ง ๋ ์ด์ด์ ์ถ๋ ฅ2 ์ ๋ค์ token ์์ธก์ logit์ ๊ตฌํ๊ธฐ ์ํด unembedding matrix ๋ฅผ ์ฌ์ฉํ์ฌ token embedding space๋ก ์ฌ์๋ฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋์, ์ดํ์ ๋ํ ํ๋ฅ ๋ถํฌ๋ฅผ ์ป๊ธฐ ์ํด softmax ํจ์๋ฅผ ์ ์ฉํฉ๋๋ค:
โTransformer์ residual connection์ ๊ฐ ๋ธ๋ก ์ดํ์ ์ ๋ฐ์ดํธ๋๋ ์ ๋ณด์ stream์ผ๋ก ๋ณผ ์ ์์ต๋๋ค (nostalgebraist, 2020; Elhage et al., 2021; Mickus et al., 2022). ๋ ์ด์ด ์์ ์์น์ residual stream์ โ์ฐ๋โ MLP์ self-attention ๋ธ๋ก์ , ์ด๋ผ๊ณ ํ๊ฒ ์ต๋๋ค (Figure 1). residual stream์ ์ต์ข ์ํ๋ ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์์ต๋๋ค:
ํน์ ํ next token prediction์ ์ต์ข logit ๋ residual stream์ ์ต์ข ์ํ์ ์ ๋ฒ์งธ ์ด3์ ๊ณฑํ์ฌ ๊ณ์ฐํ ์ ์๋ค:
์ ํ์ฑ์ ์ํด:
Figure 2: self attention ๋ธ๋ก์ ์ถ๋ ฅ์ด ๊ฐ ๋ ์ด์ด์์ ์ logit์ ์
๋ฐ์ดํธํ๋ค (์ผ์ชฝ). logit์ ์
๋ฐ์ดํธ๋ ๊ฐ input token์ ๋ํด ๋ถํด๋ ์ ์๋ค (์ค๋ฅธ์ชฝ).
2.2 Multi-head Attention as a Sum of Vectors
โKobayashi et al. (2021)์ Post-LN self attention ๋ธ๋ก ๋ถํด์ ์๊ฐ์ ๋ฐ์, ์ฐ๋ฆฌ๋ ํ์ฌ์ LMs์์ ํํ ๋ณผ ์ ์๋ Pre-LN ์ค์ ์ ์ ์ฌํ ์ ๊ทผ ๋ฐฉ๋ฒ์ ์ ์ฉํ์์ต๋๋ค (์ ์ฒด ์ ๋ ๊ณผ์ ์ ๋ถ๋ก A ์ฐธ์กฐ). ๊ฐ ์์ฑ ๋จ๊ณ ์์ self-attention ๋ธ๋ก์ ์ถ๋ ฅ์ ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์์ต๋๋ค:
์ด ๊ฐ ๋ ์ด์ด์ input token representation (๋๋ residual stream) ์ ์ ์ฉ๋ Affine transformation์ด๋ผ๊ณ ํ๋ฉด:
๋ value๋ฅผ ์ด๋ฃจ๋ ํ๋ ฌ, attention ์ถ๋ ฅ ํ๋ ฌ (head ๋น), ๊ทธ๋ฆฌ๊ณ ์ด์ ๋์๋๋ bias๋ ์ด๋ค. ์ด๋ ๋ attention weight ํ๋ ฌ, ๋ bias์์ ์ ๋ํ remaining terms ๊ทธ๋ฆฌ๊ณ ๋ centering, normalizing ๊ทธ๋ฆฌ๊ณ layer normalization์ scaling ์ฐ์ฐ์ ํตํฉํ ๊ฒ์ด๋ค (๋ถ๋ก A ์ฐธ์กฐ).
2.3 Layer-wise Contributions to the Logits
์ (4)์ ์ (5)๋ฅผ ํ์ฉํ์ฌ ๋ค์์ ์ป์ ์ ์์ต๋๋ค4 :
โ๊ฐ self-attention์ ๋ํ logit์ ๋ณํ๋ ์ ๊ฐ๊ฐ์ โ์ ๋ํ ๊ฐ๋ณ ์ ๋ฐ์ดํธ๋ก ํ์ฅ๋ ์ ์์ต๋๋ค(๊ทธ๋ฆผ 2 ์ฐธ์กฐ). ๊ทธ๋ฌ๋ฏ๋ก, output token ์ ๋ํ ๊ฐ ๋ ์ด์ด์ input token representation์ ๊ธฐ์ฌ๋ ์ logit์ ๋ณํ ์ํค๋ ๊ฒ์ผ๋ก ์ ์๋ฉ๋๋ค:
์ด์ ๋น์ทํ๊ฒ, logit์ ๋ณํ๋ ์ (6)์ affine transformation์ unembedding ํ๋ ฌ์ ๊ณฑํ์ฌ head level์์ ๊ณ์ฐ๋ ์ ์์ต๋๋ค.
2.4 Tracking Logit Updates to the Input Tokens
โ๊ฐ๊ฐ์ residual stream์ด ๋ ์ด์ด ์ ๋ฐ์ ๊ฑธ์ณ token์ identity๋ฅผ ์ ์งํ๋ค๊ณ ๊ฐ์ ํ๋ฉด, input token ์ ์ํด ์์ฑ๋ ์ ๋ํ ์ ์ฒด logit ๋ณํ๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋๋ค.
์ด๋ ์ ์ฒด ๋ ์ด์ด์์ s๋ฒ์งธ ํ ํฐ์ intermediate representation์ ์ํ logit ๋ณํ์ ํฉ ์ ๋๋ค. ์ด์ ๋ถํฐ, ์ฐ๋ฆฌ๋ ์ด๋ฅผ explanation์ด๋ผ๊ณ ํ๊ฒ ์ต๋๋ค.
โํ์ง๋ง, ์ค๊ฐ ๋ ์ด์ด์์ ๊ฐ๊ฐ์ residual stream์ ํผํฉ๋ input token๋ค์ ๋ํ๋ ๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก, ์ ๋ชจ๋ธ์ input token s=j์ ์ํ ๊ฒ์ด๋ผ๊ณ ์ง์ ์ ์ผ๋ก ํด์ํ ์ ์์ต๋๋ค. ์ฐ๋ฆฌ๋ residual stream์ ๋ฌธ๋งฅ ์ ๋ณด๊ฐ ํผํฉ๋๋ ๊ฒ์ ์ธก์ ํ์ฌ ๋ชจ๋ธ์ input์ ๋ํ logit ๋ณํ๋ฅผ ์ถ์ ํ๋ ๊ฒ์ ์ ํํฉ๋๋ค. ์ด๋ฅผ ์ํด ์ฐ๋ฆฌ๋ ALTI (Ferrando et al., 2022b)๋ฅผ ์ฌ์ฉํฉ๋๋ค. ALTI์ rollout method๋ฅผ ์ฌ์ฉํ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ(Abnar and Zuidema, 2020; Mohebbi et al., 2023)์ token representation์ด ์ด์ ๋ ์ด์ด์ representation์ ์ ํ ๊ฒฐํฉํ์ฌ ํ์ฑ๋๋ค๊ณ ๊ฐ์ ํฉ๋๋ค. ์ฆ, ์ด๊ณ ์ด๋ ์ ๋๋ค. ์ ์ ๋ํ ์ ๊ธฐ์ฌ๋๋ฅผ ๋ํ๋ ๋๋ค. ๋ ์ด์ด๋ณ ๊ณ์ ํ๋ ฌ์ ๊ณฑํจ์ผ๋ก์จ ์ ์ป์ ์ ์๊ณ ์ด๋ฅผ ํตํด ๊ฐ ์ค ๋ ์ด์ด์ representation์ input token์ ์ ํ ๊ฒฐํฉ์ผ๋ก ํํํ ์ ์์ต๋๋ค .
โ์ ์ด s๋ ๋ ์ด์ด ์ ์ ๋ ฅ๋๋ ๊ฐ token representation์ ์ธ์ฝ๋ฉ๋ s๋ฒ์งธ input token์ ๊ธฐ์ฌ๋ ๋น์จ์ ํฌํจํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ์ ์์ ํตํด input token (Figure 3, ์ค๋ฅธ)์ ์ํ next predicition token ์ logit ๋ณํ๋ฅผ ์ป์ ์ ์์ต๋๋ค:
โ๋ ์์ธํ ์ค๋ช ์ ๋ถ๋ก B์ ์์ต๋๋ค. prediction token ์ ๋ํ ๋ฒ์งธ input token์ ์ต์ข ์ ์ธ ๊ธฐ์ฌ๋ ๊ฐ ๋ ์ด์ด logit ๋ณํ์ ํฉ์ผ๋ก ๊ตฌํ ์ ์์ต๋๋ค:
์ฐ๋ฆฌ๋ ์ด ๋ฐฉ๋ฒ์ explanation์ด๋ผ๊ณ ํ๊ฒ ์ต๋๋ค. ์ฐ๋ฆฌ๊ฐ ๋ฌธ๋งฅ์ ์ธ ์ ๋ณด๊ฐ ํผํฉ๋๋ ๊ฒ์ ๊ณ ๋ คํ์ง ์๋๋ค๋ฉด, ์ด ๋จ์ ํ๋ ฌ์ด ๋์ด explanation์ด ๋๋ค๋ ๊ฒ์ ๊ธฐ์ตํด๋์ธ์ (์ (9)).
2.5 Constrastive Explanations
โconstrastive explanation (Yin and Neubig, 2022)์ ๋๋ค๋ฅธ foil token ๋์ ์ ์ target token ๋ฅผ ์ ํํ์๋์ง์ ์ง์คํฉ๋๋ค. ์ฐ๋ฆฌ๋ ์ด๋ฌํ ๊ฒฐ์ ์ ๊ฐ token์ด ์ ๊ฐ์ final logit difference()์ ์ผ๋ง๋ ๊ธฐ์ฌํ๋์ง๋ฅผ ํตํด ์ค๋ช ํ ์ ์์ต๋๋ค. ์ (9)์ ์(11)์ ๋ฐ๋ผ, input token์ Constrastive Logit๊ณผ Constrastive ALTI-Logit5 saliency score๋ฅผ ๊ทธ๋ค์ logit ์ฐจ์ ๋ํ ๋ณํ๋ก ์ ์ํ ์ ์์ต๋๋ค:
3 Experimental Setup
โ์ฐ๋ฆฌ๊ฐ ์ ์ํ ๋ฐฉ๋ฒ์ ์ฑ๋ฅ์ constrastive explanation์ ํตํด ํ๊ฐํ์์ต๋๋ค. Yin and Neubig (2022)์ ๋ฐ๋ผ, ๋ฌธ๋ฒ์ ์ผ๋ก ๋ง๋ ์ฝ๊ฐ ๋ณํ๋ ๋ฌธ์ฅ๋ค์ด ์ง์ง์ด์ง BLiMP dataset (Warstadt et al., 2020)์ ์ผ๋ถ๋ฅผ ์ฌ์ฉํ์์ต๋๋ค. 11๊ฐ์ subset์ 5๊ฐ์ ์ธ์ด์ ํ์์ ๋ฐ๋ฆ ๋๋ค: anaphor agreement, arguent structure, determiner-noun agreement, NPI licensing ๊ทธ๋ฆฌ๊ณ subject-verb agreement.
| Phenomena | ID | Example(Acceptable/Unacceptable) |
|---|---|---|
| Anaphor Agreement | aga | Karla could listen to herself/himself. |
| ana | Eva approached herself/themselves. | |
| Argument Stucture | asp | Gerald is hated by the teachers/pie. |
| Determiner-Noun Agreement | dna | Eva has scared these children/child. |
| dnai | Tammy was observing that man/men. | |
| dnaa | The driver sees that unlucky person/people. | |
| dnaai | Phillip liked that smooth horse/horses. | |
| NPI Licensing | npi | Even Danielle also/ever leaves. |
| Subject-Verb Agreement | darn | The grandfathers of Diana drink/drinks. |
| ipsv | Many people have/has hidden away. | |
| rpsv | Most associations buy/buys those libraries. | |
| Table 2: ์์: Table 8์ Yin and Neubig (2022)์ ์ํด ์ฌ์ฉ๋ BLiMP phenomenons (acceptable/unacceptableํ ๋จ์ด๋ฅผ bold๋ก ํ๊ธฐ). ๋ฐ์ค๋ก ํ์๋ ๋จ์ด๋ค์ ์ธ์ด์ ํ์์ ์ค๋ช ํ๊ธฐ ์ํ ์ฆ๊ฑฐ๋ฅผ ๋ํ๋ ๋๋ค. (๊ท์น์ ๋ฐ๋ผ ์ถ์ถ๋จ) |
โ๊ฐ ์ธ์ด์ ํ์์ ๋ํด, ์ฐ๋ฆฌ๋ spaCy (Honnibal and Montani, 2017)์ ์ฌ์ฉํ์๊ณ (previous tokens์์) ๋ฌธ๋ฒ์ ์์ฉ์ฑ์ ๋ท๋ฐ์นจํ๋ ์ฆ๊ฑฐ๋ฅผ ์ฐพ๊ธฐ ์ํด Yin and Neubig (2022)์ ๊ท์น์ ๋ฐ๋์ต๋๋ค (Table 2). anaphor agreement๋ฅผ ์ํด, target token๊ณผ ์ํธ ์ฐ๊ด๋ ๋ชจ๋ context token์ ์ป์์ต๋๋ค. Determiner-noun agreement์ ์ฆ๊ฑฐ๋ ๋์์ด ๋๋ ๋ช ์ฌ์ determiner(ํ์ ์)๋ก ๋ถํฐ ์ฐพ์ ์ ์์ต๋๋ค. NPI licensing์์, โevenโ์ด๋ผ๋ ๋จ์ด๋ acceptableํ ๋์์์ ๋ํ๋ ์ ์์ง๋ง, unacceptableํ ๋จ์ด์์๋ ๋ํ๋ ์ ์๋ค. ๋ง์ง๋ง์ผ๋ก, subject-verb agreement ํ์์์, ๋์์ ํํ๋ ๋์์ด ๋๋ ๋ช ์ฌ์ ์์ ์ผ๋ก ์ผ์นํด์ผ ํ๋ฉฐ, ์ด๋ ์ฆ๊ฑฐ๋ก์ ์ฌ์ฉ๋ฉ๋๋ค. ์ฐ๋ฆฌ๋ Yin and Neubig (2022)์ ๋ฌ๋ฆฌ, ipsv์ rpsv subset์ ํฌํจ๋ ๋ฌธ์ฅ์ ๋๋ถ๋ถ์ด โ์ ๋์ฌ+์ฃผ์ด์ ์ค์ฌ์ด+๋์ฌโ๋ก ์ด๋ฃจ์ด์ ธ ์๊ณ , ์ ๋์ฌ์ ์ฃผ์ด์ ์ค์ฌ์ด ๋ ๋ค agreement๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฌ์ฉ๋ ์ ์๊ธฐ ๋๋ฌธ์ ์ ์ธํ์ต๋๋ค.
โ์ฐ๋ฆฌ๋ ๋ถ์์ SVA (subject-verb agreement) (Linzen et al., 2016)๊ณผ Indirect Object Identification (IOI) (Wang et al. 2023, Fahamu, 2022) dataset์ ์ถ๊ฐํ์์ต๋๋ค. SVA dataset์๋ ์ฃผ์ด์ ๋ค๋ฅธ ์์ ๋ช ์ฌ๊ฐ ํฌํจ๋์ด ์์ด saliency method๋ฅผ ํ๊ฐํ๋ ๋ฐ์ ์ ํฉํฉ๋๋ค. Indirect object identification (IOI)๋ โAfter Lee and Evelyn went to the lakeโ์ ๊ฐ์ ์ด๊ธฐ ์ข ์์ ์ ๊ฐ์ง ๋ฌธ์ฅ๋ค์์ ๋ํ๋๋ ํน์ง์ด๋ฉฐ, ์ด์ด์ง๋ ์ฃผ์ ์ โLee gave a grape to Evelynโ๊ณผ ๊ฐ์ต๋๋ค. ๊ฐ์ ๋ชฉ์ ์ด โEvelynโ๊ณผ ์ฃผ์ด โLeeโ๋ ์ด๊ธฐ ์ ์์ ๋ฐ๊ฒฌ๋ฉ๋๋ค. IOI dataset์ ๋ชจ๋ ์์์์, ์ฃผ์ ์ ๋ค์ ์ฃผ์ด๋ฅผ ์ฐธ์กฐํ์ฌ ๊ฐ์ ๋ชฉ์ ์ด์ ๊ฐ์ฒด๋ฅผ ์ ๋ฌํฉ๋๋ค. IOI task์ ๋ชฉํ๋ ๋ฌธ์ฅ์ ๋ง์ง๋ง ๋จ์ด๊ฐ IO์ธ์ง ์์ธกํ๋ ๊ฒ์ ๋๋ค. IOI์ ์์์, IO๋ฅผ ์์ธกํ๋ ๊ท์น์ IO ์์ ์ด ์ฒซ ์ ์ ์์ด์ผ ํ๋ค๋ ๊ฒ์ ๋๋ค.
โ์ฐ๋ฆฌ๋ HuggingFace library (Wolf et al., 2020)๋ฅผ ํตํด (Yin and Neubig, 2022) ์์์ ๊ฐ์ด GPT-2 XL (1.5B) model (Radford et al., 2019)์ ์ฌ์ฉํ์๊ณ , GPT-2 Small (124M)์ GPT-2 Large models (774M), OPT 125M (Zhang et al., 2022b) ๊ทธ๋ฆฌ๊ณ BLOOMโs 560M and 1.1B variants (Workshop et al., 2022)๊ณผ ๊ฐ์ ๋ค๋ฅธ autoregressive Transformer language models ๋ํ ์ฌ์ฉํ์์ต๋๋ค.
Alignment MetricsโYin and Neubig(2022)์ ๋ฐ๋ผ, ์ฐ๋ฆฌ๋ ๋ฅผ previous token ์ ๋งํผ์ ์ฐจ์์ ๊ฐ์ง๋ binary vector ์ด๊ณ , evidence์ ํฌํจ๋๋ token์ ์์น๋ฅผ ์ ์ธํ๊ณ ๋ ๋ชจ๋ 0์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ์ฆ, ์์ธก์ด ์์กดํ๋ token์ ๊ท์น์ ์ํด ์ถ์ถ๋ฉ๋๋ค. explanation์ ๋ง์ฐฌ๊ฐ์ง๋ก ์ธ ๋ฒกํฐ์ ๋๋ค. explanation๊ณผ evidence๊ฐ์ alignment๋ฅผ ํ๊ฐํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ MRR (Mean Reciprocal Analysis)๋ฅผ ์ฌ์ฉํฉ๋๋ค. token์ ๋ด๋ฆผ์ฐจ์์ผ๋ก ์ ๋ ฌํ์ฌ, MRR์
References
Footnotes
-
์ด ๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ ์ฝ๋๋ https://github.com/mt-upc/logit-explanations ์ ์์ต๋๋ค. โฉ
-
์ฐ๋ฆฌ๋ ์ด๋ฅผ ์ด ๋ฒกํฐ๋ก ๋ํ๋ด๋ ๊ฒ์ ์ ํธํฉ๋๋ค. โฉ
-
์ฐ๋ฆฌ๊ฐ ํ๋ ฌ ์ j๋ฒ์งธ ํ์ ๋์ ์ ๋ผ๊ณ ํ๊ธฐํ๋ ๊ฒ์ ์ ํธํ๋ค๋ ์ ์ ์์๋์ธ์. โฉ
-
bias๋ ๊ณต๊ฐ์ ์ ์ฝํ๊ธฐ ์ํด ํ๊ธฐํ์ง ์์์ต๋๋ค. โฉ
-
์ด ๋ ผ๋ฌธ ์ ์ฒด์์ ์ฐ๋ฆฌ๋ Logit๊ณผ ALTI-Logit์ ๋์กฐ์ ๋ณํ๋ฅผ ๋น๊ตํ๊ธฐ ์ํด ์ฌ์ฉํฉ๋๋ค. โฉ