CLS ํ ํฐ๊ณผ Patch ํ ํฐ ์ํธ์์ฉ ์ฌ๊ณ
ViT์์ [CLS] ํ ํฐ๊ณผ patch ํ ํฐ์ ์ฒ๋ฆฌ ๊ฒฝ๋ก๋ฅผ ๋ถ๋ฆฌํ๋ฉด dense prediction ์ฑ๋ฅ์ด ํฅ์๋๋ค
References
๊ธฐ์กด ViT๋ [CLS] ํ ํฐ๊ณผ patch ํ ํฐ์ด ๋ชจ๋ Transformer ๋ ์ด์ด์์ ๋์ผํ๊ฒ self-attention์ ๊ณต์ ํ๋ค. ์ด ๋ ผ๋ฌธ์ ๋ ํ ํฐ ์ ํ์ ์ญํ ์ด ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅด๋ค๋ ์ ์ ์ฃผ๋ชฉ:
| ํ ํฐ | ์ญํ | ์ต์ ์ฒ๋ฆฌ |
|---|---|---|
| [CLS] | ์ด๋ฏธ์ง ์ ์ฒด์ global representation | ๋ถ๋ฅ์ ์ต์ ํ |
| Patch | ๊ฐ ์์น์ local feature | dense prediction์ ์ต์ ํ |
๊ธฐ์กด ๋ฌธ์
๊ธฐ์กด ViT์์ [CLS] ํ ํฐ์ ๋ชจ๋ ๋ ์ด์ด์ attention์ ์ฐธ์ฌํ๋ฉด์ patch ํ ํฐ์ local feature๋ฅผ "์ค์ผ"์ํจ๋ค. ์ด๋ segmentation, detection ๊ฐ์ dense prediction task์์ ์ฑ๋ฅ ์ ํ๋ก ์ด์ด์ง๋ค.
์ ์ ๋ฐฉ๋ฒ: Decoupled Processing
๊ธฐ์กด: [CLS, P1, P2, ..., PN] -> Transformer Layer x L -> [CLS, P1, P2, ..., PN]
์ ์: [CLS] -> CLS Branch (๊ฒฝ๋) -> Global Feature [P1..PN] -> Patch Branch (์ฃผ๋ ฅ) -> Dense Features
์์
- ๋
ผ๋ฌธ: Revisiting [CLS] and Patch Token Interaction in Vision Transformers (ICLR 2026)
- arXiv: 2602.08626
- Meta FAIR
์ด ์ ๊ทผ๋ฒ์ noisy label correction ํ๋ก์ ํธ์์๋ ์์ฌ์ ์ด ์๋ค. Feature extraction ๋จ๊ณ์์ CLS token ๊ธฐ๋ฐ ์ ์ฌ๋์ patch token ๊ธฐ๋ฐ ์ ์ฌ๋๋ฅผ ๋ถ๋ฆฌํด์ ๊ณ์ฐํ๋ฉด ํด๋ฌ์คํฐ๋ง ํ์ง์ด ๋ฌ๋ผ์ง ์ ์์ ๊ฒ ๊ฐ๋ค.
ํนํ ์ ์กฐ ๋๋ฉ์ธ ์ด๋ฏธ์ง๋ ๊ฒฐํจ ์์น๊ฐ ์ค์ํ๋ฏ๋ก dense feature๋ฅผ ํ์ฉํ ์ ์ฌ๋๊ฐ ๋ ์ ์๋ฏธํ ์ ์์.
Questions
- Decoupled ๊ตฌ์กฐ์์ CLS branch๋ฅผ ์์ ์ ๊ฑฐํ๊ณ global avg pooling๋ง ์ฐ๋ฉด?
- ๊ธฐ์กด pretrained ViT์์ fine-tuning์ผ๋ก decoupling์ ์ ์ฉํ ์ ์๋์ง?
- patch feature ์ ์ฌ๋ ๊ธฐ๋ฐ K-means vs CLS feature ๊ธฐ๋ฐ K-means ๋น๊ต ์คํ