Title: Training data-efficient image transformers & distillation through attention [2021, facebook ai]
Task: Image classification
Dataset: ImageNet banchmark
Contribution:
DeiT는 구글에서 발표한 ViT model에 Knowledge Distillation을 추가한 모델이다. 이때 teacher network로 RegNetY를 사용하여 convnet의 inductive bias를 잘 전달 받을 수 있었고, transformer의 단점 중 하나인 대량의 학습 데이터가 필요하다는 한계를 해결하여 오직 ImageNet data를 이용하여 SOTA를 달성하였다.
Model :
모델은 ViT 구조를 그대로 사용하며, input vector에 distillation token을 추가하였다.
Loss 1) Soft Distillation :
teacher network는 convnet을 사용했고, τ the temperature for the distillation를 이용하여 label smoothing을 적용했고, λ로 CE Loss와 KL Loss의 balance를 조절하였다.
2) Hard Distillation:
KL loss대신 teacher network에서 softmax결과를 argmax해서 y_t를 뽑고, 거기에 label smoothing을 적용하였다. 논문에서는 Hard Distillation을 사용했을때 더 성능이 좋았다고 한다
Result :
DeiT-B⚗ (384 ) -> (distillation 기호때매 증류 아이콘 생성), Distillation을 사용하고 fine tuning시 resolution을 384로 늘린 옵션이 가장 성능이 좋았다고 한다
downstrea tasks에서도 아주 준수한 성능을 보여줬다
Comment : 2012년 AlexNet을 기점으로 image understanding task에서 약 10년동안 다양한 convnet기반의 model들이 연구되었습니다. 최근에 transformer를 Computer Vision 분야에 적용하려는 연구들이 활발한데, 초기 단계임에도 불구하고 상당한 성능을 보여줘 놀라웠고, 앞으로 많은 기대를 하면서 관련된 논문들을 볼 수 있을것 같습니다. DeiT는 구글에서 발표된 ViT에 distillation token을 결합한 model로 teacher network로는 regnetY를 사용했습니다. 또한 transformer의 특징으로 inductive bias가 작은 점이 있었는데, 이를 distillation에서 convnet을 사용해서 보완했다고 합니다. 현재 project에 적용이 가능할까 생각을 해봤는데, regNetY, transformer 둘다 작은 size도 아니고많은 학습 시간을 요구하는 model(DeiT-S 등 light한 모델도 8개의 cpu로 3일이 걸렸다고 합니다)들이라 쉽지 않을것 같습니다. light-weight transformer도 찾아보긴했는데 도움이 될지는 모르겠네요