AI100の疑問。No.001。Transformerでcifar10が上手く学習できない理由
疑問のステータス
未解決。
疑問の内容
Attention is all you needで有名なTransformerの画像への展開としてViT等があるが、これを画像のデータセットcifar10に適用した場合、たぶん、90%の正解が出せていないと思う。このデータセットは、CNN系のネットワークでは簡単に95%とか、もっと、98%とか出せる(当然、augmentationとかは使う)。 さて、これは何が原因か。 原因として考えられる方向性は2つ。
疑問に対する回答
全くわからない。 ViT他の改良版等が待たれる。Transformerの発展形のPerceiver等の動向にも注目したい。
コメント
この疑問に対する回答とかコメントがあれば、お願いします。