fanta_orange_grapeの（日記というより）記事のつもり

いままでの人生で一番美味しかったもの = 紅茶とトースト(高校生)。

【AI100の疑問】No.001: Transformerでcifar10が上手く学習できない理由

AI100の疑問。No.001。Transformerでcifar10が上手く学習できない理由

疑問のステータス

未解決。

疑問の内容

Attention is all you needで有名なTransformerの画像への展開としてViT等があるが、これを画像のデータセットcifar10に適用した場合、たぶん、90%の正解が出せていないと思う。このデータセットは、CNN系のネットワークでは簡単に95%とか、もっと、98％とか出せる（当然、augmentationとかは使う）。さて、これは何が原因か。原因として考えられる方向性は2つ。

そもそもデータセットが不適切。CNN系のネットワークはこの不適切なデータセットにつきあってしまっているだけという考え方。
データ量が不足。

疑問に対する回答

全くわからない。 ViT他の改良版等が待たれる。Transformerの発展形のPerceiver等の動向にも注目したい。

コメント

この疑問に対する回答とかコメントがあれば、お願いします。