View profile

Weekly Machine Learning #212

Weekly Machine Learning #212
By piqcy • Issue #213 • View online
News:
Googleが公開した1兆を超えるパラメーターを持つ言語モデルが取り上げられています。GPT-3も含め、スケールアップが大きなトレンドになっています。ML and NLP Research~の記事もこの点に触れています。貧者のためのBERTという論文がありましたが、巨大なモデルの構築は大企業で推進され、それを活用する方法が発明されていく・・・という形になるのでしょうか。
Articles:
事前学習済みモデルを使用した手法が次々と評価精度を塗り替えていく中で、評価の方法も再検討されています。Robustness Gymはその流れで生まれたツールと感じます。転移方法の発明も進んでいますね。パラメーターサイズが大きくなっているので、転移・蒸留の研究も盛んになるのではないかと思います。
Resources:
Table to Textのデータセットについて解説が公開されました。Text 2Table(SQL)/Table2Textは取り上げられることは少ないですが、MicrosoftやSalesforceが力を入れている分野です。Salesforceではデモも公開しているので、興味がある方はぜひ。個人的にはかなり注目しております。塗料を使ったデータセット作成はとても面白いです。エンジニア的にどうしても計算機上の工夫をしてしまいがちなので、こうした物理での工夫は目が覚める思いです。
Listeners:
お便りをいただきました!Transformerについてなかなか鋭いご質問です。

News
Google Brain’s Switch Transformer Language Model Packs 1.6-Trillion Parameters | Synced
ML and NLP Research Highlights of 2020
Articles
Resources
Google AI Blog: ToTTo: A Controlled Table-to-Text Generation Dataset
不可視マーカー(Invisible marker)を用いたセグメンテーションマスクの自動アノテーション手法 | Preferred Networks Research & Development
Listeners
sam_murayamaさんから「Transformerのユニーク性」についてお便りをいただきました。現在機械学習界を席巻しているTransformerについて、非常に示唆に富んだご質問と感じました。
毎週、興味深く読ませていただいております。私は、機械学習を独学で勉強していて、個人では解消できない根本的な疑問をいくつか抱えており、このような企画を通して、いろいろな方と情報交換や相談ができるようになれば嬉しいです。ただし、私は、まだ機械学習の初学者で、以下の質問も初歩的なものなので、取り上げていただくかはそちらでご判断いただければ幸いです。
近年、自然言語処理から生まれたTransformerへの注目は著しく、自然言語のみならず画像など多くの処理への適用が発表されています。ただし、Transformerに使用されている(Self) Attentionという新しいアルゴリズムが自然言語の再帰型DLや画像認識における畳み込みに置き換わってSOTAを実現しているところまでは理解できるのですが、Transformer自体はMulti-headのAttentionに加えて、Positional Encoding, Feed Forward, Add & Normなどのモジュールが組み合わさってできたプラットフォームもしくはツール(?)のようなものと理解しています。従って、Transformer以外にも、似たようなシステムがたくさん現れてもおかしくないように感じるのですが、ほとんどの研究者(特に、Google以外)がTransformerを使用してるのはなぜでしょうか?そもそもTransformerという名称は、Attentionを使用するシステムを総称しているのでしょうか?それとも、Transformerという構成自体が他に真似のできないものになっているのでしょうか?
繰り返しになりますが、大変初歩的な質問で恥ずかしいのですが、ご検討いただければ幸いです。
初出の"Attention Is All You Need“で"Transformer"の名称が現れて以後、同種の構造を持つモデルを"xxxx Transformer"と呼んでいる印象です。久々に見返しましたが、登場時点で"simple network architecture"と宣言しているんですね。物体検出でしばしば見るような精緻な構造という印象はないので、「この組み合わせしかないのか?」という疑問は浮かんでしかるべきと感じます。
ほとんどの研究者がTransformerを使用している理由の対として、「なぜTransformer以外の構造が探されないのか?」があると思います。実際は探されているのかもしれませんが、新しい構造が発見されるスピードよりTransformerがスケールするスピードの方が早いのかもしれません。Sutton先生のBitter Lessonでも述べられているように、サイズと比例して精度が上がるモデルはやはり強いです。Transformerの次が現れるとしたらそれはTransformerよりもっと単純にみえるモデルかもしれません。
ぜひ読者の方のご意見も頂ければと思います。お便り/Twitter上で感想・ご意見を共有していただければ幸いです。この場を通じてディスカッションが盛り上がれば、配信者冥利に尽きます。
Inquiry:
Twitterハッシュタグ: #weeklyml
Did you enjoy this issue?
Become a member for $5 per month
Don’t miss out on the other issues by piqcy
piqcy
By piqcy

make machine learning engineer and researcher more cheerful

You can manage your subscription here.
If you were forwarded this newsletter and you like it, you can subscribe here.
Powered by Revue