View profile

Weekly Machine Learning #218

Weekly Machine Learning #218
By piqcy • Issue #219 • View online
News:
画像xテキスト双方を学習したモデルCLIPの解析を行った記事が公開されました。実画像だけでなくイラストや画像中のテキストにも反応する、さらに被写体の関連まで学習しているよう?で驚きです。事前学習のステージは大規模かつマルチモーダルへとシフトしていきそうです(あと加わるとしたらオンラインでしょうか)。Kaggleのコンペティション振り返りは興味深いです。自然言語処理のコンペティションがないのはちょっと寂しいですね。
Articles:
TransformerをBackbone Networkに適用した論文が公開されました。CNNからの置き換えがいよいよ進んでいく予感がします。E(n) Equivalentは興味深い研究です。GNNも結局Self-Attentionでしょ?となってTransformerに置き換わっていくのか、Self-Attentionが結局グラフだから最終的にGNNに近くなっていくのか、気になるところです。大規模自己教師の結果を見ると、「機械学習はまずアノテーションから」という常識自体覆るのかなという気がします。最終的にアノテーションデータが必要なことに変わりはありませんが、それよりデータの収集/学習の物量をこなせるパイプラインが整備されていることの方が重要になるかもしれません。
Resources:
DEIM2021のセッションはとても面白いです。非常にバラエティ豊かで、きっと興味あるセッションが見つかるのではないかと思います。変わり種ではファンデーションの塗りむらをへらすという研究もあったので、気になる方はぜひ(年を重ねると日焼け止めの塗りむらも防ぎたい今日この頃です)。Poetryを使用したライブラリ管理は押さえておきたいTipsです。PyPIでの公開にチャレンジしたい方はぜひ。
Listeners:
お便りをたくさんいただいたため回答していきます!
Twitterハッシュタグ: #weeklyml

News
Multimodal Neurons in Artificial Neural Networks
Kaggleランカーの9人に聞いた、2020年面白かったコンペ9選と論文9選 | 宙畑
原稿作成・投稿要領 | MIRU2021
Articles
PVTのステージ処理
PVTのステージ処理
Resources
DEIM2021 第13回データ工学と情報マネジメントに関するフォーラム
poetryを利用した動的なバージョン管理とGitHub ActionsによるPyPIへのrelease - Stimulator
Release Release 0.8 · flairNLP/flair · GitHub
Listeners
begin kaggleさんより、「MLの基礎学び直し」についてお便りをいただきました。
いつも密かに読んでます。ソースのリンクもあるので助かってます。
NNに触れてきて、pytorchライブラリで実装もencoder decoderくらいまでならできるという段階まではきました。
最近NFNetのintroとmethodのさわりを読んでみたところ、勾配の偏りを無くせばうまく行きそうと、感覚的にはわかりました。ですが、それを数学的には理解できず、代数・解析あたりの基礎がなってないのだろうと思いました。
そこで、機械学習に必要な数学を学び直そうと思うのですが、なまじ実装まで来てしまったせいで何を(どの本を)やればいいのか逆に分からなくなってしまいました。ゼロから学ぶDeep learningなど、初学者向けの書籍を素直に読むのが、結局近道でしょうか。また、先の書籍以外でおすすめがあれば教えてください。よろしくお願いします。
いつも読んでいただきありがとうございます。さっそくNFNetの実装にチャレンジされているのはすごいですね。
実装まで行ったあと教科書に戻るのは、確かにモチベーション的に難しい点がありますね(私自身そうです)。目の前の教科書をどれだけ読んだら実装にいけるのか・・・というゴールも見えにくいですし。
今まで集めた教材を漁りましたが、英語がOKであれば、「Computational Linear Algebra for Coders」はお勧めできそうな感じでした。fast.aiと同じく、基礎をやってから応用ではなく、応用の後基礎を解説というトップダウンのアプローチをとっています。イントロから「子供に野球を教える時、野球のルールブックを全部教えるこたぁないだろ?」と言っており、こういうスタイルで書かれているなら安心できる感があります(教材自体Jupyterで書かれています)。みんなどうしているのか、気になりますね。この教材が良かった、という方はぜひ #weeklyml のハッシュタグかお便りで教えてください!
続いてTransformerの質問を頂いたsam_murayamaさんからお便りをいただきました。
先日は、『Transformerのユニーク性』に関する質問を取り上げていただきありがとうございました。ようやく、Transformerのみならず、Attentionに対しても代案が発表され始めたので、今後の変遷をじっくりウォッチしていきたいと思います。
実は、Transformer以外にも、初学者として基本的な疑問を抱えており、大変厚かましいのですがpiqcyさんのご専門でもある強化学習についても質問させていただくことは可能でしょうか?
強化学習全般の概要を理解するには、貴著『Pythonで学ぶ強化学習』が私にとっては最もわかりやすかったです。この本によれば、強化学習は、Valueベース、Policyベースおよびその折衷型の3種類に大きく分類されていたと記憶しています。この本の出版後(あるいは前後)の動向として、Day6の研究動向の中で紹介されていた「内部報酬」を用いたいくつかのシステムやさらにWorld Models, MuZeroまでは強化学習としての流れのイメージはつかめていたのですが、SiMPLe, Never Give UP, Agent57に至っては、過去のシステムのアルゴリズムを組み合わせている印象が強く、強化学習全体におけるトレンド(共通の課題や新技術など)が見えにくくなってきました。そこで、以下の質問をさせてください。
1)今、強化学習全体として、共通のトレンド(最優先の課題や新たに得られたブレイクスルーなど)や大きな潮流のようなものはあるのでしょうか?
2)現在でも、強化学習の分類は、Valueベース、Policyベースおよびその折衷型の3種類だとすると、例えば適用対象など、どのような基準で使い分けていけばよいのでしょうか?
可能な範囲で、コメントいただければ、幸いです。
「Pythonで学ぶ強化学習」を読んでいただきありがとうございます!読者の方の声は励みになります。
①について、強化学習ではOffline学習が注目されていると感じます。Offline学習とは、事前に人間の行動ログなどを収録して学習する手法です(環境に直接触れないで学習することからOfflineと呼ばれます。模倣学習と同等の手法です)。事前にある程度学習し、高速少量の試行で学習させるのが最近のトレンドだと思います。ログの活用に欠かせない表現学習については「Image Augmentation Is All You Need」の発表からだいぶ改善の余地があることがわかっています。こちらはTransformerを含む画像分野の手法がどんどん入ってきて改善されると思います。
②については折衷のActor Criticが多い印象です。モデルの改善はOpenAI FiveがPPE+LSTM(時系列情報)という既存手法の組み合わせであれだけ複雑なゲームを攻略してしまったからか、顕著な改善はあまり見かけないです(OpenAI Fiveの仕組みはこの記事が詳しいです)。①でいい表現が取れてしまえば②はシンプルでいいという背景もあります。
takeさんからはスポンサーに関するご質問をいただきました。
スポンサーになった場合、個人的なメリットは何かありますでしょうか。
5ドルですので、なくても仕方ありませんが、あればモチベーションになります。
(ニュースをもう1つとか、コラム(AI展望)とか。)
スポンサーのご検討ありがとうございます!
スポンサーのメリットは現在ありません。ただ特定トピックのサマリ依頼の受付や、ノベルティを検討中です
最後に、機械学習に関する相談をミートアンドチップスさんより頂きました。
はじめまして、機械学習、深層学習の勉強をしている修士学生です。
毎週、記事の更新ありがとうございます。とても勉強になります。
私は、Transformerの活躍によって、さまざまな問題が解決してきているように感じます。
そんな中最近、scaling lawという存在を知りました。
私はこのscaling lawを「モデルを大きくして、データを増やして、たくさん学習する」とstate of the artになりうるモデルを作成できると解釈してます。また、GPT-3などがこのscaling lawの成果だと認識してます。
そこで、質問なのですが、このscaling lawはデータの量が分かれば、最適なモデルの大きさ(ハイパーパラメータ)が必ず分かるということなのでしょうか。
私は、グリッドサーチやOptunaといったハイパーパラメータ探索や実験をして、初めて最適なモデルが分かると思ってたのですが、もうその認識は古くなるのでしょうか。
もし、ハイパーパラメータ探索をしないとなると、自前データを用いて、BERTを事前学習する際などはハイパーパラメータ(layer数など)はscaling lawに基づいて、計算し、決定するのでしょうか。
私はGoogleがパラメータ数1兆のTransformerモデルを作成した記事を拝見した際、なぜ1兆なのか、もっと増やせばいいのではないかと思いました。
これからも頑張ってください、応援しております。
応援ありがとうございます!毎週お読みいただきありがとうございます。
ハイパーパラメーター探索は通常モデルとデータが所与の状態から始まるため、データ量に対するスケーラビリティを測るのには使われていないのではと思います。が、わかりませんね。もしかしたらデータ量をパラメーターとして調整しているのかもしれません。この辺り、ご存知の方がいればぜひ #weeklyml のハッシュタグかお便りで教えてください。
Did you enjoy this issue?
Become a member for $5 per month
Don’t miss out on the other issues by piqcy
piqcy
By piqcy

make machine learning engineer and researcher more cheerful

You can manage your subscription here.
If you were forwarded this newsletter and you like it, you can subscribe here.
Powered by Revue