News:
Berkeleyから、人の評価を使用した強化学習のタスクが公開されました。
MineRLとは姉妹コンペティションになるそうです。強化学習用に設計された/強化学習に向いたベンチマークではなく、人間のフィードバックから学習するタスクということで実応用のシチュエーションに近くなっていると感じます。そしてタンパク質構造予測でトップを取ったAlphaFold-v2のモデルが公開されました。コードとモデルの重みでライセンスを分けるという珍しい形態をとっています。ただ、素朴にこの方が公開しやすそうだなと思います。
Articles:
質問回答に知識グラフを使用した研究を紹介しています。久々にGraph Convolutionと自然言語を組み合わせた論文を見ました(Graph Attention Networkは実装までしたので懐かしかったです)。言語モデルで全部行ける感がある中、知識グラフが構築の手間に比してどれだけ有効なのか、気になるところです(むしろ言語モデルで簡単に知識グラフを構築する方がニーズがある?)。そしてACLベストペーパーが公開されましたね。これもWasserstein GAN依頼久々に聞いた最適輸送を使用した手法ですが、
ステート・オブ・AIガイドさんなどで解説されています。
Resources:
MLOpsの資料を紹介しています。タクシー配車アプリGOでの活用事例は、デプロイに至るまでのテストフェーズの設計まで言及されています。私が知る中では、ここまで具体的に書いた資料はかなり少ないです。夢のあるTransformer x 強化学習論文の解説スライドを紹介しています。これはやはり、一言で言うと夢がありますね。強化学習の場合探索をどうするかという問題がありますが、最近はオフラインが優勢なので軌跡がある前提で割り切るのもありな気がします(むしろ素面でオンライン学習という状況が研究以外ではない特殊なシチュエーションともみられると思います)。
Listeners:
Weekly Machine Learningは機械学習の開発者・研究者を応援するメディアを目指しています。掲載記事の選択や記事執筆に興味がある方がいたら、ぜひご連絡いただければと思います。
※7~8月は書籍執筆・学習強化のため縮退運用中です