View profile

Weekly Machine Learning #149

Revue
 
News: 自然言語処理モデルの説明能力を問うベンチマークERASERが公開されました。こうした目的特化(ERASERの場合は「根拠の特定能力」)のベンチマークは、学術的にも実用的にも有用と感じます。G
 

piqcy

November 9 · Issue #150 · View online
All change is not growth, as all movement is not forward. Ellen Glasgow

News:
自然言語処理モデルの説明能力を問うベンチマークERASERが公開されました。こうした目的特化(ERASERの場合は「根拠の特定能力」)のベンチマークは、学術的にも実用的にも有用と感じます。GLUE/Super GLUEが攻略されて久しいですが、「自然言語の理解」に近づいているかは不透明なので・・・。KaggleでAutoMLを試せるようになり、Kaggleがマーケティングの場にもなりつつあることを感じます。なにもGoogleだけでなく、他の会社もライブラリをKaggleで使いやすくするなどしてこの場を利用できると思います。ML.NETは個人的に推しているので、Jupyterで使いやすくなったのは試すいいきっかけにできそうです。
Articles:
放射線診断書の要約におけるファクトチェックは、要約の普及に必要なボトルネックの一つを解消する試みと感じます。要約は一番ニーズがありそうな一方いまいち普及していませんが(機械学習APIの多くがサポートしていない)、「元文と異なる情報になる可能性がある」という点はその理由の一つだと思います。Doc2EDAGは、イベント情報を抽出してテーブルにまとめるという面白い研究です。自然言語処理ではタスクと実務が繋がりにくいところがありましたが、これは固有表現や関係抽出を実務につなげる良いタスク設定と感じます。
Resources:
事前学習言語モデルについてのまとめは、一言でいえば神資料です。ELMo登場からはじまる華麗なるセサミストリートファミリーの発展とその先(RoBERTa~)まで、体系的にまとめられています。EMNLP2019-Spec-Tutorialも要チェックです。Contextualizedな分散表現をもってしてもまだ解決していない課題と、それを解消するアプローチが上手くまとまっています(その分ボリューミーですが)。ACLのチュートリアルも、単一言語から先の多言語化の手法がまとまっています。Understanding UMAPは、とても分かりやすいUMAPの解説記事です。これくらいうまくVisualizationを駆使したいものです。
ACLのサーベイ報告会があったので、今週は自然言語処理成分多めでした。興味深い発表ばかりだったので、ぜひ資料をチェックしてみてください。

News
ERASER: A Benchmark to Evaluate Rationalized NLP Models
New machine learning capabilities for data scientists using Kaggle | Google Cloud Blog
Using ML.NET in Jupyter notebooks | Cesar de la Torre
GPT-2: 1.5B Release
史上初めてAI開発契約の効力が争われた(模擬)裁判で裁判官を務めた話 | STORIA法律事務所
Introducing Real-Time Clustering, Multilingual NLP, and Translated Content
Release Bug Fix Release · pytorch/pytorch · GitHub
Articles
[1911.02541] Optimizing the Factual Correctness of a Summary: A Study of Summarizing Radiology Reports
[1910.13437] An Empirical Study of Generation Order for Machine Translation
[1904.07535] Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction
Reasoning Over Paragraph Effects in Situations - ACL Anthology
[1909.01522] Towards Realistic Practices In Low-Resource Natural Language Processing: The Development Set
CoSQL: A Conversational Text-to-SQL Challenge Towards Cross-Domain Natural Language Interfaces to Databases
[1910.12980] Learning Transferable Graph Exploration
Hyperparameter Tuning and Implicit Regularization in Minibatch SGD | OpenReview
Resources
事前学習言語モデルの動向 / Survey of Pretrained Language Models - Speaker Deck
EMNLP2019-Spec-Tutorial - Google Slides
Unsupervised Cross-lingual Representation Learning
失敗から学ぶ機械学習応用
Smaller Docker images with Conda // Marginally Stable
pandasのapplyの進捗をtqdmで表示 - iMind Developers Blog
Understanding UMAP
Google's New Manager Training Slides — @frankmireault
【Python実装】LDAのトピックをParticle Filter(SMC)で推論 - ガシンラーニング
GitHub - deezer/spleeter: Deezer source separation library including pretrained models.
Did you enjoy this issue?
 
Become a member for $5 per month
Don’t miss out on the other issues by piqcy
You can manage your subscription here
If you were forwarded this newsletter and you like it, you can subscribe here.
Powered by Revue