View profile

Weekly Machine Learning #243

Weekly Machine Learning #243
By piqcy • Issue #244 • View online
News:
GiNZAのv5.0が公開されました。待望のspaCy3.0対応が入っています。Transformer(ELECTRA)による高性能化も要チェックです。数学教育に機械学習を活かす試みは面白いです。数学嫌い克服の決め手になるか注目です。
Pickup:
Articles/Resourceで取り上げた記事の中から、これは深堀したい!というものをPickupとして取り上げました。書きぶりはNg先生のTHE BATCHをまねています。今回取り上げたのは、#240で紹介した、イギリスのAlan Turing Instituteがまとめたレポートです。今後の機械学習発展にとって欠かせないレポートだと思っているのでぜひ。
Listeners:
Pickpは初めての試みですが、感想など聞かせて頂ければ幸いです。普段の2倍ぐらい時間かかったのでおいそれとはやりにくいですが。。。
Weekly Machine Learningは機械学習の開発者・研究者を応援するメディアを目指しています。掲載記事の選択や記事執筆に興味がある方がいたら、ぜひご連絡いただければと思います。
※7~8月は書籍執筆・学習強化のため縮退運用中です
Twitterハッシュタグ: #weeklyml

News
MATHAI4ED Workshop at NeurIPS'21 - Math AI for Education
LVIS
Pickup
What’s new
AI/データサイエンスコミュニティが新型コロナのようなパンデミックに対処するには、以下3つが重要としています。
  1. 標準化されており、ドキュメント化されたデータが、タイムリーに手に入ること。そのデータに公平にアクセスできること。
  2. 少数民族や低中所得の世帯など、データが不足しがちなマイノリティへの対応。
  3. 分析結果とその不確実性を政策決定者や一般市民にタイムリーかつ正確・明確・迅速に伝えること。
How it works
2020年後半(最初の感染拡大が発生したころ)、Alan Turing Instituteが専門家を招集した委員会を立ち上げ、まとめた提言です。AI・データサイエンスの専門家だけでなく倫理学者、臨床医、数学者、政策顧問らが参加しています。全4テーマについてワークショップを開催しており、各テーマの提言は別資料にまとめられています。ワークショップはオーガナイザーとテーマ個別のドメインエキスパート1~2名で運営されています。
Result
ワークショップを通じ、以下4つの成果・課題を確認しました。
1. 研究者が新型コロナの危機に対応するのに貢献できたこと。パンデミックを通じて得られた工夫や決定は、様々なプロジェクトやコラボレーションに活かされている。
2. 堅牢かつタイムリーなデータの重要性。データアクセスの容易性と標準化はデータサイエンスの活動全体に影響を与える。端的には、良いデータは良い結果につながる。
3. 不平等と排除。データにおけるマイノリティグループへの扱いや、研究者コミュニティ自身の多様性不足も指摘された。
4. 科学的なコミュニケーションの課題。調査結果と不確実性を、政策立案者と一般市民にタイムリーかつ正確・明確に伝えること。
1の成果については、p6にわかりやすくまとまっています。OpenSAFELYという国民保健サービスの電子医療記録にアクセス可能なプラットフォームを作成しています。アクセス可能な患者の数はなんと5800万人以上。分析者は生データではなく匿名化されたデータのみにアクセスできるとのこと。ドキュメントがGitHubで公開されており、Python/Rで使用可能です(すごい)。
The Turing’s response to COVID-19
The Turing’s response to COVID-19
一方で、データ自体やデータへのアクセスに課題がありました。異なるデータ標準、データセットに関するドキュメントの不足などです。また、少数民族や低中所得世帯のデータが十分でなく、バイアスに繋がる可能性が指摘されました。データへのアクセスについても研究者間で平等ではなかったとのことです。
コミュニケーションでは、研究結果を意思決定につなげるための仕組みが必要としています。そのための継続的な関係の構築、教育も必要です。また、ワクチンやウィルスに関する誤情報に対処する専門の役割が必要なのでは、としています。
Why it matters
パンデミック時にはとにかく人手が足りないわけですから、人手不足を助ける役割として機械学習技術への期待は大きいと思います。期待だけでなく、仮に「前例がない事態」が発生したとして機械学習を用いたサービスやシステムが顧客に影響を与えないか?についても検討が必要ではないかと感じます。実際、新型コロナの影響でECサイトのレコメンドや在庫予測、金融取引の異常検知に支障が出ているという例もあります。
「x年に1度の~」という枕詞をなぜか毎年聞いている昨今です。前例がない、かつ緊急事態への対応として本レポートから学ぶことは多いのではないかと思います。
We’re thinking
機械学習を扱う上で、モデルのアルゴリズムを工夫するより様々な専門家やステークホルダーと交流することの重要性が高まってくると考えています。機械学習の担う意思決定が重要/幅広になるにつれ、意思決定の元になったデータの完全性を多様な視点で検証する必要があるためです。新型コロナにおけるトリアージなどは、その極地だと思います。
データが不十分だから仕方ない、ではなく、いろんな人を巻き込んでデータ基盤を作って、ロングテールのすそ野まできっちり救うデータサイエンティストはリアルにセクシー!だと思います。
Listeners
先週のアクセスランキングは以下になります。Data-centricなMLは要チェックですね。Pickupでも取り上げたいテーマです。
  1. Data-centricなML開発 (96click)
  2. On the Opportunities and Risks of Foundation Models (87click)
  3. AI原則実践のためのガバナンス・ガイドライン ver. 1.0 (75click)
Did you enjoy this issue?
piqcy
By piqcy

make machine learning engineer and researcher more cheerful

In order to unsubscribe, click here.
If you were forwarded this newsletter and you like it, you can subscribe here.
Powered by Revue