Suche senden
Hochladen
20190216 reinforcement learning_talks_community
•
0 gefällt mir
•
56 views
Tomokazu Kitamura
Folgen
強化学習の実業務への応用について
Weniger lesen
Mehr lesen
Technologie
Melden
Teilen
Melden
Teilen
1 von 22
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
3分で分かる「プログラミング教育・情報教育」
3分で分かる「プログラミング教育・情報教育」
Masahito Zembutsu
さくらの夕べオンライン~小学校プログラミング教育ナイト2021
さくらの夕べオンライン~小学校プログラミング教育ナイト2021
Asakura Megumi
石狩でのプログラミング教育支援~2年目の成果~
石狩でのプログラミング教育支援~2年目の成果~
さくらインターネット株式会社
小学校プログラミング教育 ~石狩の場合~
小学校プログラミング教育 ~石狩の場合~
さくらインターネット株式会社
さくらの学校支援プロジェクト PyCon mini Sapporo 2019
さくらの学校支援プロジェクト PyCon mini Sapporo 2019
さくらインターネット株式会社
正解はどれ?『プログラミング教育』を取り巻くステークホルダーと議論
正解はどれ?『プログラミング教育』を取り巻くステークホルダーと議論
さくらインターネット株式会社
ゲーミフィケーション
ゲーミフィケーション
Hayashi Naoto
2020年から始まる小学校プログラミング教育の話 #osc19os
2020年から始まる小学校プログラミング教育の話 #osc19os
Masahito Zembutsu
Empfohlen
3分で分かる「プログラミング教育・情報教育」
3分で分かる「プログラミング教育・情報教育」
Masahito Zembutsu
さくらの夕べオンライン~小学校プログラミング教育ナイト2021
さくらの夕べオンライン~小学校プログラミング教育ナイト2021
Asakura Megumi
石狩でのプログラミング教育支援~2年目の成果~
石狩でのプログラミング教育支援~2年目の成果~
さくらインターネット株式会社
小学校プログラミング教育 ~石狩の場合~
小学校プログラミング教育 ~石狩の場合~
さくらインターネット株式会社
さくらの学校支援プロジェクト PyCon mini Sapporo 2019
さくらの学校支援プロジェクト PyCon mini Sapporo 2019
さくらインターネット株式会社
正解はどれ?『プログラミング教育』を取り巻くステークホルダーと議論
正解はどれ?『プログラミング教育』を取り巻くステークホルダーと議論
さくらインターネット株式会社
ゲーミフィケーション
ゲーミフィケーション
Hayashi Naoto
2020年から始まる小学校プログラミング教育の話 #osc19os
2020年から始まる小学校プログラミング教育の話 #osc19os
Masahito Zembutsu
Hour of-code-2016冬-シンポジウム
Hour of-code-2016冬-シンポジウム
Yuta Tonegawa
McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎
McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎
Hironori Washizaki
新人教育は誰れのために
新人教育は誰れのために
Tetsuhiro Yamada
Ezostyle WAN2010_02_21
Ezostyle WAN2010_02_21
networkwan
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
ブレークスルーパートナーズ 赤羽雄二
くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~
くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~
Takashi Ushigami
無料学習 & Communityのすゝめ
無料学習 & Communityのすゝめ
Shohei Oda
ゲームを用いた疑似体験によるシステムデザインの導入教育
ゲームを用いた疑似体験によるシステムデザインの導入教育
情報処理学会 情報システム教育委員会
2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?
2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?
Tsuyoshi Yoshida
社会人の学びを促す学びのプロデュース術
社会人の学びを促す学びのプロデュース術
Masaya Ando
作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~
作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~
Kazuhiro Abe
利根川講演@長野塩尻20170120
利根川講演@長野塩尻20170120
Yuta Tonegawa
インターンシップ制度について
インターンシップ制度について
Yuichi Morito
20130309 web sig_security
20130309 web sig_security
loftwork
強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...
強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...
WebSig24/7
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
Hiroyuki Masuda
小学校プログラミング教育教員向け研修<学校教育での実践>
小学校プログラミング教育教員向け研修<学校教育での実践>
Asakura Megumi
就活セミナー 2012 11 10
就活セミナー 2012 11 10
Toshiki Ashitani
ほめなれワーク
ほめなれワーク
広告制作会社
#MSIgnite x Japan Microsoft MVP/RD - Learning story
#MSIgnite x Japan Microsoft MVP/RD - Learning story
Rie Moriguchi
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
sugiuralab
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
Shota Ito
Weitere ähnliche Inhalte
Ähnlich wie 20190216 reinforcement learning_talks_community
Hour of-code-2016冬-シンポジウム
Hour of-code-2016冬-シンポジウム
Yuta Tonegawa
McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎
McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎
Hironori Washizaki
新人教育は誰れのために
新人教育は誰れのために
Tetsuhiro Yamada
Ezostyle WAN2010_02_21
Ezostyle WAN2010_02_21
networkwan
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
ブレークスルーパートナーズ 赤羽雄二
くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~
くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~
Takashi Ushigami
無料学習 & Communityのすゝめ
無料学習 & Communityのすゝめ
Shohei Oda
ゲームを用いた疑似体験によるシステムデザインの導入教育
ゲームを用いた疑似体験によるシステムデザインの導入教育
情報処理学会 情報システム教育委員会
2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?
2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?
Tsuyoshi Yoshida
社会人の学びを促す学びのプロデュース術
社会人の学びを促す学びのプロデュース術
Masaya Ando
作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~
作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~
Kazuhiro Abe
利根川講演@長野塩尻20170120
利根川講演@長野塩尻20170120
Yuta Tonegawa
インターンシップ制度について
インターンシップ制度について
Yuichi Morito
20130309 web sig_security
20130309 web sig_security
loftwork
強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...
強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...
WebSig24/7
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
Hiroyuki Masuda
小学校プログラミング教育教員向け研修<学校教育での実践>
小学校プログラミング教育教員向け研修<学校教育での実践>
Asakura Megumi
就活セミナー 2012 11 10
就活セミナー 2012 11 10
Toshiki Ashitani
ほめなれワーク
ほめなれワーク
広告制作会社
#MSIgnite x Japan Microsoft MVP/RD - Learning story
#MSIgnite x Japan Microsoft MVP/RD - Learning story
Rie Moriguchi
Ähnlich wie 20190216 reinforcement learning_talks_community
(20)
Hour of-code-2016冬-シンポジウム
Hour of-code-2016冬-シンポジウム
McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎
McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎
新人教育は誰れのために
新人教育は誰れのために
Ezostyle WAN2010_02_21
Ezostyle WAN2010_02_21
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~
くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~
無料学習 & Communityのすゝめ
無料学習 & Communityのすゝめ
ゲームを用いた疑似体験によるシステムデザインの導入教育
ゲームを用いた疑似体験によるシステムデザインの導入教育
2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?
2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?
社会人の学びを促す学びのプロデュース術
社会人の学びを促す学びのプロデュース術
作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~
作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~
利根川講演@長野塩尻20170120
利根川講演@長野塩尻20170120
インターンシップ制度について
インターンシップ制度について
20130309 web sig_security
20130309 web sig_security
強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...
強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
小学校プログラミング教育教員向け研修<学校教育での実践>
小学校プログラミング教育教員向け研修<学校教育での実践>
就活セミナー 2012 11 10
就活セミナー 2012 11 10
ほめなれワーク
ほめなれワーク
#MSIgnite x Japan Microsoft MVP/RD - Learning story
#MSIgnite x Japan Microsoft MVP/RD - Learning story
Kürzlich hochgeladen
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
sugiuralab
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
Shota Ito
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
iPride Co., Ltd.
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
sugiuralab
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
osamut
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
iPride Co., Ltd.
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
Atomu Hidaka
Kürzlich hochgeladen
(8)
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
20190216 reinforcement learning_talks_community
1.
強化学習の実業務への応用について 2019-02-16 Math &
Coding 強化学習を語ろう! 株式会社スクラムサイン 代表取締役 北村友和 kitamura@scrumsign.com Title
2.
北村 友和 仕事:株式会社スクラムサイン 機械学習アプリケーションの設計開発 データ分析チームの立ち上げ支援 強化学習と確率プログラミングに関心。積極的に事例を作っています。 趣味:コミュニティ運営(Math & Coding
主催) 講師が教えるのではなく、参加者同士が互いに知識と知恵を持ち寄り 教えあい学ぶ場に楽しさを感じています。 自己紹介
3.
(ゲームの世界でなく) 強化学習を実業務で応用していくために Today s Main
Theme
4.
学習プロセス 探索と利用 試行錯誤しながら学ぶことができるか? マルコフ決定過程 現時点の情報から次の決定を下すことができるか? その決定により確率的に次の状態へ遷移するか? 強化学習に向いている問題設定の確認
5.
今回は医療関係のクライアントより事例提供の許可をいただきました。 (本資料のデータはすべてダミーであり実際のデータではありません。) 下記のケースを想定して強化学習で解いてみました。 毎日数百名の患者が来院しスタッフ(看護師)が採血しています。 患者によって採血しやすい人とそうでない人がいること。 スタッフも人によってベテランから新人まで技量に差があります。 一定の割合で、採血に失敗します。 事例:病院の採血
6.
採血の失敗率を下げて患者の満足度を上げたい。 スタッフの技量の向上を図りたい。 解きたい課題
7.
相反する要求を満たす最適な行動選択を強化学習で学ぶことが可能 か? 失敗率を下げる ベテランスタッフが対応する 技能の向上を図る 自分の技量より少し難しい患者にトライする 失敗率があがる Goalの設計
8.
スタッフが適切な難易度の患者を担当できること 行動を各スタッフごとにTryかPassかを選択させて待ち行 列の状況およびスタッフの空き状況と自分の力量に応じたTry とPassを選択できるように学習したい。 (現状はマネージャーが経験と勘で行っているようです。) Goalの設計
9.
PoC(概念検証) 機械学習が仮にうまく進むと、 新人は自分の力量にあった患者を選別 > 失敗率下がる ベテランスタッフ 難易度が高い患者を選別 >
失敗率上がる はず! Goalの設計
10.
患者難易度スタッフ技量 推定問題 確率モデル 患者とスタッフ マッチング問題 一つのモデルで一度に解くのは難しいので 問題を分割しました 強化学習 推定した値を特徴量や 報酬として利用する 確率モデルと強化学習を合わせて解いていく モデリングの方針
11.
コミュニティメンバーとのディスカッション 当初は連続時間のMDPを考えてい た。Rewardは患者の待ち時間を ペナルティとして与える方式を検 討していたが途中で方針転換。 離散時間の行動として報酬も 技量:skillと患者困難度: difficultyで表現
12.
実装:モデリング ネットワーク DQN(隠れ層 2層(入力次元と同じ full
connected relu) 出力2次元 linear) 特徴量 患者困難度:連続値(6) スタッフ技量:連続値(3) スタッフの空き予定時間:連続値(3) 対応スタッフ:one-hot(3) 行動 try pass 2次元 報酬 成功 : difficulty/skill (0割 調整ずみ) 失敗: -skill/difficulty(0割 調整ずみ) 待ち時間なしのpass 0 待ち時間ありのpass -skill/difficulty * (待ち時間/2*待ち時間の最大値) 関数近似では、当初ニューラルネットではないものを実装しようとしたがニューラルネットの方が楽に実装できるので 時間の関係でDQNで実装する。
13.
学習の推移 ランダムに行動選択
14.
学習の推移 ランダムに行動選択
15.
学習の推移 DQNではどうか?
16.
学習の推移 DQN 学習の結果 ベテランにPassすることを覚えた。
17.
モデリングの見直し ネットワーク DQN(入力12次元 隠れ層 2層(12次元 full
connected relu) 出力2次元 linear) loss function: mse ,optimizer: Adam learning rate = 0.00001 特徴量 患者困難度:連続値(3) スタッフ技量:連続値(3) スタッフの空き状況:one-hot(3) 対応スタッフ:one-hot(3) 行動 try passの二択 報酬 成功 +1 失敗-1 待ち時間なしのpass 0 待ち時間ありのpass -0.5 2step後までを考慮した報酬で学習 注)報酬関数と特徴ベクトルを見直したり learning rateを小さくしたりした。
18.
学習の推移 DQN モデルと報酬関数見直し
19.
学習の推移 DQN モデルと報酬関数見直し 自分の実力に応じた患者を選んでTryするようになった。 ここからさらにブラッシュアップしていきます。
20.
強化学習の楽しさ うまくいかない時、Agentの気持ちを考えたりする。 (報酬によって挙動がごろっとかわる) 強化学習についての論文が日々すごい勢いで発表されている。 報酬関数設計やシュミレータ作成、学習モデルなど考えるこ とが多くクライアントやチームメンバーとのやりとりなど、 大変だが設計プロセスが楽しい。
21.
難しい概念や技術も、シンプルな例で確認したりメンバーが対話することで本質的な理解 を得られると考えます。本グループは、そのようなことができるようなコミュニティとな ることを目指して運営しています。興味がある方はぜひご参加ください。 https://math-coding.connpass.com Math & Codingの紹介
22.
ご静聴ありがとうございました。 Last
Jetzt herunterladen