SlideShare ist ein Scribd-Unternehmen logo
1 von 22
Downloaden Sie, um offline zu lesen
強化学習の実業務への応用について
2019-02-16 Math & Coding 強化学習を語ろう!
株式会社スクラムサイン 代表取締役 北村友和
kitamura@scrumsign.com
Title
北村 友和
仕事:株式会社スクラムサイン 
  機械学習アプリケーションの設計開発
  データ分析チームの立ち上げ支援
  強化学習と確率プログラミングに関心。積極的に事例を作っています。
趣味:コミュニティ運営(Math & Coding 主催)
  講師が教えるのではなく、参加者同士が互いに知識と知恵を持ち寄り
  教えあい学ぶ場に楽しさを感じています。
自己紹介
(ゲームの世界でなく)
強化学習を実業務で応用していくために
Today s Main Theme
学習プロセス
 探索と利用
  試行錯誤しながら学ぶことができるか?
マルコフ決定過程
 現時点の情報から次の決定を下すことができるか?
 その決定により確率的に次の状態へ遷移するか?
強化学習に向いている問題設定の確認
今回は医療関係のクライアントより事例提供の許可をいただきました。
(本資料のデータはすべてダミーであり実際のデータではありません。)
下記のケースを想定して強化学習で解いてみました。
毎日数百名の患者が来院しスタッフ(看護師)が採血しています。
患者によって採血しやすい人とそうでない人がいること。
スタッフも人によってベテランから新人まで技量に差があります。
一定の割合で、採血に失敗します。
事例:病院の採血
採血の失敗率を下げて患者の満足度を上げたい。
スタッフの技量の向上を図りたい。
解きたい課題
相反する要求を満たす最適な行動選択を強化学習で学ぶことが可能
か?
失敗率を下げる
 ベテランスタッフが対応する
技能の向上を図る
 自分の技量より少し難しい患者にトライする
 失敗率があがる
Goalの設計
スタッフが適切な難易度の患者を担当できること
行動を各スタッフごとにTryかPassかを選択させて待ち行
列の状況およびスタッフの空き状況と自分の力量に応じたTry
とPassを選択できるように学習したい。
(現状はマネージャーが経験と勘で行っているようです。)
Goalの設計
PoC(概念検証)
機械学習が仮にうまく進むと、
新人は自分の力量にあった患者を選別 > 失敗率下がる
ベテランスタッフ 難易度が高い患者を選別 > 失敗率上がる
はず!
Goalの設計
患者難易度スタッフ技量
推定問題
確率モデル
患者とスタッフ
マッチング問題
一つのモデルで一度に解くのは難しいので
問題を分割しました
強化学習
推定した値を特徴量や
報酬として利用する
確率モデルと強化学習を合わせて解いていく
モデリングの方針
コミュニティメンバーとのディスカッション
当初は連続時間のMDPを考えてい
た。Rewardは患者の待ち時間を
ペナルティとして与える方式を検
討していたが途中で方針転換。
離散時間の行動として報酬も
技量:skillと患者困難度:
difficultyで表現
実装:モデリング
ネットワーク
 DQN(隠れ層 2層(入力次元と同じ full connected relu) 出力2次元 linear)
特徴量
患者困難度:連続値(6)
スタッフ技量:連続値(3)
スタッフの空き予定時間:連続値(3)
対応スタッフ:one-hot(3)
行動
 try pass 2次元
報酬
成功 : difficulty/skill (0割 調整ずみ)
失敗: -skill/difficulty(0割 調整ずみ)
待ち時間なしのpass 0
待ち時間ありのpass -skill/difficulty * (待ち時間/2*待ち時間の最大値)
関数近似では、当初ニューラルネットではないものを実装しようとしたがニューラルネットの方が楽に実装できるので
時間の関係でDQNで実装する。
学習の推移 ランダムに行動選択
学習の推移 ランダムに行動選択
学習の推移 DQNではどうか?
学習の推移 DQN
学習の結果 ベテランにPassすることを覚えた。
モデリングの見直し
ネットワーク
 DQN(入力12次元 隠れ層 2層(12次元 full connected relu) 出力2次元 linear)
loss function: mse ,optimizer: Adam
 learning rate = 0.00001
特徴量
患者困難度:連続値(3)
スタッフ技量:連続値(3)
スタッフの空き状況:one-hot(3)
対応スタッフ:one-hot(3)
行動
 try passの二択
報酬
成功 +1
失敗-1
待ち時間なしのpass 0
待ち時間ありのpass -0.5
 2step後までを考慮した報酬で学習
注)報酬関数と特徴ベクトルを見直したり learning rateを小さくしたりした。
学習の推移 DQN モデルと報酬関数見直し
学習の推移 DQN モデルと報酬関数見直し
自分の実力に応じた患者を選んでTryするようになった。
ここからさらにブラッシュアップしていきます。
強化学習の楽しさ
うまくいかない時、Agentの気持ちを考えたりする。
(報酬によって挙動がごろっとかわる)
強化学習についての論文が日々すごい勢いで発表されている。
報酬関数設計やシュミレータ作成、学習モデルなど考えるこ
とが多くクライアントやチームメンバーとのやりとりなど、
大変だが設計プロセスが楽しい。




難しい概念や技術も、シンプルな例で確認したりメンバーが対話することで本質的な理解
を得られると考えます。本グループは、そのようなことができるようなコミュニティとな
ることを目指して運営しています。興味がある方はぜひご参加ください。
https://math-coding.connpass.com
Math & Codingの紹介


ご静聴ありがとうございました。
Last

Weitere ähnliche Inhalte

Ähnlich wie 20190216 reinforcement learning_talks_community

Hour of-code-2016冬-シンポジウム
Hour of-code-2016冬-シンポジウムHour of-code-2016冬-シンポジウム
Hour of-code-2016冬-シンポジウムYuta Tonegawa
 
McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎
McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎
McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎Hironori Washizaki
 
新人教育は誰れのために
新人教育は誰れのために新人教育は誰れのために
新人教育は誰れのためにTetsuhiro Yamada
 
Ezostyle WAN2010_02_21
Ezostyle WAN2010_02_21Ezostyle WAN2010_02_21
Ezostyle WAN2010_02_21networkwan
 
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?ブレークスルーパートナーズ 赤羽雄二
 
くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~
くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~
くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~Takashi Ushigami
 
無料学習 & Communityのすゝめ
無料学習 & Communityのすゝめ無料学習 & Communityのすゝめ
無料学習 & CommunityのすゝめShohei Oda
 
2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?
2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?
2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?Tsuyoshi Yoshida
 
社会人の学びを促す学びのプロデュース術
社会人の学びを促す学びのプロデュース術社会人の学びを促す学びのプロデュース術
社会人の学びを促す学びのプロデュース術Masaya Ando
 
作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~
作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~
作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~Kazuhiro Abe
 
利根川講演@長野塩尻20170120
利根川講演@長野塩尻20170120利根川講演@長野塩尻20170120
利根川講演@長野塩尻20170120Yuta Tonegawa
 
インターンシップ制度について
インターンシップ制度についてインターンシップ制度について
インターンシップ制度についてYuichi Morito
 
20130309 web sig_security
20130309 web sig_security20130309 web sig_security
20130309 web sig_securityloftwork
 
強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...
強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...
強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...WebSig24/7
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用Hiroyuki Masuda
 
小学校プログラミング教育教員向け研修<学校教育での実践>
小学校プログラミング教育教員向け研修<学校教育での実践>小学校プログラミング教育教員向け研修<学校教育での実践>
小学校プログラミング教育教員向け研修<学校教育での実践>Asakura Megumi
 
就活セミナー 2012 11 10
就活セミナー 2012 11 10就活セミナー 2012 11 10
就活セミナー 2012 11 10Toshiki Ashitani
 
#MSIgnite x Japan Microsoft MVP/RD - Learning story
#MSIgnite x Japan Microsoft MVP/RD - Learning story#MSIgnite x Japan Microsoft MVP/RD - Learning story
#MSIgnite x Japan Microsoft MVP/RD - Learning storyRie Moriguchi
 

Ähnlich wie 20190216 reinforcement learning_talks_community (20)

Hour of-code-2016冬-シンポジウム
Hour of-code-2016冬-シンポジウムHour of-code-2016冬-シンポジウム
Hour of-code-2016冬-シンポジウム
 
McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎
McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎
McEdu2016 ゲームとプログラミング学習のカタチ 鷲崎
 
新人教育は誰れのために
新人教育は誰れのために新人教育は誰れのために
新人教育は誰れのために
 
Ezostyle WAN2010_02_21
Ezostyle WAN2010_02_21Ezostyle WAN2010_02_21
Ezostyle WAN2010_02_21
 
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
21-11-17 東大工学部 産業総論 問題把握・解決力を鍛え、将来を自分の手でつかむには?
 
くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~
くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~
くらう道 オフライン道場 ~ Azure インフルエンサー養成講座 ~
 
無料学習 & Communityのすゝめ
無料学習 & Communityのすゝめ無料学習 & Communityのすゝめ
無料学習 & Communityのすゝめ
 
ゲームを用いた疑似体験によるシステムデザインの導入教育
ゲームを用いた疑似体験によるシステムデザインの導入教育ゲームを用いた疑似体験によるシステムデザインの導入教育
ゲームを用いた疑似体験によるシステムデザインの導入教育
 
2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?
2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?
2015/06/13 第6回G-Study発表資料 プログラミング?コーディング?
 
社会人の学びを促す学びのプロデュース術
社会人の学びを促す学びのプロデュース術社会人の学びを促す学びのプロデュース術
社会人の学びを促す学びのプロデュース術
 
作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~
作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~
作ることで学ぶ ~構築主義によるプログラミング学習の目的とその可能性~
 
利根川講演@長野塩尻20170120
利根川講演@長野塩尻20170120利根川講演@長野塩尻20170120
利根川講演@長野塩尻20170120
 
インターンシップ制度について
インターンシップ制度についてインターンシップ制度について
インターンシップ制度について
 
20130309 web sig_security
20130309 web sig_security20130309 web sig_security
20130309 web sig_security
 
強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...
強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...
強い組織になるための「非・堅牢な」セキュリティ設計のススメ~第32回WebSig会議「便利さと、怖さと、心強さと〜戦う会社のための社内セキュリティ 201...
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
小学校プログラミング教育教員向け研修<学校教育での実践>
小学校プログラミング教育教員向け研修<学校教育での実践>小学校プログラミング教育教員向け研修<学校教育での実践>
小学校プログラミング教育教員向け研修<学校教育での実践>
 
就活セミナー 2012 11 10
就活セミナー 2012 11 10就活セミナー 2012 11 10
就活セミナー 2012 11 10
 
ほめなれワーク
ほめなれワークほめなれワーク
ほめなれワーク
 
#MSIgnite x Japan Microsoft MVP/RD - Learning story
#MSIgnite x Japan Microsoft MVP/RD - Learning story#MSIgnite x Japan Microsoft MVP/RD - Learning story
#MSIgnite x Japan Microsoft MVP/RD - Learning story
 

Kürzlich hochgeladen

プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 

Kürzlich hochgeladen (8)

プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 

20190216 reinforcement learning_talks_community