Suche senden
Hochladen
Elasticsearchの機械学習機能を使ってみた
•
1 gefällt mir
•
340 views
Y
YuichiArisaka
Folgen
Elasticsearchのビギナーです。Elasticsearchの機械学習機能を使ってみました。
Weniger lesen
Mehr lesen
Technologie
Melden
Teilen
Melden
Teilen
1 von 18
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
Elastic ML Introduction
Elastic ML Introduction
Hiroshi Yoshioka
はじめてのElasticsearchクラスタ
はじめてのElasticsearchクラスタ
Satoyuki Tsukano
RSA暗号運用でやってはいけない n のこと #ssmjp
RSA暗号運用でやってはいけない n のこと #ssmjp
sonickun
Elasticsearchと機械学習を実際に連携させる
Elasticsearchと機械学習を実際に連携させる
nobu_k
Elasticsaerch Runtime Field
Elasticsaerch Runtime Field
Nomura Yuta
第45回elasticsearch勉強会 BERTモデルを利用した文書分類
第45回elasticsearch勉強会 BERTモデルを利用した文書分類
shinhiguchi
Elasticsearch勉強会#44 20210624
Elasticsearch勉強会#44 20210624
Tetsuya Sodo
CloudFront経由でのCORS利用
CloudFront経由でのCORS利用
Yuta Imai
Empfohlen
Elastic ML Introduction
Elastic ML Introduction
Hiroshi Yoshioka
はじめてのElasticsearchクラスタ
はじめてのElasticsearchクラスタ
Satoyuki Tsukano
RSA暗号運用でやってはいけない n のこと #ssmjp
RSA暗号運用でやってはいけない n のこと #ssmjp
sonickun
Elasticsearchと機械学習を実際に連携させる
Elasticsearchと機械学習を実際に連携させる
nobu_k
Elasticsaerch Runtime Field
Elasticsaerch Runtime Field
Nomura Yuta
第45回elasticsearch勉強会 BERTモデルを利用した文書分類
第45回elasticsearch勉強会 BERTモデルを利用した文書分類
shinhiguchi
Elasticsearch勉強会#44 20210624
Elasticsearch勉強会#44 20210624
Tetsuya Sodo
CloudFront経由でのCORS利用
CloudFront経由でのCORS利用
Yuta Imai
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
Javaトラブルに備えよう #jjug_ccc #ccc_h2
Javaトラブルに備えよう #jjug_ccc #ccc_h2
Norito Agetsuma
アイデンティティ (ID) 技術の最新動向とこれから
アイデンティティ (ID) 技術の最新動向とこれから
Tatsuo Kudo
文字コードに起因する脆弱性とその対策(増補版)
文字コードに起因する脆弱性とその対策(増補版)
Hiroshi Tokumaru
iostat await svctm の 見かた、考え方
iostat await svctm の 見かた、考え方
歩 柴田
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama
TensorFlow XLAは、 中で何をやっているのか?
TensorFlow XLAは、 中で何をやっているのか?
Mr. Vengineer
Re: ゼロから始める監視設計
Re: ゼロから始める監視設計
Masahito Zembutsu
Elasticsearchのサジェスト機能を使った話
Elasticsearchのサジェスト機能を使った話
ktaro_w
MLOpsはバズワード
MLOpsはバズワード
Tetsutaro Watanabe
本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話
Kumazaki Hiroki
暗号技術の実装と数学
暗号技術の実装と数学
MITSUNARI Shigeo
AWSではじめるMLOps
AWSではじめるMLOps
MariOhbuchi
レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法
Takeshi Mikami
IoT と時系列データと Elasticsearch | Data Pipeline Casual Talk Vol.4
IoT と時系列データと Elasticsearch | Data Pipeline Casual Talk Vol.4
SORACOM,INC
リクルート流Elasticsearchの使い方
リクルート流Elasticsearchの使い方
Recruit Technologies
ngx_mrubyを用いた柔軟なABテスト基盤
ngx_mrubyを用いた柔軟なABテスト基盤
Recruit Lifestyle Co., Ltd.
Wacate2018 winter jstqb-al-ta
Wacate2018 winter jstqb-al-ta
kauji0522
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
Takashi J OZAKI
Amazon Athena で実現する データ分析の広がり
Amazon Athena で実現する データ分析の広がり
Amazon Web Services Japan
世界初elastic認定アナリストが送る~誰でもできるデータ分析~
世界初elastic認定アナリストが送る~誰でもできるデータ分析~
aslead
Elasticsearchを使ったTwitter監視アプリ
Elasticsearchを使ったTwitter監視アプリ
YuichiArisaka
Weitere ähnliche Inhalte
Was ist angesagt?
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
Javaトラブルに備えよう #jjug_ccc #ccc_h2
Javaトラブルに備えよう #jjug_ccc #ccc_h2
Norito Agetsuma
アイデンティティ (ID) 技術の最新動向とこれから
アイデンティティ (ID) 技術の最新動向とこれから
Tatsuo Kudo
文字コードに起因する脆弱性とその対策(増補版)
文字コードに起因する脆弱性とその対策(増補版)
Hiroshi Tokumaru
iostat await svctm の 見かた、考え方
iostat await svctm の 見かた、考え方
歩 柴田
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama
TensorFlow XLAは、 中で何をやっているのか?
TensorFlow XLAは、 中で何をやっているのか?
Mr. Vengineer
Re: ゼロから始める監視設計
Re: ゼロから始める監視設計
Masahito Zembutsu
Elasticsearchのサジェスト機能を使った話
Elasticsearchのサジェスト機能を使った話
ktaro_w
MLOpsはバズワード
MLOpsはバズワード
Tetsutaro Watanabe
本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話
Kumazaki Hiroki
暗号技術の実装と数学
暗号技術の実装と数学
MITSUNARI Shigeo
AWSではじめるMLOps
AWSではじめるMLOps
MariOhbuchi
レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法
Takeshi Mikami
IoT と時系列データと Elasticsearch | Data Pipeline Casual Talk Vol.4
IoT と時系列データと Elasticsearch | Data Pipeline Casual Talk Vol.4
SORACOM,INC
リクルート流Elasticsearchの使い方
リクルート流Elasticsearchの使い方
Recruit Technologies
ngx_mrubyを用いた柔軟なABテスト基盤
ngx_mrubyを用いた柔軟なABテスト基盤
Recruit Lifestyle Co., Ltd.
Wacate2018 winter jstqb-al-ta
Wacate2018 winter jstqb-al-ta
kauji0522
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
Takashi J OZAKI
Amazon Athena で実現する データ分析の広がり
Amazon Athena で実現する データ分析の広がり
Amazon Web Services Japan
Was ist angesagt?
(20)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Javaトラブルに備えよう #jjug_ccc #ccc_h2
Javaトラブルに備えよう #jjug_ccc #ccc_h2
アイデンティティ (ID) 技術の最新動向とこれから
アイデンティティ (ID) 技術の最新動向とこれから
文字コードに起因する脆弱性とその対策(増補版)
文字コードに起因する脆弱性とその対策(増補版)
iostat await svctm の 見かた、考え方
iostat await svctm の 見かた、考え方
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
TensorFlow XLAは、 中で何をやっているのか?
TensorFlow XLAは、 中で何をやっているのか?
Re: ゼロから始める監視設計
Re: ゼロから始める監視設計
Elasticsearchのサジェスト機能を使った話
Elasticsearchのサジェスト機能を使った話
MLOpsはバズワード
MLOpsはバズワード
本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話
暗号技術の実装と数学
暗号技術の実装と数学
AWSではじめるMLOps
AWSではじめるMLOps
レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法
IoT と時系列データと Elasticsearch | Data Pipeline Casual Talk Vol.4
IoT と時系列データと Elasticsearch | Data Pipeline Casual Talk Vol.4
リクルート流Elasticsearchの使い方
リクルート流Elasticsearchの使い方
ngx_mrubyを用いた柔軟なABテスト基盤
ngx_mrubyを用いた柔軟なABテスト基盤
Wacate2018 winter jstqb-al-ta
Wacate2018 winter jstqb-al-ta
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
Amazon Athena で実現する データ分析の広がり
Amazon Athena で実現する データ分析の広がり
Ähnlich wie Elasticsearchの機械学習機能を使ってみた
世界初elastic認定アナリストが送る~誰でもできるデータ分析~
世界初elastic認定アナリストが送る~誰でもできるデータ分析~
aslead
Elasticsearchを使ったTwitter監視アプリ
Elasticsearchを使ったTwitter監視アプリ
YuichiArisaka
日経コンピュータ主催:さわってわかる機械学習 Azure Machine Learning 実践セミナー
日経コンピュータ主催:さわってわかる機械学習 Azure Machine Learning 実践セミナー
Hiroshi Senga
Scikit-learnを使って 画像分類を行う
Scikit-learnを使って 画像分類を行う
Arata Honda
Azure Machine Learningによるレコメンデーションの設計&実装を公開!~朝日カルチャーセンターの事例から~
Azure Machine Learningによるレコメンデーションの設計&実装を公開!~朝日カルチャーセンターの事例から~
貴志 上坂
20181117 azure ml_seminar_1
20181117 azure ml_seminar_1
sady_nitro
JEUG#1LT
JEUG#1LT
Yu Katano
Masakazu Sano Tokyowebmining 37 20140621
Masakazu Sano Tokyowebmining 37 20140621
Masakazu Sano
賢くツールを使って脱人海戦術駆動テスト
賢くツールを使って脱人海戦術駆動テスト
Mitsuru Ogawa
SIOS iQ:機械学習 I T O A VMware仮想環境の性能問題の原因分析 迅速な問題解決と未然防止を実現
SIOS iQ:機械学習 I T O A VMware仮想環境の性能問題の原因分析 迅速な問題解決と未然防止を実現
softlayerjp
2018/8/6 トレLABO2 AI案件のよくある落とし穴と人材育成
2018/8/6 トレLABO2 AI案件のよくある落とし穴と人材育成
Trainocate Japan, Ltd.
130801_udct_05_01
130801_udct_05_01
CSISi
MLOps入門
MLOps入門
Hiro Mura
テスト駆動開発のはじめ方
テスト駆動開発のはじめ方
Shuji Watanabe
CSPによるコンカレントシステムの検証(1)
CSPによるコンカレントシステムの検証(1)
Yamagata Yoriyuki
[db analytics showcase Sapporo 2018] B32 無いなら作ろう!教師データ作成のあれこれ
[db analytics showcase Sapporo 2018] B32 無いなら作ろう!教師データ作成のあれこれ
Insight Technology, Inc.
スクラムプロジェクト準備(公開用) No.31
スクラムプロジェクト準備(公開用) No.31
Sukusuku Scrum
データベースを使おう
データベースを使おう
Shuhei Iitsuka
Elasticsearchによるリモートワーク時代のセキュリティ対策
Elasticsearchによるリモートワーク時代のセキュリティ対策
Elasticsearch
【eLV勉強会】 ITアーキテクトへの第一歩 ~「システム思考」に学ぶ真の解決策~
【eLV勉強会】 ITアーキテクトへの第一歩 ~「システム思考」に学ぶ真の解決策~
満徳 関
Ähnlich wie Elasticsearchの機械学習機能を使ってみた
(20)
世界初elastic認定アナリストが送る~誰でもできるデータ分析~
世界初elastic認定アナリストが送る~誰でもできるデータ分析~
Elasticsearchを使ったTwitter監視アプリ
Elasticsearchを使ったTwitter監視アプリ
日経コンピュータ主催:さわってわかる機械学習 Azure Machine Learning 実践セミナー
日経コンピュータ主催:さわってわかる機械学習 Azure Machine Learning 実践セミナー
Scikit-learnを使って 画像分類を行う
Scikit-learnを使って 画像分類を行う
Azure Machine Learningによるレコメンデーションの設計&実装を公開!~朝日カルチャーセンターの事例から~
Azure Machine Learningによるレコメンデーションの設計&実装を公開!~朝日カルチャーセンターの事例から~
20181117 azure ml_seminar_1
20181117 azure ml_seminar_1
JEUG#1LT
JEUG#1LT
Masakazu Sano Tokyowebmining 37 20140621
Masakazu Sano Tokyowebmining 37 20140621
賢くツールを使って脱人海戦術駆動テスト
賢くツールを使って脱人海戦術駆動テスト
SIOS iQ:機械学習 I T O A VMware仮想環境の性能問題の原因分析 迅速な問題解決と未然防止を実現
SIOS iQ:機械学習 I T O A VMware仮想環境の性能問題の原因分析 迅速な問題解決と未然防止を実現
2018/8/6 トレLABO2 AI案件のよくある落とし穴と人材育成
2018/8/6 トレLABO2 AI案件のよくある落とし穴と人材育成
130801_udct_05_01
130801_udct_05_01
MLOps入門
MLOps入門
テスト駆動開発のはじめ方
テスト駆動開発のはじめ方
CSPによるコンカレントシステムの検証(1)
CSPによるコンカレントシステムの検証(1)
[db analytics showcase Sapporo 2018] B32 無いなら作ろう!教師データ作成のあれこれ
[db analytics showcase Sapporo 2018] B32 無いなら作ろう!教師データ作成のあれこれ
スクラムプロジェクト準備(公開用) No.31
スクラムプロジェクト準備(公開用) No.31
データベースを使おう
データベースを使おう
Elasticsearchによるリモートワーク時代のセキュリティ対策
Elasticsearchによるリモートワーク時代のセキュリティ対策
【eLV勉強会】 ITアーキテクトへの第一歩 ~「システム思考」に学ぶ真の解決策~
【eLV勉強会】 ITアーキテクトへの第一歩 ~「システム思考」に学ぶ真の解決策~
Kürzlich hochgeladen
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
Kürzlich hochgeladen
(10)
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Elasticsearchの機械学習機能を使ってみた
1.
1 2020年3月23日 ITコミュニティ発表 Elasticsearchの機械学習機能を使ってみた! SOMPOシステムイノベーションズ株式会社 有坂祐一(ありさかゆういち) Mail:yarisaka@sompo-sys-i.com Twitter:@A1617Yuichi
2.
2 目次 1 はじめに ・自己紹介 ・前回発表 2 Elasticsearch ・Elasticsearchとは ・Elasticsearchの機械学習機能の歴史 3 実行環境 ・環境構築 ・テストデータ作成 4 実行結果 ・データの概要把握(Data Visualizer) ・教師なし学習のための機械学習ジョブの作成 ・異常値検出(Anomaly Detection) ・将来予測(Forecast) ・教師あり学習のための機械学習ジョブの作成 ・外れ値検知(Outlier
Detection) ・教師あり学習の分類(Classification) 5 まとめ
3.
3 1 はじめに ・自己紹介 2001/4 株式会社日立システムアンドサービス 2015/4 株式会社日立製作所 2017/4∼ SOMPOシステムイノベーションズ株式会社(出向中) 金融機関向け業務システム開発に携わり、設計・開発・テストなどを経験。 開発言語はJava・COBOLなど。 現在はSOMPOグループの未来革新PJTで、DB周辺を担当。DB製品はIBM DB2。 → 今話題の人工知能(Artificial
Intelligence)とは何か? Elasticsearchの機械学習機能(Machine Learning)とは何か?が動機となり取り組みました。 ・前回発表 2019/6 第3回MUIT社との技術交流会 Elasticsearchを使ってTwitter監視アプリの作成!NoSQL活用のススメ 発表資料はSlideShareで公開しています。 ・2020年3月末で出向解除になります。 ありがとうございました。
4.
4 2 Elasticsearch ・Elasticsearchとは Wikipediaから引用 7.6 / 2020年2月11日 ElasticsearchはApache Luceneをベースとした、Javaで書かれた 全文検索ソフトウェアである。2010年2月にShay
Banonによって 初版がリリースされた。オープンソースだが、現在はElastic社が中 心になって開発が進められている。 圧倒的な全文検索スピードと利便性を誇る。Elasticsearchの内部 ではApache Luceneの全文検索をフル活用している。スケーラブ ル,スキーマレス,マルチテナント(SaaS)を特徴とする。JSON 形式でデータを保管するドキュメント型データベース。 検索エンジン業界では最も人気がある。著名な導入例として、 Facebook, Netflix, GitHub, 日本経済新聞社, RICOH(社内基盤監視) などがある。
5.
5 ・Elasticsearchの機械学習機能の歴史 Qiitaの@yutaka_unoさんの記事から引用 2016/10 Ver.5.0 行動分析技術プロバイダのPrelert社の買収(2016/9) 2017/05 Ver.5.4 Elastic Machine Learningのリリース(2017/3) 2017/12 Ver.6.1 Kibanaでデータの概要把握(Data
Visualizer) → 9ページ 異常値検出(Anomaly Detection) → 11ページ 将来予測(Forecast) → 13ページ 2018/02 Ver.6.2 日時フィルタ(Calendar Management)の追加 2018/06 Ver.6.3 ソースコードの公開 2018/08 Ver.6.4 Kibanaでサンプルデータの公開 2018/11 Ver.6.5 KibanaのGUIからデータ取り込みの実現 → 8ページ 2019/01 Ver.6.6 注釈(Annotation)の追加 2019/06 Ver.7.2 データ形式の変換(Data Frames) 2019/08 Ver.7.3 外れ値検知(Outlier Detection) → 15ページ 2019/10 Ver.7.4 教師あり学習の回帰分析(Regression) 2019/12 Ver.7.5 教師あり学習の分類(Classification) → 16ページ
6.
6 今回(2020/3) ・Mac OS 10.15.2 ・Elastic
Stack ・Elasticsearch 7.6.0 ・Kibana 7.6.0 ・Machine Learning Trial ・Logstash 7.6.0 ・Metricbeat 7.6.0 ・Java SE 12.0.1 3 実行環境 ・環境構築 Elastic Cloud(Elastic社提供のクラウド環境)ではなくオンプレミスで環境構築。 公式サイトからダウンロード。 前回発表時(2019/6) ・Mac OS 10.14.1 ・Elastic Stack ・Elasticsearch 7.0.0 ・Kibana 7.0.0 ・Logstash 7.0.1 ・Metricbeat 7.1.0 ・Java SE 12.0.1 <今回使用した製品> ・Elasticsearch Logstashなどから転送されたデータを JSON形式で保管するデータベース。 ・Kibana Elasticsearchに格納されたデータを ブラウザで可視化するGUIツール。 Machine Learning機能は30日間無料 トライアル版を使用。 ・Elastic Cloudでは、ほぼ全ての 最新機能を使用できます。
7.
7 ・テストデータ作成 Kaggle(カグル・https://www.kaggle.com)は企業や研究者がデータを投稿し、世界中の統計家や データ分析家がその最適モデルを競い合う、予測モデリング及び分析手法関連プラットフォーム。 Kaggleからデータセット(CSV形式)をダウンロードして、KibanaのGUIから取り込み、 Elasticsearchに格納しました。 <Dataset> COVID-19 Complete Dataset(Updated
every 24hrs) 世界の都市別の新型コロナウィルスの 感染者数、死亡者数、回復者数のデータ <Acknowledgements> WHO Coronavirus disease (COVID-2019) situation reports ①データセットのダウンロード ・注目度が高いと思い選びました。 43,650 Downloads(3/15時点)
8.
8 ②テストデータの抽出 1/22∼3/4(43日間)の日本・中国・アメリカ の新型コロナウィルスの感染者数を抽出 ③KibanaのGUIからアップロード ④ElasticsearchがIndex(Database)を自動生成 ・Index定義(マッピン グ定義)の作成は難易度 が高いので、自動生成機 能が役立ちました。
9.
4 実行結果 ・データの概要把握(Data Visualizer) ファイルをアップロードすると、機械学習機能がファイルを分析し、データに関する情報を フィードバックします。 ・(左)3カ国の43日間の ドキュメント数(レコー ド数)の分布。 ・(右)感染者数 (Confirmed)の分布。 ・(左)観測日 (ObservationDate)の開 始日1/22と終了日3/4。 ・(右)国別(Country)のド キュメント数(レコード 数)の割合。 9
10.
・教師なし学習のための機械学習ジョブの作成 教師なし学習の目標は、データの特徴をとらえることです。 教師なし学習のための機械学習ジョブ(Multi Metric Job)を作成しました。 機械学習ジョブがデータを分析用にモデル化します。 ・1/22∼3/4の国別の感染者数 (Confirmed)を、グラフ化しました。 今回は分析期間を指定しましたが、Logstash などから継続的にデータ転送することで、リ アルタイム分析が可能になります。 10 ・作成した機械学習 ジョブの定義 ・中国・アメリカ・ 日本の感染者数の グラフ
11.
・異常値検出(Anomaly Detection) 機械学習機能が、過去の異常と比較するとどうなのか、これまでの異常よりも異常性が高いかどうか、 その他のデータと比較するとどうなのかを考慮して、異常の可能性を0∼100のスケールで正規化します。 この値をAnomaly Scoreとして表示します。 ・日本の感染者数の異常値検出 Warning(0∼24)のみ。 Anomaly
Score = 2 (Top Score, 2/21) 11 ・中国の感染者数の異常値検出 Warning(0∼24)のみ。 Anomaly Score = 2 (Top Score, 2/27) ・アメリカの感染者数の異常値検出 Warning(0∼24)・Minor(25∼49)・Major(50∼74)を検出。 Anomaly Score = 70 (Top Score, 2/23)
12.
12 ・日本・中国・アメリカの感染者数のデータを、並べて表示しました。 アメリカに異常値が検出されています。感染者数が不安定であることを表しています。
13.
・将来予測(Forecast) 機械学習機能が、搭載された予測モデルを用いて、予測日時までのモデルの成長を反映した予測を行い ます。予測結果はElasticsearchのIndex(Database)に書きこまれ、ユーザーは予測モデルと実際の結果を 比較することができます。3/3∼4/2の30日間の将来予測を実行しました。3/21に同じデータセットを ダウンロードして、3/19時点の予測モデルと実際の結果を比較しました。 ・日本の感染者数の将来予測 3/19時点の予測モデルの感染者数=484 3/19時点の実際の感染者数= 924 13 ・中国の感染者数の将来予測 3/19時点の予測モデルの感染者数=135,537 3/19時点の実際の感染者数= 81,156 ・アメリカの感染者数の将来予測 3/19時点の予測モデルの感染者数=95 3/19時点の実際の感染者数=
13,677
14.
・教師あり学習のための機械学習ジョブの作成 教師あり学習の目標は、分類(Classification)と回帰(Regression)の手法を使い、 テストデータを正解させることです。 教師あり学習のための機械学習ジョブ(Analytics Job)を作成しました。 機械学習ジョブ(Analytics Job)が使用するのは、時系列データに限りません。 14 ・作成した機械学習 ジョブの定義 ・1/22∼3/4(43日間)の日本・中 国・アメリカの新型コロナウィルス の感染者数をテストデータとして使 用しました。(教師なし学習と同じ データ) ・教師あり学習機能(P14∼P16) はベータ版です。
15.
・外れ値検知(Outlier Detection) 外れ値検知は統計学的な手法で外れ値を検出するもので、異常値とは異なります。 Elasticsearchでは局所外れ値因子法(LOF)、k近傍法(kNN)などのアルゴリズムを使用しています。 データがIndex(Databese)内の他のデータと比べて、外れ値である可能性を0∼1のスケールで表します。 ・今回は単純に感染者数(Confirmed)の 外れ値検知なので、中国の感染者数が外 れ値として検知されています。 ・パラメータを増やすとより正確な検知 が可能になります。バッチデータを投入 した時の異常データチェックなどに使用 できます。 15 ・外れ値の可能性をOutlier Scoreで表し ています。
16.
・教師あり学習の分類(Classification) Elasticserchではブーストツリー回帰モデル(Boosted Tree Regression
Model)と呼ばれるアルゴリズムを 使用しています。分類には2クラス分類(Binary Classification)と多クラス分類(Multi Class Classification) があります。Elasticsearch Ver.7.6 では2クラス分類のみ実行できます。 分類APIは、混同行列(Confusion Matrix)を作成するための値を返します。 ・2クラス分類のみ実行可能なので、どの ような機能かを知るために、日本と中国の データを使って実行しました。 ・分類モデルを作成してみました。結果は1 レコードを除いて正解しています。モデルの 修正(学習)は、今回はできませんでした。 16 ・左列からテストデータが訓練に使用され たかどうか、分類モデルが推測した国名、実 際の国名を表しています。
17.
17 5. まとめ ・Elasticsearchの機械学習機能は、機械学習の知識がなくても簡単に利用できます。 コーディングも不要です。実行しながら勉強することができました。 機械学習機能を分析してみると、目的に応じて機械学習のアルゴリズムを選択する必要があることに 気付きました。 ・Elasticsearchはデータ収集と検索速度を長所とするDB製品です。 収集したデータをどのように活用していくかがポイントです。 ①データ収集 →
②可視化 → ③分析 → ④活用 → ⑤自動化 前回発表(2019/6)では②可視化まで、今回は③分析まで実行してみました。 ・社外イベントのElasticsearch勉強会、Elasticsearchハンズオンセミナーに参加しました。 2ヶ月に1回程度、2∼3時間の頻度で、開催されています。 ①Elastic Cloudの基礎的な使い方、②最新バージョンの紹介などのテーマがあリました。
18.
18 2020年3月23日 ITコミュニティ発表 Elasticsearchの機械学習機能を使ってみた! 有坂祐一 ありがとうございました
Jetzt herunterladen