SlideShare a Scribd company logo
1 of 40
Download to read offline
無いなら作ろう!
教師データ作成のあれこれ
@db analytics showcase Sapporo 2018
足立 悠
1
料理とデータ分析は似ている
2
3
料理のフロー
材料 下ごしらえ・調理 おかず
4
分析のフロー
データ 前処理・解析 モデル
5
レシピ教師データ
スマートものづくり
6https://meti-journal.jp/p/2
故障や異常の兆候を検出したい
故障や異常の兆候を検出したい
故障や異常(教師データ)は滅多に起こらない
7
教師データを作るしかない!
8
自己紹介
足立 悠(あだち はるか)
日立造船株式会社 データサイエンティスト
主な業務は自社のAI・IoT技術の活用推進、実務者への技術指
導やリテラシー教育。
9
目次
1.教師データを作成するには?
2.機械学習のおさらい
3.機械学習を使った教師データ作成
- データ間の距離をみる
- データの変化量をみる
- データ自身を振り返る
- データの構造をみる
10
目次
1.教師データを作成するには?
2.機械学習のおさらい
3.機械学習を使った教師データ作成
- データ間の距離をみる
- データの変化量をみる
- データ自身を振り返る
- データの構造をみる
11
12
わざと異常な挙動を
させてデータを収集
2通りの方法がある
13
わざと異常な挙動をさせて
データを収集
破壊してデータを収集
AI(機械学習・深層学習)を利用
14
常時の挙動
攻撃を受けた時の挙動
学習
常時から逸脱する挙動(データ)を収集
目次
1.教師データを作成するには?
2.機械学習のおさらい
3.機械学習を使った教師データ作成
- データ間の距離をみる
- データの変化量をみる
- データ自身を振り返る
- データの構造をみる
15
学習と推論のフロー
http://blogs.itmedia.co.jp/itsolutionjuku/2015/07/post_106.html 16
機械学習の種類
17
・教師あり学習
 結果(目的変数)と状態(説明変数)から未来を予測する。
・教師なし学習
 説明変数のみのデータから新たな知見を発見する。
・強化学習
 施行を積み重ね「よいやり方」と「悪いやり方」を学ぶ。成功したら報
酬を得られ、失敗したらペナルティを受ける。
教師なし学習のイメージ
18
普段と違う動きを発見
例)センサの外れ値検出
グループの発見
例)顧客セグメンテーション
・異常値の発見 ・クラスタリング
目次
1.教師データを作成するには?
2.機械学習のおさらい
3.機械学習を使った教師データ作成
- データ間の距離をみる
- データの変化量をみる
- データ自身を振り返る
- データの構造をみる
19
異常部位を検出したい
他の箇所と違う
20
部分時系列へ変換
21
スライド
t (0) t (1) t (2) ・・・ t(99)
窓の幅N
t (1) t (2) t (3) ・・・ t(100)
・・・ t(N-3) t(N-2) t(N-1)
部分時系列 ・・・
k近傍法を使って距離を計算
22
・過去データのカテゴリ( と )を参照し、新規データ
(  )のカテゴリを予測する。
・新規データのk個の近傍データの多数決で決まる。
・k=3のとき 赤:2、青:1 →
・k=7のとき 赤:3、青:4 →
・k=10のとき 赤:4、青:6 →
Demo
23
目次
1.教師データを作成するには?
2.機械学習のおさらい
3.機械学習を使った教師データ作成
- データ間の距離をみる
- データの変化量をみる
- データ自身を振り返る
- データの構造をみる
24
異常点を検出したい
他の箇所と違う
25
部分時系列へ変換
26
幅Nの窓でスライド
部分時系列1 部分時系列2
両者の違い・・・ ・・・
特異値分解を使って差分を計算
27
・特異値分解は次元圧縮の手法の一つ。
・任意のm×n行列Aを、A=UΣVと表現する。
・U:m×mの直行行列
・∑:Aの特異値を対角要素として持つm×nの行列
・V:n×nの直行行列
例:
特異値 右特異値ベクトル左特異値ベクトル
Demo
28
バースト検知
29急激な変化が見られる
NYSOL
30http://www.nysol.jp/
・データ前処理と分析のためのコマンド
・Linux、Macで使用できる。WindowsはVirtualBoxやWSL(Win10以降)
を介して使用できる。
バースト検知コマンド
目次
1.教師データを作成するには?
2.機械学習のおさらい
3.機械学習を使った教師データ作成
- データ間の距離をみる
- データの変化量をみる
- データ自身を振り返る
- データの構造をみる
31
部分時系列へ変換
32
スライド
t (0) t (1) t (2) ・・・ t(99)
窓の幅N
t (1) t (2) t (3) ・・・ t(100)
部分時系列 ・・・
・・・ t(N-3) t(N-2) t(N-1)
オートエンコーダを使って差分を計算
33
・出力を入力に近付けるよう中間層を学習する。
入力層 出力層中間層
入力 出力
Demo
34
目次
1.教師データを作成するには?
2.機械学習のおさらい
3.機械学習を使った教師データ作成
- データ間の距離をみる
- データの変化量をみる
- データ自身を振り返る
- データの構造をみる
35
ネットワークへ変換
36
幅Nの窓でスライド
ネットワークの表現
37
1
23
4
5 =
0.0 0.5 0.8 0.0 0.0
0.5 0.0 0.7 0.0 0.0
0.8 0.7 0.0 0.5 0.0
0.0 0.0 0.5 0.0 0.6
0.0 0.0 0.0 0.6 0.0
1 2 3 4 5
12345
・ネットワーク構造は隣接行列で表現できる。
次数を使って構造の差を計算
38
区間Aの次数分布 区間Bの次数分布
分布の傾きに違いが見られる
Demo
39
ご清聴ありがとうございました!
40

More Related Content

Similar to [db analytics showcase Sapporo 2018] B32 無いなら作ろう!教師データ作成のあれこれ

はじパタ2章
はじパタ2章はじパタ2章
はじパタ2章
tetsuro ito
 

Similar to [db analytics showcase Sapporo 2018] B32 無いなら作ろう!教師データ作成のあれこれ (20)

はじパタ2章
はじパタ2章はじパタ2章
はじパタ2章
 
オープンセミナー岡山 これから始めるデータ活用
オープンセミナー岡山 これから始めるデータ活用オープンセミナー岡山 これから始めるデータ活用
オープンセミナー岡山 これから始めるデータ活用
 
自動でバグを見つける!プログラム解析と動的バイナリ計装
自動でバグを見つける!プログラム解析と動的バイナリ計装自動でバグを見つける!プログラム解析と動的バイナリ計装
自動でバグを見つける!プログラム解析と動的バイナリ計装
 
ビジネスマネージャとデータ分析
ビジネスマネージャとデータ分析ビジネスマネージャとデータ分析
ビジネスマネージャとデータ分析
 
タイトルが決まるまで担当編集者とどう戦ったのか!
タイトルが決まるまで担当編集者とどう戦ったのか!タイトルが決まるまで担当編集者とどう戦ったのか!
タイトルが決まるまで担当編集者とどう戦ったのか!
 
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録
 
Qgis2.18 基礎編
Qgis2.18 基礎編Qgis2.18 基礎編
Qgis2.18 基礎編
 
ETの開発現場で求められている人材像と育成方法
ETの開発現場で求められている人材像と育成方法ETの開発現場で求められている人材像と育成方法
ETの開発現場で求められている人材像と育成方法
 
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgateデータ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate
 
Tableauデータサイエンス勉強会12月ライトニング_柴田さん
Tableauデータサイエンス勉強会12月ライトニング_柴田さんTableauデータサイエンス勉強会12月ライトニング_柴田さん
Tableauデータサイエンス勉強会12月ライトニング_柴田さん
 
あなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイントあなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイント
 
Machine Learning Serviceを使ってみよう
Machine Learning Serviceを使ってみようMachine Learning Serviceを使ってみよう
Machine Learning Serviceを使ってみよう
 
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
 
Data-Centric AI開発における データ生成の取り組み
Data-Centric AI開発における データ生成の取り組みData-Centric AI開発における データ生成の取り組み
Data-Centric AI開発における データ生成の取り組み
 
Excelを使って学ぶ、統計の基礎
Excelを使って学ぶ、統計の基礎Excelを使って学ぶ、統計の基礎
Excelを使って学ぶ、統計の基礎
 
LiBRA 04.2019 / RPA
LiBRA 04.2019 / RPALiBRA 04.2019 / RPA
LiBRA 04.2019 / RPA
 
メルペイあと払いを実現するData Pipeline
メルペイあと払いを実現するData Pipelineメルペイあと払いを実現するData Pipeline
メルペイあと払いを実現するData Pipeline
 
Elasticsearchの機械学習機能を使ってみた
Elasticsearchの機械学習機能を使ってみたElasticsearchの機械学習機能を使ってみた
Elasticsearchの機械学習機能を使ってみた
 
Data-centricなML開発
Data-centricなML開発Data-centricなML開発
Data-centricなML開発
 
統計データを楽しむ 「新しいアクティブ・ラーニング教材」の提案
統計データを楽しむ 「新しいアクティブ・ラーニング教材」の提案統計データを楽しむ 「新しいアクティブ・ラーニング教材」の提案
統計データを楽しむ 「新しいアクティブ・ラーニング教材」の提案
 

More from Insight Technology, Inc.

コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
Insight Technology, Inc.
 

More from Insight Technology, Inc. (20)

グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?
 
Docker and the Oracle Database
Docker and the Oracle DatabaseDocker and the Oracle Database
Docker and the Oracle Database
 
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
 
事例を通じて機械学習とは何かを説明する
事例を通じて機械学習とは何かを説明する事例を通じて機械学習とは何かを説明する
事例を通じて機械学習とは何かを説明する
 
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
 
MBAAで覚えるDBREの大事なおしごと
MBAAで覚えるDBREの大事なおしごとMBAAで覚えるDBREの大事なおしごと
MBAAで覚えるDBREの大事なおしごと
 
グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?
 
DBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォームDBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォーム
 
SQL Server エンジニアのためのコンテナ入門
SQL Server エンジニアのためのコンテナ入門SQL Server エンジニアのためのコンテナ入門
SQL Server エンジニアのためのコンテナ入門
 
Lunch & Learn, AWS NoSQL Services
Lunch & Learn, AWS NoSQL ServicesLunch & Learn, AWS NoSQL Services
Lunch & Learn, AWS NoSQL Services
 
db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019オープニングセッション @ 森田 俊哉 db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019オープニングセッション @ 森田 俊哉
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也
 
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
 
難しいアプリケーション移行、手軽に試してみませんか?
難しいアプリケーション移行、手軽に試してみませんか?難しいアプリケーション移行、手軽に試してみませんか?
難しいアプリケーション移行、手軽に試してみませんか?
 
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
 
そのデータベース、クラウドで使ってみませんか?
そのデータベース、クラウドで使ってみませんか?そのデータベース、クラウドで使ってみませんか?
そのデータベース、クラウドで使ってみませんか?
 
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
 
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。 複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
 
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
 
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
 

Recently uploaded

Recently uploaded (7)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 

[db analytics showcase Sapporo 2018] B32 無いなら作ろう!教師データ作成のあれこれ