Submit Search
Upload
この素晴らしいSQLに祝福を!
•
Download as PPTX, PDF
•
1 like
•
3,364 views
_
__john_smith__
Follow
オタク機械学習勉強会#0 LT発表資料
Read less
Read more
Technology
Report
Share
Report
Share
1 of 21
Download now
Recommended
Reproducebility 100倍 Dockerマン
Reproducebility 100倍 Dockerマン
Nagi Teramo
機械の体を手に入れるのよ、鉄郎!!!
機械の体を手に入れるのよ、鉄郎!!!
Nagi Teramo
Rでを作る
Rでを作る
Nagi Teramo
BOOTがぶっとんだ
BOOTがぶっとんだ
paralleltree
RFinanceJはじめました
RFinanceJはじめました
Nagi Teramo
20101211 #
20101211 #
Yasutaka Hamada
peco活用術
peco活用術
Yuki Ishikawa
失われたBIOS設定を求めて
失われたBIOS設定を求めて
paralleltree
Recommended
Reproducebility 100倍 Dockerマン
Reproducebility 100倍 Dockerマン
Nagi Teramo
機械の体を手に入れるのよ、鉄郎!!!
機械の体を手に入れるのよ、鉄郎!!!
Nagi Teramo
Rでを作る
Rでを作る
Nagi Teramo
BOOTがぶっとんだ
BOOTがぶっとんだ
paralleltree
RFinanceJはじめました
RFinanceJはじめました
Nagi Teramo
20101211 #
20101211 #
Yasutaka Hamada
peco活用術
peco活用術
Yuki Ishikawa
失われたBIOS設定を求めて
失われたBIOS設定を求めて
paralleltree
SQL Server 2017 Machine Learning Services (CLR-H in TOKYO #13)
SQL Server 2017 Machine Learning Services (CLR-H in TOKYO #13)
Tomoyuki Oota
Ansible meetup201409
Ansible meetup201409
shirou wakayama
My開発環境の話
My開発環境の話
Yuta Ohashi
OSC hiroshima 2014
OSC hiroshima 2014
nemumu
Raspberry p ionzabbixproxy
Raspberry p ionzabbixproxy
2bo 2bo
Web エンジニアが postgre sql を選ぶ 3 つの理由
Web エンジニアが postgre sql を選ぶ 3 つの理由
Soudai Sone
Miyazaki流sql
Miyazaki流sql
hafuu
Espressoじゃなくてcodaを使う理由
Espressoじゃなくてcodaを使う理由
Tao Sasaki
Electron + Mithril Async File Search
Electron + Mithril Async File Search
和晃 西澤
PaaS ×iot! node red勉強会質問箱
PaaS ×iot! node red勉強会質問箱
Takehiko Amano
[学内勉強会]C++11とdirectxライブラリ
[学内勉強会]C++11とdirectxライブラリ
Shota Homma
Wakateweb 10
Wakateweb 10
okazu_dm
SQLドリルの話(仮)
SQLドリルの話(仮)
Yuuki Tan-nai
dbpedia.jp
dbpedia.jp
Fumihiro Kato
Goodpatchに生息するbotたち
Goodpatchに生息するbotたち
deepblue will
Javaで最強のfizz buzz
Javaで最強のfizz buzz
yy yank
絶対にぬるぽを出さない
絶対にぬるぽを出さない
yy yank
冴えないデータセットの育て方
冴えないデータセットの育て方
Kazuhiro Sasao
TIPs for learning Python
TIPs for learning Python
Takeshi Akutsu
Paulo Isidoro De Jesus
Paulo Isidoro De Jesus
Annalisa Nasciuti
Gönüllü Çevirmenler
Gönüllü Çevirmenler
TEDxIstanbul
Sidharth Associates Portfolio
Sidharth Associates Portfolio
Sidharth Kumar
More Related Content
What's hot
SQL Server 2017 Machine Learning Services (CLR-H in TOKYO #13)
SQL Server 2017 Machine Learning Services (CLR-H in TOKYO #13)
Tomoyuki Oota
Ansible meetup201409
Ansible meetup201409
shirou wakayama
My開発環境の話
My開発環境の話
Yuta Ohashi
OSC hiroshima 2014
OSC hiroshima 2014
nemumu
Raspberry p ionzabbixproxy
Raspberry p ionzabbixproxy
2bo 2bo
Web エンジニアが postgre sql を選ぶ 3 つの理由
Web エンジニアが postgre sql を選ぶ 3 つの理由
Soudai Sone
Miyazaki流sql
Miyazaki流sql
hafuu
Espressoじゃなくてcodaを使う理由
Espressoじゃなくてcodaを使う理由
Tao Sasaki
Electron + Mithril Async File Search
Electron + Mithril Async File Search
和晃 西澤
PaaS ×iot! node red勉強会質問箱
PaaS ×iot! node red勉強会質問箱
Takehiko Amano
[学内勉強会]C++11とdirectxライブラリ
[学内勉強会]C++11とdirectxライブラリ
Shota Homma
Wakateweb 10
Wakateweb 10
okazu_dm
SQLドリルの話(仮)
SQLドリルの話(仮)
Yuuki Tan-nai
dbpedia.jp
dbpedia.jp
Fumihiro Kato
Goodpatchに生息するbotたち
Goodpatchに生息するbotたち
deepblue will
What's hot
(15)
SQL Server 2017 Machine Learning Services (CLR-H in TOKYO #13)
SQL Server 2017 Machine Learning Services (CLR-H in TOKYO #13)
Ansible meetup201409
Ansible meetup201409
My開発環境の話
My開発環境の話
OSC hiroshima 2014
OSC hiroshima 2014
Raspberry p ionzabbixproxy
Raspberry p ionzabbixproxy
Web エンジニアが postgre sql を選ぶ 3 つの理由
Web エンジニアが postgre sql を選ぶ 3 つの理由
Miyazaki流sql
Miyazaki流sql
Espressoじゃなくてcodaを使う理由
Espressoじゃなくてcodaを使う理由
Electron + Mithril Async File Search
Electron + Mithril Async File Search
PaaS ×iot! node red勉強会質問箱
PaaS ×iot! node red勉強会質問箱
[学内勉強会]C++11とdirectxライブラリ
[学内勉強会]C++11とdirectxライブラリ
Wakateweb 10
Wakateweb 10
SQLドリルの話(仮)
SQLドリルの話(仮)
dbpedia.jp
dbpedia.jp
Goodpatchに生息するbotたち
Goodpatchに生息するbotたち
Viewers also liked
Javaで最強のfizz buzz
Javaで最強のfizz buzz
yy yank
絶対にぬるぽを出さない
絶対にぬるぽを出さない
yy yank
冴えないデータセットの育て方
冴えないデータセットの育て方
Kazuhiro Sasao
TIPs for learning Python
TIPs for learning Python
Takeshi Akutsu
Paulo Isidoro De Jesus
Paulo Isidoro De Jesus
Annalisa Nasciuti
Gönüllü Çevirmenler
Gönüllü Çevirmenler
TEDxIstanbul
Sidharth Associates Portfolio
Sidharth Associates Portfolio
Sidharth Kumar
Mod trabajo inst
Mod trabajo inst
MARGARET GAMARRA
Игра по обучению ПДД "Школа дорожных наук"
Игра по обучению ПДД "Школа дорожных наук"
mgw-rassilki
3. Бизнес процессы
3. Бизнес процессы
RnD_SM
Leveraged Buyout Acova Radiateurs: Feasibility Review for Baring Capital Inve...
Leveraged Buyout Acova Radiateurs: Feasibility Review for Baring Capital Inve...
Anh Ho
PyData.Tokyo Hackathon#2 TensorFlow
PyData.Tokyo Hackathon#2 TensorFlow
Akira Shibata
JPE Client Recruitment Solutions - Video & Social Collaboration
JPE Client Recruitment Solutions - Video & Social Collaboration
JPE Cloud Recruiter
PyData.Tokyo Meetup #11 LT
PyData.Tokyo Meetup #11 LT
drillan
Camera angles presentation.pptx
Camera angles presentation.pptx
Cameron Thomas
Py datameetup1
Py datameetup1
shiroyagi
Pythonではじめるロケーションデータ解析
Pythonではじめるロケーションデータ解析
Hiroaki Sengoku
ドメイン駆動設計と サーバサイドと私
ドメイン駆動設計と サーバサイドと私
Noriaki Kadota
4コマ漫画 Machine Learning 分析データを集めたかった話
4コマ漫画 Machine Learning 分析データを集めたかった話
esu ji
Viewers also liked
(19)
Javaで最強のfizz buzz
Javaで最強のfizz buzz
絶対にぬるぽを出さない
絶対にぬるぽを出さない
冴えないデータセットの育て方
冴えないデータセットの育て方
TIPs for learning Python
TIPs for learning Python
Paulo Isidoro De Jesus
Paulo Isidoro De Jesus
Gönüllü Çevirmenler
Gönüllü Çevirmenler
Sidharth Associates Portfolio
Sidharth Associates Portfolio
Mod trabajo inst
Mod trabajo inst
Игра по обучению ПДД "Школа дорожных наук"
Игра по обучению ПДД "Школа дорожных наук"
3. Бизнес процессы
3. Бизнес процессы
Leveraged Buyout Acova Radiateurs: Feasibility Review for Baring Capital Inve...
Leveraged Buyout Acova Radiateurs: Feasibility Review for Baring Capital Inve...
PyData.Tokyo Hackathon#2 TensorFlow
PyData.Tokyo Hackathon#2 TensorFlow
JPE Client Recruitment Solutions - Video & Social Collaboration
JPE Client Recruitment Solutions - Video & Social Collaboration
PyData.Tokyo Meetup #11 LT
PyData.Tokyo Meetup #11 LT
Camera angles presentation.pptx
Camera angles presentation.pptx
Py datameetup1
Py datameetup1
Pythonではじめるロケーションデータ解析
Pythonではじめるロケーションデータ解析
ドメイン駆動設計と サーバサイドと私
ドメイン駆動設計と サーバサイドと私
4コマ漫画 Machine Learning 分析データを集めたかった話
4コマ漫画 Machine Learning 分析データを集めたかった話
Similar to この素晴らしいSQLに祝福を!
NoNoSQL
NoNoSQL
Yuichiro Ebihara
RDBってなに?
RDBってなに?
Soudai Sone
データベース2.0
データベース2.0
Shuichi Takaku
backlogsでもCI/CDする夢を見る
backlogsでもCI/CDする夢を見る
Takeru Maehara
なぜ、いま リレーショナルモデルなのか(理論から学ぶデータベース実践入門読書会スペシャル)
なぜ、いま リレーショナルモデルなのか(理論から学ぶデータベース実践入門読書会スペシャル)
Mikiya Okuno
出来るチューリング完全!SQLでもいろいろ出来る! #syoboben
出来るチューリング完全!SQLでもいろいろ出来る! #syoboben
kyon mm
jOOQの紹介
jOOQの紹介
Takuya Kitamura
Introduction of SQL Anti-pattern at Phpcon Hokkaido
Introduction of SQL Anti-pattern at Phpcon Hokkaido
Kenta Kawai
SQL Developerって必要ですか? 株式会社コーソル 河野 敏彦
SQL Developerって必要ですか? 株式会社コーソル 河野 敏彦
CO-Sol for Community
データベース・リファクタリング読書会第四回オープニング
データベース・リファクタリング読書会第四回オープニング
akitsukada
Similar to この素晴らしいSQLに祝福を!
(10)
NoNoSQL
NoNoSQL
RDBってなに?
RDBってなに?
データベース2.0
データベース2.0
backlogsでもCI/CDする夢を見る
backlogsでもCI/CDする夢を見る
なぜ、いま リレーショナルモデルなのか(理論から学ぶデータベース実践入門読書会スペシャル)
なぜ、いま リレーショナルモデルなのか(理論から学ぶデータベース実践入門読書会スペシャル)
出来るチューリング完全!SQLでもいろいろ出来る! #syoboben
出来るチューリング完全!SQLでもいろいろ出来る! #syoboben
jOOQの紹介
jOOQの紹介
Introduction of SQL Anti-pattern at Phpcon Hokkaido
Introduction of SQL Anti-pattern at Phpcon Hokkaido
SQL Developerって必要ですか? 株式会社コーソル 河野 敏彦
SQL Developerって必要ですか? 株式会社コーソル 河野 敏彦
データベース・リファクタリング読書会第四回オープニング
データベース・リファクタリング読書会第四回オープニング
More from __john_smith__
全部Excelだけで実現しようとして後悔するデータ分析 2nd Edition
全部Excelだけで実現しようとして後悔するデータ分析 2nd Edition
__john_smith__
全部Excelでやろうとして後悔するデータ分析
全部Excelでやろうとして後悔するデータ分析
__john_smith__
PoCで終わらせない!データ分析・AI活用
PoCで終わらせない!データ分析・AI活用
__john_smith__
ML Sagemaker Dev.IO
ML Sagemaker Dev.IO
__john_smith__
Amazon SageMakerでゼロからはじめる機械学習入門
Amazon SageMakerでゼロからはじめる機械学習入門
__john_smith__
Alteryx UG3 LT #alteryx_ug
Alteryx UG3 LT #alteryx_ug
__john_smith__
Alteryx Inspire2017 新製品&新機能紹介
Alteryx Inspire2017 新製品&新機能紹介
__john_smith__
How to create Yarn Application #cmdevio2017
How to create Yarn Application #cmdevio2017
__john_smith__
Alteryxでkaggleに挑戦する #alteryx #alteryx_ug
Alteryxでkaggleに挑戦する #alteryx #alteryx_ug
__john_smith__
初心者向けに機械学習のハンズオンセミナーをしてわかったこと
初心者向けに機械学習のハンズオンセミナーをしてわかったこと
__john_smith__
Javado2
Javado2
__john_smith__
Jubatus hack2
Jubatus hack2
__john_smith__
5分でわかる 怖くない機械学習
5分でわかる 怖くない機械学習
__john_smith__
LSTMで話題分類
LSTMで話題分類
__john_smith__
初心者向け「凛ちゃん」
初心者向け「凛ちゃん」
__john_smith__
SparkRをつかってみた(Japan.R)
SparkRをつかってみた(Japan.R)
__john_smith__
Jubatus Hackathon
Jubatus Hackathon
__john_smith__
More from __john_smith__
(17)
全部Excelだけで実現しようとして後悔するデータ分析 2nd Edition
全部Excelだけで実現しようとして後悔するデータ分析 2nd Edition
全部Excelでやろうとして後悔するデータ分析
全部Excelでやろうとして後悔するデータ分析
PoCで終わらせない!データ分析・AI活用
PoCで終わらせない!データ分析・AI活用
ML Sagemaker Dev.IO
ML Sagemaker Dev.IO
Amazon SageMakerでゼロからはじめる機械学習入門
Amazon SageMakerでゼロからはじめる機械学習入門
Alteryx UG3 LT #alteryx_ug
Alteryx UG3 LT #alteryx_ug
Alteryx Inspire2017 新製品&新機能紹介
Alteryx Inspire2017 新製品&新機能紹介
How to create Yarn Application #cmdevio2017
How to create Yarn Application #cmdevio2017
Alteryxでkaggleに挑戦する #alteryx #alteryx_ug
Alteryxでkaggleに挑戦する #alteryx #alteryx_ug
初心者向けに機械学習のハンズオンセミナーをしてわかったこと
初心者向けに機械学習のハンズオンセミナーをしてわかったこと
Javado2
Javado2
Jubatus hack2
Jubatus hack2
5分でわかる 怖くない機械学習
5分でわかる 怖くない機械学習
LSTMで話題分類
LSTMで話題分類
初心者向け「凛ちゃん」
初心者向け「凛ちゃん」
SparkRをつかってみた(Japan.R)
SparkRをつかってみた(Japan.R)
Jubatus Hackathon
Jubatus Hackathon
Recently uploaded
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
Recently uploaded
(8)
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
この素晴らしいSQLに祝福を!
1.
この素晴らしい SQLに祝福を! オタクML勉強会#0
2.
お前誰よ? これ→じょんすみす(@__john_smith__) • どこにでもいる普通のアル中 • 願望 •
北海道帰りたい(テンプレ) • 花澤香菜と高橋李依と南條愛乃 • 謝罪 • 発表にオタク要素があまりはいらなかった
3.
人々の欲望と時代の変遷 • RDB使ってないシステムとかありえないでしょ • 永続化
== RDB • 他になんかあるの?時代 • NoSQL自体の到来 • データが多くなってきてRDBとかもう無理でしょw • これからの時代はNoSQLですよ! • やっぱSQL必要時代 • RDBじゃなくても結局SQLをインターフェースにしたい • データ分析で使ってる言語でR, Pythonの次くらいにSQLが現れる • イマココ
4.
AI, 機械学習時代におけるSQL • ETLとしてのSQL •
人生とは前処理の辛さとの戦い • Hiveでデータを取得してSparkで機械学習 • 非プログラマがデータを使うためのSQL • SQLで機械学習が出来る時代 • Hivemallの出現 • 調べてみると他にもいろいろあった • Postgresql, Microsoft SQL Server, Oracle • MySQLにはなさそうw
5.
AI, 機械学習時代におけるSQL • ETLとMLとSQLとつらみ •
前処理で例外だらけのデータをいじくってる時よりはましだけど。。 • MLのライブラリが必要とするフォーマットをつくるのって • 地味に作るのが面倒 • 単純にid変換でもメモリに乗らないくらいの特徴数があると。。 • データフレーム大好き • 単純なSQLとがっつりDF操作でいいんじゃかな? • 最近の非エンジニアがデータいじるって発想に反してる • SQLで機械学習の現状 • アルゴリズムは開発者がだいたい実装してる
6.
というわけで • こんなのがあると嬉しいんじゃなかろうか • よくあるフォーマットに変換する関数 •
いわゆるlibsvm formatとか • 実はライブラリに丸投げしてるだけの関数 • まだまだ、そんなアルゴリズムがあるかで差別化できる領域ですし • というわけなので • 作ろうとしてみた • 需要がありそうなら今後もやるかもしれない • ようするにただやってみたかっただけ
7.
たーげっと • PostgreSQLを相手にする • MySQLは分析環境としてはイマイチっぽい •
Oracle, SQL Severを相手にしてる金があったらその分酒を買う • Hive, Spark SQLなど分散環境は連番のIDを振るのが辛い • FeatureにID振るのはSQLの機能にお任せすることにしたので • できなくはないけど分散環境でユニークID振るのは面倒なのはちょっと考えれば 分かっていただけると思われる • なお、私はそんなにSQLには詳しくない模様
8.
文章の形態素解析 • textsearch_jaとかあるっぽいけど今回の用途ではイマイチなの で車輪の再発明でもいいや、ってなった
9.
文章の形態素解析 • textsearch_jaとかあるっぽいけど今回の用途ではイマイチなの で車輪の再発明でもいいや、ってなった こんな感じで 4種類の凛ちゃんに関する2chのやりとり を持ってきたデータ
10.
文章の形態素解析 • textsearch_jaとかあるっぽいけど今回の用途ではイマイチなの で車輪の再発明でもいいや、ってなった こんな感じで 4種類の凛ちゃんに関する2chのやりとり を持ってきたデータ
11.
文章の形態素解析 • textsearch_jaとかあるっぽいけど今回の用途ではイマイチなの で車輪の再発明でもいいや、ってなった こんな感じで 4種類の凛ちゃんに関する2chのやりとり を持ってきたデータ こうなる
12.
文章の形態素解析 • textsearch_jaとかあるっぽいけど今回の用途ではイマイチなの で車輪の再発明でもいいや、ってなった こんな感じで 4種類の凛ちゃんに関する2chのやりとり を持ってきたデータ こうなる Longで持たせとく
13.
単語のID化 これを先ほどのテーブルと単語でjoinするとBoWの出来上がり
14.
Long形式の特徴データ 同じ感じで文字列のlabelも数値化して 全部joinする ここまで出来たらあとは よろしくやってくれると嬉しいですよね?
15.
libsvmフォーマットにする関数 この関数1つでおなじみのフォーマットにしてみた ちなみに全情報でgroup byなcountして、 word_idとcount(word_id)を「:」で文字列結合 それをさらにarray_agg ->
array_to_string でも同じことは一応実現できる ※tmpは さっきの結果をviewにした
16.
で、ようやく機械学習 裏でscikit-learnに投げてるだけ 実装は自分でやる必要が無いので効率よくアルゴリズムを量産できる
17.
で、ようやく機械学習 裏でscikit-learnに投げてるだけ 実装は自分でやる必要が無いので効率よくアルゴリズムを量産できる と思っていた時代が私にもありました
18.
で、ようやく機械学習 裏でscikit-learnに投げてるだけ 実装は自分でやる必要が無いので効率よくアルゴリズムを量産できる と思っていた時代が私にもありました 実際には「文字列(の配列)」としてのこのフォーマットは読めなかった 自分でパースするか、一度tmpファイルに書き出して ファイルから読み込むという無駄処理が必要だった
19.
そして・・・ • predictはどうしたものか • だいたいこちらの思い通りにはいかない •
入力として入ってくるフォーマット • ライブラリが要求する形式 • モデルに含む内容 • predict対象のデータが持ってない特徴どうすんの? • スパースなデータで必要な特徴しか持ってないと 学習時と同じ特徴に持ってくのをどうするか • 次元数も引数にするのは美しくない • longでもwideでも全部0で埋めるのも処理速度が辛いことになりそう • スクラッチで実装してればその辺意識したモデルの中身にできるけど
20.
結論 • SQLの深みにはまるとアレ • 素人でもSQLで機械学習まで出来ちゃうように関数を用意するくらいなら、 PipelineをGUIで構築できるようなインターフェースのほうがよくね? •
まぁ、そもそも車輪の再発明ですし • scikit-learnだけじゃなくgensimに入ってるような処理やdeep learning 系など、pythonさえ知ってればUDFはサクッと量産できるところま で行きたかったけど、まぁ • 結局のところ、data frameが最強 • 昨日1日でこのすば3周した • ソースは整理したらgithubにあげます • やる気があればライセンスとかも追加してOSSっぽくします
21.
今後の話 • UDFの内外のやりとりはjsonとかで統一してしまったほうがいい かも • データの型を考えてやりとりするのが地味に辛い •
complex typeの配列はできないけど、中の要素は配列にできるとか • 最近のpostgresqlはjsonサポートしてるっぽいからSQLでいじりたい部分 はparseしてとか • プログラム側はpandasとかに変換してゴリゴリ回せるし • みんなが苦しみから解放される環境を • ビジネスサイドにいる人はsqlさえ知ってればudf使うだけ • 研修者サイドはゴリゴリアルゴリズム実装 • エンジニアがそこの繋ぎこみで病まないインターフェース統一
Download now