Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
既存分析ソフトへ
データを投入する前に
簡便な分析するための
ソフトの作り方の提案
50周年記念!
分析屋だらけの大ザーユー会
LT5分間用資料
DG LAB 下野寿之 (2018-07-11)
データは規模に関わらず
まだ良い扱い方法は無い
• 闇雲にデータを入力すると、計算時間がいくらで
も掛かる。適正量は人間の判断が必要。
• 専用ソフト(SPSSなど) に投入して意味のある結果を
得るには、人間によるデータの意味の理解が必要。
...
専用ソフト投入前に生データを
簡単に分析するソフトが必要
ちょっとしたプログラミングでも
プログラム手入力の何十倍も時間が必要。
 デバグ/テストに時間がかかるため生データを
簡便に処理するようにしよう。
 SPSS でも関数5個以上のプロ...
作ったコマンド (テキストデータ対象)
Unix/Linux の cpan コマンドでインストール容易
• expskip :
1, 10, 100, 1000, 1万 .. 行目だけ出力。
• alluniq :
行の重複があれば検出し様子を...
colsummaryを less と使う
6
予備スライド
約5枚
現状のコマンド一覧 (2017-07-22)
8
Mercurialでバージョン管理をしている。1,028回コミット済み。
dirhier 動作の様子
9
dirhier コマンドのヘルプ表示
10
企業に蓄積されたデータの
分析に既存のソフトは十分か?
ソフト : ソフト1 ソフト2 ソフト3 ソフト4
主要な
用途
表計算
統計
解析
数値
計算
DB操作
着手
容易さ
◎ ○ ○ △
透明性 × ○ ◎
ベンダ
依存
経年互
換性
△...
データ分析で欲しいもの
1. 結果の正しさの検証手段
 ダブルチェックを容易にするなど
 verbose モードを用意する
2. バグっていたときの検出手段
 エラー/警告をきちんと出す
 入力行数や合計値を表示するなど
3. バグに気...
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
Nächste SlideShare
Wird geladen in …5
×

既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案

既存分析ソフトへ
データを投入する前に
簡便な分析するための
ソフトの作り方の提案
50周年記念!
分析屋だらけの大ザーユー会
LT5分間用資料
DG LAB 下野寿之 (2018-07-11)

  • Loggen Sie sich ein, um Kommentare anzuzeigen.

  • Gehören Sie zu den Ersten, denen das gefällt!

既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案

  1. 1. 既存分析ソフトへ データを投入する前に 簡便な分析するための ソフトの作り方の提案 50周年記念! 分析屋だらけの大ザーユー会 LT5分間用資料 DG LAB 下野寿之 (2018-07-11)
  2. 2. データは規模に関わらず まだ良い扱い方法は無い • 闇雲にデータを入力すると、計算時間がいくらで も掛かる。適正量は人間の判断が必要。 • 専用ソフト(SPSSなど) に投入して意味のある結果を 得るには、人間によるデータの意味の理解が必要。 • 結局、どのデータ(テーブル/列) を計算に使うかは人 間の目で選ぶ必要がある。 • モデリングのための、良い特徴量は人間が設計す る必要がある。 • そして、データが少ないと、何の有意差も出ない ことも多い。
  3. 3. 専用ソフト投入前に生データを 簡単に分析するソフトが必要 ちょっとしたプログラミングでも プログラム手入力の何十倍も時間が必要。  デバグ/テストに時間がかかるため生データを 簡便に処理するようにしよう。  SPSS でも関数5個以上のプログラムをテスト無しで、 すぐ使える人は多分いない。 生データを下記だけで、簡便に処理するようにしよう! 1. 分かり安い機能名 (基本的に英単語2個の組み合わせ) 2. 簡単なオプションスイッチ(1文字の英数字記号) 3. 場合によりスイッチのパラメータ文字列
  4. 4. 作ったコマンド (テキストデータ対象) Unix/Linux の cpan コマンドでインストール容易 • expskip : 1, 10, 100, 1000, 1万 .. 行目だけ出力。 • alluniq : 行の重複があれば検出し様子を表示。 • crosstable : 2列のデータのクロス集計表を出力。 • colorplus : ASCIIカラーを(下線も) 指定文字列に。 • colgrep : 列指定で文字列検索しマッチ行を出力。 • colsummary : 各列の値範囲,最頻値をまとめる。 • colchop : 表の各フィールドの文字列長を制限。 • csv2tsv : CSV(RFC4180)をタブ文字区切りに。 • randskip : 効率的にランダムに行を抽出。(乱数生成は出力行ごとに1個。)
  5. 5. colsummaryを less と使う 6
  6. 6. 予備スライド 約5枚
  7. 7. 現状のコマンド一覧 (2017-07-22) 8 Mercurialでバージョン管理をしている。1,028回コミット済み。
  8. 8. dirhier 動作の様子 9
  9. 9. dirhier コマンドのヘルプ表示 10
  10. 10. 企業に蓄積されたデータの 分析に既存のソフトは十分か? ソフト : ソフト1 ソフト2 ソフト3 ソフト4 主要な 用途 表計算 統計 解析 数値 計算 DB操作 着手 容易さ ◎ ○ ○ △ 透明性 × ○ ◎ ベンダ 依存 経年互 換性 △ △ 先行き 不明 ○ 巨大 データ × メモリサイズの 制約(ロード時) 要設定 悪く言 うと 泥沼化 容易 freeze 多め マシンが古 いと無理 DB設計 面倒
  11. 11. データ分析で欲しいもの 1. 結果の正しさの検証手段  ダブルチェックを容易にするなど  verbose モードを用意する 2. バグっていたときの検出手段  エラー/警告をきちんと出す  入力行数や合計値を表示するなど 3. バグに気付いたときの訂正手段  途中の計算を複雑にしない

×