SlideShare a Scribd company logo
1 of 73
Download to read offline
Decision bireducts and decision
reducts – a comparison
Sebastian Stawicki, Dominik Slezak, Andrzej Janusza, Sebastian
Widz
International Journal of Approximate Reasoning 84, 75-109,
2017
紹介者:Motoyuki Oki
2017.04.21 雑誌会
2017.04.21 雑誌会 2
00. 概要
• この論⽂では、私たちはdecision bireductの概念を改訂する
• この概念について私たちは新しい解釈を⽰し、いくつかの重要で実⽤的な事実を証明する
• 私たちはいくつかのdecision bireductの計算のためによく知られたアルゴリズムを改良⽅
法を説明する
• 私たちの研究の完全性を達成するために、私たちはdecision bireductsとapproximate
decision reducts間の関係を調査する
• それら2つのアプローチの異なる定式化を⽐較し、それらの間の類似点を指摘する
• 私たちはデータから最適なdecision bireductsとapproximate decision reductsを検索す
るのがNP困難に関わる新しい結果を報告する
• 最後に、私たちは分類モデルとしての効率的な単純なアンサンブルを構築し、decision
bireductの有⽤性を説明する実験の新しい結果を⽰す
読んだ動機
・Slezakが2010年ごろから研究しているbireduct研究の総まとめ
論⽂のようなので興味
・bireductに基づくルール抽出とその効果を確認
2017.04.21 雑誌会 3
00. ⽬次
• 01. Introduction
• 02. Basics off decision reducts and decision
bireducts
• 03. Heuristic search for decision bireducts
• 04. Decision bireducts and approximate decision
reducts
• 05. Conclusions
2017.04.21 雑誌会 4
01. Introduction
• ラフ集合理論の基礎的な概念の1つとして発展した
Decision Reductsが知識発⾒や属性選択においてたくさ
んのアプリケーションがある
• Decision Reductsのさまざまな拡張の中に、ノイズがあ
りサイズが⼤きいデータを扱うために、approximate
decision reductsがある
– ある閾値を満たす決定情報を保存し、それ以上削減
できない属性の部分集合である
• 初期のdecision reductsより正確性が適度に低い属性の
部分集合であり、実世界の応⽤では、ロバストでかつ少
ない属性を保持するため好まれている
2017.04.21 雑誌会 5
01. Introduction
• 過去の研究[9](Slezak+,2011)では、異なる
approximate decision reductsに基づいた分類器のア
ンサンブル分類器が、同じ対象を誤分類してしまうとい
うことが議論された
– 理由として、上記の関数が全体的なデータのサマリ
によって属性の部分集合を評価するため、特定の対
象で誤分類が起こってしまう
• この問題に取り組むために、BoostingやBaggingのよう
な結合⽅法について考えられている
2017.04.21 雑誌会 6
01. Introduction
• Decision bireductsがdecision reductの新しい拡張とし
て提案された
– 属性の部分集合と対象の部分集合のペア
– つまり,属性の部分集合により正しい分類を保証す
る対象でペアは構成されている
• その概念は冗⻑でない属性の部分集合と対象の部分集合
によって定義される
2017.04.21 雑誌会 7
• はじめにstandard/approximate decision reductとの⽐較し
、decision bireductを説明する
• データから最も興味深いbireductsを抽出するための問題に対
するアルゴリズムの基礎を構築するためのいくつかの新しい
解釈を説明する
• 新しいデータを分類するときにロバストなままである可能性
の⾼い決定ルールの集合を作ることを考える
• この論⽂では古典的なラフ集合理論のみを考える
– すべての属性はカテゴリカル
– この研究を⼀般化することは容易に考えられる
• 提⽰する理論的な事柄のほとんどが1つのdecision bireduct
の特性に焦点をあてる
• Decision bireductのアンサンブルを構築するいくつかのアイ
デアを議論し、これまで公開していなかった実験結果を⽰す
01. Introduction
2017.04.21 雑誌会 8
2.1. Decision reducts
定義1:決定表
U:対象の集合
A:条件属性の集合
d:決定属性
Va:属性aの値集合
a :関数 U → Va
定義2:対象の識別
B:条件属性の集合Aの部分集合
|U|:Uの基数
というようなa∈Bが存在する
⇔ 対象ui, ujはBによって識別されるという
2017.04.21 雑誌会 9
2.1. Decision reducts
定義3:識別不能関係
上記のケースのとき、属性集合Bによりuiとujが識別不能
であるという
:IND(B)による対象Uの分割
IND(B)により決定される同値クラス
:IND(B)に含まれる対象uと識別不能な対象の集合
同値類
(略記: )
(略記: )
2017.04.21 雑誌会 10
2.1. Decision Reducts
定義4:consistent
・属性集合Aが のようなすべての対象を識別する
・属性集合Aによって識別不能な対象ui, ujは同じ決定属性
値を持つ
is consistent ⇔
Decision Rules
定義5:Decision Reduct
⇔
2017.04.21 雑誌会 11
2.1. Decision Reducts
決定属性
⇒ 2つのdecision reductsがある
{O,T,W} and {O, H, W}
表1:データの例
2017.04.21 雑誌会 12
2.1. Decision Reducts
⇒ 2つのdecision reductsから決定ルールが⽣成される
表2:抽出された決定ルール群
2017.04.21 雑誌会 13
2.1. Decision Reducts
定義6:Positive Region(正領域)
属性集合Bにより、唯⼀に決定クラスが分類され得るすべての対象で
構成される。
Bによる同値クラスを使って、以下のように書き換えることができる
結論と属性間の依存性の程度を表現するための関数として次のγが使
われる。UのうちBによる分割で⽭盾のない対象がどの程度あるかを測
る
2017.04.21 雑誌会 14
2.1. Decision Reducts
定義7:γ-decision reduct
⇔ を満たすこれ以上減少できない属性部分集合
⇔ POS(B) = POS(A)をみたす
特別な決定属性値 ʻ#ʼ を識別不能な対象の決定属性値とす
る。 とB⊂Aで に修正された
決定表を作る。
γ-decision reductを得る⽅法:元の決定表を修正した⽭盾
のない決定表を作り、decision reductを求める
2017.04.21 雑誌会 15
2.1. Decision Reducts
表3:B={O,T,H}の場合の修正された決定表
元の決定属性
例: 4と14 or 5と6は元の決定属性が異なるので、#となる
2017.04.21 雑誌会 16
2.1. Decision Reducts
表4:γ-decision reductsから⽣成されたルール群
γ-decision reductは修正された決定表のすべての属性で構
成される
2017.04.21 雑誌会 17
2.2. Decision bireducts
定義8:Decision bireducts
decision bireduct ⇔
⇒ 2. Bの部分集合がないこと
⇒ 3. Xの上位集合がないこと
d(ui)≠d(uj)であるすべてのペアui, ujをBが識別する
2017.04.21 雑誌会 18
2.2. Decision bireducts
Proposition 1:2つの単調性の性質
Proposition 2:decision reductとの関係
証明
・Bがdecision reduct ⇒ BによりUのすべてのペアを識別
できるので、(U,B)はdecision bireduct
・(U,B)がdecision bireduct ⇒ であり、
となる がないため、Bはdecision reduct
2017.04.21 雑誌会 19
2.2. Decision bireducts
Decision reductの⽤語を使って、decision bireductsは表
現される
Proposition 3
⇔
decision bireductを探索するときに、Proposition 3は
decision reductを探索するために発達したアルゴリズムを
適⽤するのに役⽴つ
2017.04.21 雑誌会 20
2.2. Decision bireducts
Proposition 4:decision bireductの性質
1. Bによる分割で、 X∩Eにあるすべての対象は同じ決定
属性値を取る
2. Bによる分割で、Eにあるすべての対象はXに含まれる
3. Xは決定ルールの集合のサポートの和集合と等しい
2017.04.21 雑誌会 21
2.2. Decision bireducts
• 定理4はdecision bireductがどのように決定ルールを⽣
成するかを⽰している
• ⾔いかければ、decision bireductが決定ルールの集合に
よって表現される
表5:decision bireductから⽣成された決定ルール集合
2017.04.21 雑誌会 22
2.3. γ-Decision bireducts
定義9:γ-Decision bireducts
Decision bireductの定義8を修正することでγ-Decision
bireductが考えられる
(X, B) がγ-decision bireduct ⇔
Decision bireductとの違いは、γ-decision bireductに所属する対象は
Xだけでなく、Uの対象とも識別されることが必要である点
2017.04.21 雑誌会 23
2.3. γ-Decision bireducts
Proposition 5:2つの単調性の性質
Proposition 6:decision reductとの関係
γ-decision bireductの特徴
- Uにアクセスする必要があるので、ストリームデータ上で、γ-
decision bireductを計算することはできない
- 正領域との類似性:対象uがPOS(B)に所属するときに限り、その対
象uはXに加えられる
2017.04.21 雑誌会 24
2.3. γ-Decision bireducts
Proposition 7:γ-decision bireductの性質
Proposition 7から、
・γ-decision bireductを探索する問題は、修正された決定
表 でのdeicision reductの探索する問題に置
き換えれる
・γ-decision bireductはγ-decision reductの場合と同様
に、決定ルールとして解釈できる:
2017.04.21 雑誌会 25
2.3. γ-Decision bireducts
表6:表1のデータにおけるdecision bireducts と γ-decision
bireducts(B = {O,H})
表7:B={O,H}のγ-decision bireductから⽣成されるルール集合
Decision-bireductは属性集合Bで、異なる対象の部分集合で構成され
る。Decision-bireductのほうがXは⼤きい
2017.04.21 雑誌会 26
3.1. Boolean representation
• Decision-bireductsを探索するためのたくさんの⽅法が
考えられる
• まず、ブーリアン⽅式で決定表の識別可能性を表現する
• Decision-bireductsもこれの類推で表現される
Proposition 8:decision bireductのブーリアン⽅式
命題変数
⇔
2017.04.21 雑誌会 27
3.1. Boolean representation
Proposition 8の証明
P is an implicant of τ ⇔PがいつもTrueであるという事実はいつもτ
もTrueであると評価される。
を考え、最初に
を証明する。
(⇒) Pがτ_{bi}のimplicantじゃないなら、PがTrueのときにτ_{bi}が
Falseがある。 がFalseになる節があるはず。
fはdisjunctionなので、すべての要素がFalseであるのがあるはず。
PがTrueでiとjはFalseであるので、それはiかjのどちらもPの⼀部では
ない。PはU\Xの対象に対応する変数を含む。ui, uj ∈ Xとなる。Pはi
とjが異なる結論部になる変数aを含まない。a∉Bとなる。これはuiと
ujがBで識別されないということ。それゆえ は保たれないので
⽭盾。
(順次やればできるはずなので省略…)
2017.04.21 雑誌会 28
3.1. Boolean representation
• Proposition 8はdecision reductの数よりもdecision
bireductの数がかなり多いことを⽰す
• decision bireductsのすべての集合 は CNF(連⾔標準
形)とDNF(選⾔標準形)で表現される
表8:表1のすべてのdecision bireductを表すCNFとDNF
2017.04.21 雑誌会 29
3.1. Boolean representation
• Proposition 8はdecision bireductを作るためには、属
性と対象が等しく重要であることを⽰しており、それは
以下の定理を引き起こす
Proposition 9
新しい決定表:
新しい属性集合:
⇔
2017.04.21 雑誌会 30
3.1. Boolean representation
表9:Proposition 9 の決定表の例
これは、⼤きなデータでは明⽰的に実体化するのはできないので、より効率
的なアルゴリズムの発展の始まりとして扱われる
2017.04.21 雑誌会 31
3.1. Boolean representation
• γ-decision bireductで、Proposition 9に類似した表現
を考える
• まずProposition 8への類似したブーリアン表現を持つ
– それはdecision bireductよりも制限がある
– 2つの対象を識別する属性がないなら、それらの対象
がγ-decision bireductに含まれない
Proposition 10:γ-decision bireductのブーリアン⽅式
命題変数
⇔
2017.04.21 雑誌会 32
3.1. Boolean representation
• γ-Decision bireduct も CNF(連⾔標準形)とDNF(選
⾔標準形)で表現される
表10:表1のすべてのγ-decision bireductを表すCNFと
DNF
• decision bireductよりもCNFは⻑く、DNFは短い(=γ-
decision bireductが⼩さい)
• ⻑さの⽐較により、よりdecision bireductより制限があ
ることを⽰している
2017.04.21 雑誌会 33
3.2. Ordering algorithms
• Decision bireductを探索するための⽅法を考える
• 縮約探索のためにラフ集合で発達した古典的なアルゴリ
ズムの拡張で、decision-bireductを取り出す(Alg.1)
σ:置換(順列)
:対象uを追加してもBで識別できるなら
:aを削除したBで識別できるなら
:初期化
2017.04.21 雑誌会 34
3.2. Ordering algorithms
Proposition 11:Alg.1のアウトプットはdecision-
bireductである。さらに、Alg.1のアウトプットが (X,B)に
なる置換σが存在する
証明(1)
置換σを与える。最初はX0={},B0=A。Loop処理で、
属性が削除されるか対象が追加されるかが⾏われるが、常
に条件が満たされるかをチェックするため
は最後まで保たれる。最後のペア( )が満たしてい
るかをチェックするために が冗⻑じゃなく も
減らないことを⽰す。定義8の条件2と3を使って⽭盾によ
ってこれを証明する(省略)
2017.04.21 雑誌会 35
証明(2)
(X,B)となる置換σがあることを⽰すために、次を考える
(a)は最初のステップでX0=∅なので、属性が選ばれて とな
る。次の(b)で、|X|ステップのあと、 となる
次の(c)では、残りのBを減らすことができないので、変化なし
最後の(D)では、追加すると識別できなくなるので、追加されない。
結果(X,B)となる置換を作ることができる□
3.2. Ordering algorithms
2017.04.21 雑誌会 36
• ある事前に指定した条件のdecision-bireductを⼿に⼊
れるために置換σを制御するのは難しい
– 例:|X|, |B|, |X|と|B|の⽐率
• 部分的に置換を⽣成する⽅法をモデル化が必要
• 例えば、対象より属性を選択する可能性を制御するパラ
メータを考える
• 置換σが始めにたくさんの属性を含んでいるなら、少な
い属性でかつカバーされない対象がたくさんある
decision-bireductを⼿に⼊れやすい
• このような可能性はRatioを呼ばれ、後にこのパラメー
タの違いがBとXのサイズにどのように影響するかが説
明される
3.2. Ordering algorithms
2017.04.21 雑誌会 37
• γ-decision bireductの場合もほぼ同じアルゴリズム
(Alg.2)で探索できる
3.2. Ordering algorithms
2017.04.21 雑誌会 38
3.2. Ordering algorithms
Proposition 12:Alg.2のアウトプットはγ-decision-
bireductである。さらに、Alg.2のアウトプットが (X,B)に
なる置換σが存在する
証明
Proposition 11と同様である
2017.04.21 雑誌会 39
3.2. Ordering algorithms
表11:Alg.1の結果の例
表12:Alg.2の結果の例
2017.04.21 雑誌会 40
3.2. Ordering algorithms
図1:decision-bireductの計算過程の例 図2:γ-decision-bireductの計算過程の例
2017.04.21 雑誌会 41
• サンプリングアプローチとされるもう1つの⽅法を説明
する(Alg.3)
• ⾼次元データでのbireductの計算を速くすることが狙い
3.3. Sampling algorithms
:対象u_{*}を含んでいる決定クラス
u_{*}を含む決定クラスとEの共通集合を追加する
3⾏⽬で⼿に⼊れられる縮⼩された決定表により、コンパ
クトなif-thenルールになる
2017.04.21 雑誌会 42
Proposition 13:Alg.3のアウトプットはdecision-
bireductである。さらに、それぞれのdecision-bireductが
Alg.3の結果として⼿に⼊れることができる
3.3. Sampling algorithms
証明(2)
あるdecision bireduct(X,B)を考える。A*=Bとおく。U*は
Xの代表的な対象を取って構成するとする。
(X,B)がdecision bireductなので、XはBによる識別不能ク
ラスの少なくとも1つの対象を持つ必要がある。U*は正確に
それを持つ。アルゴリズムのステップで、reduct Bを⼿に
⼊れる。そのBはXにとって単純化できないので、U*にとっ
ても単純化できない。よって、Bは唯⼀のreductとなる
2017.04.21 雑誌会 43
• Alg.3の計算例を表13,14で説明する
3.3. Sampling algorithms
表13. の決定表の識別不能クラス
表14. U_{*}の集合
からdecision reduct {T,H}で以下
のbireductが⼿に⼊れられる
2017.04.21 雑誌会 44
• 適切なサンプリングメカニズムと組み合わせることで、
多様な対象や属性に基づくdecision bireductのアンサン
ブルを導きうる
• Alg.3の⽅法は特定の置換σを使って、Alg.1のフレーム
ワークでモデル化もできる
– はじめにいくつかの属性
– 真ん中にすべての対象の並び
– 最後に残りの属性
• この類推は、期待した属性や対象のサイズのbireductを
探索するためのパラメータを定義するのに役⽴つ
3.3. Sampling algorithms
2017.04.21 雑誌会 45
• そのようなパラメータは の期待値に対応する
• Alg.3の4⾏⽬で⼩さい属性集合が引かれたら、識別不能
クラスは⼩さくなり、結果⼩さいXのbireductが⼿に⼊
る
• 逆に、⼤きい属性集合が引かれたら、対応する識別不能
クラスは1つの対象で構成されやすくなり、bireductの
Bは古典的なdecision reductに対応しやすくなる
3.3. Sampling algorithms
2017.04.21 雑誌会 46
3.3. Sampling algorithms
• γ-decision bireductの場合もほぼ同じアルゴリズム
(Alg.4)で探索できる
Proposition 14:Alg.4のアウトプットはγ-decision-
bireductである。さらに、それぞれのγ-decision-bireduct
がAlg.4の結果として⼿に⼊れることができる
2017.04.21 雑誌会 47
3.3. Sampling algorithms
• Alg.4の計算例を表16,17で説明する
表16. の決定表の識別不能クラス
表17. U_{*}の集合
からdecision reduct {T,H}で以下
のbireductが⼿に⼊れられる
2017.04.21 雑誌会 48
• 表18:Alg.3とAlg.4のいくつかの計算結果
3.3. Sampling algorithms
2017.04.21 雑誌会 49
• このアプローチのメインの利点が前節のアルゴリズム
Alg.1,2とくらべて計算効率性である
• このアプローチの最悪ケースでは
– T:reductの計算アルゴリズムの複雑性
– A_{*}が⼩さいなら、最悪ケースよりもかなり⼩さ
くなる(= )
3.3. Sampling algorithms
2017.04.21 雑誌会 50
4.1. Examples of approximate decision reduct formulations
• Approximate decision reduct を計算するための基準は
閾値と属性の部分集合により抽出される情報の程度を評
価する関数の値に基づく
• F-decision ε-reductに焦点をあてる
– :情報の程度を評価する関数
– ε:どの程度の情報が落ちるのを許すかの閾値
定義10:Relative F-decision ε-reduct
:Aのべき集合
:単調⾮減少関数
はa relative F-decision ε-superreductである⇔
はa relative F-decision ε-reductである⇔ and
この不等式を満たすBの部分集合がない
2017.04.21 雑誌会 51
はa F-decision ε-superreductである⇔
• 部分集合Bを直接評価する別の定義を定める
4.1. Examples of approximate decision reduct formulations
定義11:F-decision ε-reduct
はa F-decision ε-reductである⇔ and
この不等式を満たすBの部分集合がない
• Fのいくつかの例を考える
• その1つがγ:
2017.04.21 雑誌会 52
4.1. Examples of approximate decision reduct formulations
定義12:Majority function
特定の識別不能クラスと各決定クラスとの共通集合の頻度の最⼤値の
平均。Bの正確性をモデル化
定義13:Relative gain function
各決定クラスでの特定の識別不能クラスと各決定クラスとの共通集合
の頻度の最⼤値の平均
2017.04.21 雑誌会 53
4.1. Examples of approximate decision reduct formulations
• ⽭盾のない決定表では、
• F-decision ε-reductsのεの値は、分類器の正確性を制
御する閾値
• εを⾼くすると、⼩さい属性集合BもF-decision ε-
reductsに含まれ、⽣成される決定ルールも短くなる
• εを低くすると、より⼤きな属性集合BがF-decision ε-
reductsに含まれやすくなり、⽣成される決定ルールも
複雑になりやすい
2017.04.21 雑誌会 54
• F-decision ε-reductsの探索に関わる計算複雑性を考え
る
• 多項式還元を使って、最⼩のreductを⾒つける問題が
NP困難であることを証明する
4.1. Examples of approximate decision reduct formulations
Proposition 15
最⼩のrelative γ-decision ε-reductを⾒つけるのはNP困
難である
証明
グラフG(V,E)の⽀配集合問題に置き換えてNP困難問題であることを証
明する
・⽀配集合問題:頂点の部分集合Dのうち、Dに属さない全ての頂点に
対して少なくとも1つのDに属する頂点が隣接するとき⽀配集合と⾔い
、⼤きさ最⼩の⽀配集合を⾒つける問題のこと
2017.04.21 雑誌会 55
4.1. Examples of approximate decision reduct formulations
Proposition 16
最⼩のγ-decision ε-reductを⾒つけるのはNP困難である
Proposition 17
最⼩のrelative M-decision ε-reductを⾒つけるのはNP困
難である
Proposition 18
最⼩のM-decision ε-reductを⾒つけるのはNP困難である
Proposition 19
最⼩のrelative R-decision ε-reductを⾒つけるのはNP困
難である
Proposition 20
最⼩のR-decision ε-reductを⾒つけるのはNP困難である
2017.04.21 雑誌会 56
• 最も良いdecision bireductとは?
– 暗黙の仮定として、⽣成過程では対象と属性の数が最⼩化
されるように⽣成される
– 属性の数の最⼩化とカバーされない対象の数最⼩なのが直
感的に良いと理解される
• 不均衡なデータ(ある決定クラスが極端に少ないなど)では
対象の基数に基づく⽅法では不⼗分
– マイノリティな決定クラスに所属する対象にもっと注意を
払うべき
• 我々は属性と対象の数のバランスに関して、かなりたくさん
の最適な基準を考えることができる
• 過去の研究では、decision bireductを評価するために、次の
関数を最⼩化した
4.2. Searching for optimal decision bireducts
2017.04.21 雑誌会 57
• 別の評価の観点は、decision bireductのアンサンブルを
考えるとき、すべてのUをカバーできるようにdecision
bireduct同⼠が助けあうように⽣成することが考えられ
る
– このアプローチは次の節で説明する
• 我々はdecision bireductがたくさんのカバーされない対
象を⽣成しないようないくつかの制約保証を定式化する
4.2. Searching for optimal decision bireducts
定義14:decision ε-bireduct
⇔
定義15:γ-decision ε-bireduct
⇔
2017.04.21 雑誌会 58
• 我々はdecision ε-bireductを探索する複雑性を調査する
⽅法は、approximate decision reductsの共通の何か
があると考える
• γ-decision ε-bireductについての下記のNP困難問題
4.2. Searching for optimal decision bireducts
Proposition 21
1.
2. 属性数最⼩のγ-decision ε-bireductを⾒つけるのはNP
困難である
⇔
2017.04.21 雑誌会 59
4.2. Searching for optimal decision bireducts
Proposition 23
最⼩の属性数のDecision ε-bireductを⾒つけるのはNP困
難である
Proposition 22
⇔ (X,B)がdeicion ε-bireductであり、Bの基数より⼩さい
属性のdecision ε-bireductがない
• 我々はdecision ε-bireductとM decision ε-bireductの
関係を研究し、同様にNP困難問題であることを証明
2017.04.21 雑誌会 60
• 表1に基づく例を考える
4.2. Searching for optimal decision bireducts
Yesが9個、Noが5個
ε≧5/14だと、M-decision ε-
reductは空集合となり、デフォ
ルトルール(Yesというルール)
のみが⽣成される
ε=4/14より⼩さいと、M-decision ε-reductは複数の集合となり、
興味深い結果となる⇒表19へ
2017.04.21 雑誌会 61
4.2. Searching for optimal decision bireducts
decision ε-bireductのほ
うが数が多い
アンサンブルを構築する
際に、⼩さい属性の数の
ほうがシンプルで⼀般的
なルールとなり得る
表19:M decision ε-reductとdecision ε-bireductの⽐較
2017.04.21 雑誌会 62
• データのそれぞれの対象が少なくとも2つによってカバーされるよ
うな3つのdecision bireductsでアンサンブルを構成するのを考え
ると、M-decision ε-reductで構成するのは不可能
• decision ε-bireductなら637通り作れる
• ルールのシンプルさが未知データにも良い分類精度を提供するだろ
う
• 3つのうち2つがいつも正しいなら、シンプルな投票により精度の妥
当性が保証される
4.2. Searching for optimal decision bireducts
表20:decision ε-bireductによるアンサンブルの構成例
2017.04.21 雑誌会 63
4.3. Searching for optimal ensemble of decision bireducts
• Decision bireductsの最も有望なアプリケーションの1
つがアンサンブル分類器の構築である
– できるだけ様々な属性を含むreductの分類器のアン
サンブルを考えたい
• Decision bireductでは、データの異なる部分を使う分
類器のアンサンブルを構築でき、訓練データを均⼀にカ
バーする
• さらに、decision bireductのアンサンブルはより短いル
ールで構成され得る
– 個々のルールは完璧なものではないが、お互いを⼗
分に助け合う
2017.04.21 雑誌会 64
4.3. Searching for optimal ensemble of decision bireducts
• UCI から、3つのデータ(|U|,|A|,|D|)を利⽤した
– Zoo(267,22,2), lymphograpy(101,17,7),
spect(148,18,4)
• 置換σを制御するパラメータratioを使う
– 値が⼤きいと、置換σの順列の中で始めのほうに多く
の属性が現れる
– 中⽴値は|U|/|A|。属性と対象が順列の中で均⼀に⽣
成される
– 実験では0から2|U|/|A|まで変化させる
2017.04.21 雑誌会 65
4.3. Searching for optimal ensemble of decision bireducts
• 図5の左:Decision reduct と decision bireductにある
属性数の⽐較(各パラメータで1000回計算)
– Ratio = 0 はdecision reducts
– Ratioが⼤きいほど属性が置換σの始めに並ばれやす
く、Xが⼩さいときに、属性が減っていく傾向にある
2017.04.21 雑誌会 66
4.3. Searching for optimal ensemble of decision bireducts
• 図5の右:Decision reduct と decision bireductにある
対象数の⽐較(各パラメータで1000回計算)
– Ratio = 0 はdecision reducts
– Ratioが⼤きいほど対象が置換σの後ろに並ばれやす
く、Xに加わる数が減る
2017.04.21 雑誌会 67
• 属性数と対象数の関係をさらに調査するために、2つの
指標を調べた
• 1. Description Length
• 2. 2つのDecision bireductのOverlap Size:
– Overlap sizeが⼩さいなら、より対象集合Uをカバー
している可能性が⾼い
4.3. Searching for optimal ensemble of decision bireducts
2017.04.21 雑誌会 68
4.3. Searching for optimal ensemble of decision bireducts
• 図6の左:Decision reduct と decision bireductにある
Description Lengthの⽐較
– Ratio = 0 はdecision reducts
– データによって傾向が違うが、decision reductより
は⼤きい
2017.04.21 雑誌会 69
4.3. Searching for optimal ensemble of decision bireducts
• 図6の右:Decision reduct と decision bireductにある
Overlap sizeの⽐較
– Ratio = 0 はdecision reducts
– Ratioが⼤きいほど、1つのXは⼩さくなりやすいので
、Overlapは⼩さくなる
2017.04.21 雑誌会 70
• Ratioと分類器のアグリゲーションの影響を調べた
• 1サイクル(1000個のdecision bireductsを⽣成し、ルール
を⽣成。5-fold-cross validationを⾏い評価)を各Ratioごと
に10回⾏った
• テストデータの対象の決定クラスを予測するために、2つの
アグリゲーション法を使⽤
– Majority Voting
– Balanced Support Weighted Voting:Supportの⼤きさ
で重み付け
• 決定クラスがかなり不均衡であるので、分類器を評価するた
めに2つの指標を使⽤
– Mean Accuracy:正しく分類された⽐率
– Balanced Accuracy:各決定クラスの中で正しく分類され
た⽐率の平均値
4.3. Searching for optimal ensemble of decision bireducts
2017.04.21 雑誌会 71
4.3. Searching for optimal ensemble of decision bireducts
• 表21
– Random Forest / Bagging Logistic Regressionと
⽐較
– 機械学習における⼈気のあるアプローチに匹敵する
スコア
2017.04.21 雑誌会 72
• 図7と8:Spectデータのスコアの結果
4.3. Searching for optimal ensemble of decision bireducts
• 図7と8:Zooデータのスコアの結果
2017.04.21 雑誌会 73
05. Conclusions
• Decision bireductの探索⽅法に関する⽅法を提案
• 多様でロバストなルールを⽣成する⽅法を提案
• ある種の条件満たしながらdecision bireductを探索する
ための⽅法を
– Future Workとしては、最適な基準の理論的基礎や
計算の複雑性、実⽤的なヒューリスティックアルゴ
リズムなどが関係する
• 他の種類のbireductの研究を続ける
– Information bireducts:教師なし学習
• 様々なアンサンブルの作り⽅を実験する
• bireductの性質の調査する
• 様々なタイプのデータにも適⽤する

More Related Content

More from LINE Corp.

14.09.12_インターネット測定システムの開発と運用
14.09.12_インターネット測定システムの開発と運用14.09.12_インターネット測定システムの開発と運用
14.09.12_インターネット測定システムの開発と運用LINE Corp.
 
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...LINE Corp.
 
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析LINE Corp.
 
Rによるテキストマイニングの一例
Rによるテキストマイニングの一例Rによるテキストマイニングの一例
Rによるテキストマイニングの一例LINE Corp.
 
Rによる決定木解析の一例
Rによる決定木解析の一例Rによる決定木解析の一例
Rによる決定木解析の一例LINE Corp.
 
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...LINE Corp.
 
13.12.21_大ヒットの方程式数理モデル解説
13.12.21_大ヒットの方程式数理モデル解説13.12.21_大ヒットの方程式数理モデル解説
13.12.21_大ヒットの方程式数理モデル解説LINE Corp.
 
13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会LINE Corp.
 
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...LINE Corp.
 
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_LINE Corp.
 
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析LINE Corp.
 
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...LINE Corp.
 
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...LINE Corp.
 
12.09.12_FSS2012
12.09.12_FSS201212.09.12_FSS2012
12.09.12_FSS2012LINE Corp.
 
12.01.18_論文紹介_An improved accuracy measure for rough sets
12.01.18_論文紹介_An improved accuracy measure for rough sets12.01.18_論文紹介_An improved accuracy measure for rough sets
12.01.18_論文紹介_An improved accuracy measure for rough setsLINE Corp.
 
11.06.10_論文紹介_Rough Set and Bayes Factor
11.06.10_論文紹介_Rough Set and Bayes Factor11.06.10_論文紹介_Rough Set and Bayes Factor
11.06.10_論文紹介_Rough Set and Bayes FactorLINE Corp.
 
11.07.15_論文紹介_The superiority of three way decisions in probabilistic rough s...
11.07.15_論文紹介_The superiority of three way decisions in probabilistic rough s...11.07.15_論文紹介_The superiority of three way decisions in probabilistic rough s...
11.07.15_論文紹介_The superiority of three way decisions in probabilistic rough s...LINE Corp.
 
12.05.11_論文紹介_Mining Pareto-optimal rules with respect to support and confirm...
12.05.11_論文紹介_Mining Pareto-optimal rules with respect to support and confirm...12.05.11_論文紹介_Mining Pareto-optimal rules with respect to support and confirm...
12.05.11_論文紹介_Mining Pareto-optimal rules with respect to support and confirm...LINE Corp.
 
11.11.25_論文紹介_A New Method for Measuring the Uncertainly in Incomplete Inform...
11.11.25_論文紹介_A New Method for Measuring the Uncertainly in Incomplete Inform...11.11.25_論文紹介_A New Method for Measuring the Uncertainly in Incomplete Inform...
11.11.25_論文紹介_A New Method for Measuring the Uncertainly in Incomplete Inform...LINE Corp.
 
11.11.08_GrC2011_Decision Rule Visualization for Knowledge Discovery by Means...
11.11.08_GrC2011_Decision Rule Visualization for Knowledge Discovery by Means...11.11.08_GrC2011_Decision Rule Visualization for Knowledge Discovery by Means...
11.11.08_GrC2011_Decision Rule Visualization for Knowledge Discovery by Means...LINE Corp.
 

More from LINE Corp. (20)

14.09.12_インターネット測定システムの開発と運用
14.09.12_インターネット測定システムの開発と運用14.09.12_インターネット測定システムの開発と運用
14.09.12_インターネット測定システムの開発と運用
 
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
 
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
 
Rによるテキストマイニングの一例
Rによるテキストマイニングの一例Rによるテキストマイニングの一例
Rによるテキストマイニングの一例
 
Rによる決定木解析の一例
Rによる決定木解析の一例Rによる決定木解析の一例
Rによる決定木解析の一例
 
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
 
13.12.21_大ヒットの方程式数理モデル解説
13.12.21_大ヒットの方程式数理モデル解説13.12.21_大ヒットの方程式数理モデル解説
13.12.21_大ヒットの方程式数理モデル解説
 
13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会13.12.07 CIKM2013読み会
13.12.07 CIKM2013読み会
 
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
 
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
 
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
 
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
 
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
 
12.09.12_FSS2012
12.09.12_FSS201212.09.12_FSS2012
12.09.12_FSS2012
 
12.01.18_論文紹介_An improved accuracy measure for rough sets
12.01.18_論文紹介_An improved accuracy measure for rough sets12.01.18_論文紹介_An improved accuracy measure for rough sets
12.01.18_論文紹介_An improved accuracy measure for rough sets
 
11.06.10_論文紹介_Rough Set and Bayes Factor
11.06.10_論文紹介_Rough Set and Bayes Factor11.06.10_論文紹介_Rough Set and Bayes Factor
11.06.10_論文紹介_Rough Set and Bayes Factor
 
11.07.15_論文紹介_The superiority of three way decisions in probabilistic rough s...
11.07.15_論文紹介_The superiority of three way decisions in probabilistic rough s...11.07.15_論文紹介_The superiority of three way decisions in probabilistic rough s...
11.07.15_論文紹介_The superiority of three way decisions in probabilistic rough s...
 
12.05.11_論文紹介_Mining Pareto-optimal rules with respect to support and confirm...
12.05.11_論文紹介_Mining Pareto-optimal rules with respect to support and confirm...12.05.11_論文紹介_Mining Pareto-optimal rules with respect to support and confirm...
12.05.11_論文紹介_Mining Pareto-optimal rules with respect to support and confirm...
 
11.11.25_論文紹介_A New Method for Measuring the Uncertainly in Incomplete Inform...
11.11.25_論文紹介_A New Method for Measuring the Uncertainly in Incomplete Inform...11.11.25_論文紹介_A New Method for Measuring the Uncertainly in Incomplete Inform...
11.11.25_論文紹介_A New Method for Measuring the Uncertainly in Incomplete Inform...
 
11.11.08_GrC2011_Decision Rule Visualization for Knowledge Discovery by Means...
11.11.08_GrC2011_Decision Rule Visualization for Knowledge Discovery by Means...11.11.08_GrC2011_Decision Rule Visualization for Knowledge Discovery by Means...
11.11.08_GrC2011_Decision Rule Visualization for Knowledge Discovery by Means...
 

17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

  • 1. Decision bireducts and decision reducts – a comparison Sebastian Stawicki, Dominik Slezak, Andrzej Janusza, Sebastian Widz International Journal of Approximate Reasoning 84, 75-109, 2017 紹介者:Motoyuki Oki 2017.04.21 雑誌会
  • 2. 2017.04.21 雑誌会 2 00. 概要 • この論⽂では、私たちはdecision bireductの概念を改訂する • この概念について私たちは新しい解釈を⽰し、いくつかの重要で実⽤的な事実を証明する • 私たちはいくつかのdecision bireductの計算のためによく知られたアルゴリズムを改良⽅ 法を説明する • 私たちの研究の完全性を達成するために、私たちはdecision bireductsとapproximate decision reducts間の関係を調査する • それら2つのアプローチの異なる定式化を⽐較し、それらの間の類似点を指摘する • 私たちはデータから最適なdecision bireductsとapproximate decision reductsを検索す るのがNP困難に関わる新しい結果を報告する • 最後に、私たちは分類モデルとしての効率的な単純なアンサンブルを構築し、decision bireductの有⽤性を説明する実験の新しい結果を⽰す 読んだ動機 ・Slezakが2010年ごろから研究しているbireduct研究の総まとめ 論⽂のようなので興味 ・bireductに基づくルール抽出とその効果を確認
  • 3. 2017.04.21 雑誌会 3 00. ⽬次 • 01. Introduction • 02. Basics off decision reducts and decision bireducts • 03. Heuristic search for decision bireducts • 04. Decision bireducts and approximate decision reducts • 05. Conclusions
  • 4. 2017.04.21 雑誌会 4 01. Introduction • ラフ集合理論の基礎的な概念の1つとして発展した Decision Reductsが知識発⾒や属性選択においてたくさ んのアプリケーションがある • Decision Reductsのさまざまな拡張の中に、ノイズがあ りサイズが⼤きいデータを扱うために、approximate decision reductsがある – ある閾値を満たす決定情報を保存し、それ以上削減 できない属性の部分集合である • 初期のdecision reductsより正確性が適度に低い属性の 部分集合であり、実世界の応⽤では、ロバストでかつ少 ない属性を保持するため好まれている
  • 5. 2017.04.21 雑誌会 5 01. Introduction • 過去の研究[9](Slezak+,2011)では、異なる approximate decision reductsに基づいた分類器のア ンサンブル分類器が、同じ対象を誤分類してしまうとい うことが議論された – 理由として、上記の関数が全体的なデータのサマリ によって属性の部分集合を評価するため、特定の対 象で誤分類が起こってしまう • この問題に取り組むために、BoostingやBaggingのよう な結合⽅法について考えられている
  • 6. 2017.04.21 雑誌会 6 01. Introduction • Decision bireductsがdecision reductの新しい拡張とし て提案された – 属性の部分集合と対象の部分集合のペア – つまり,属性の部分集合により正しい分類を保証す る対象でペアは構成されている • その概念は冗⻑でない属性の部分集合と対象の部分集合 によって定義される
  • 7. 2017.04.21 雑誌会 7 • はじめにstandard/approximate decision reductとの⽐較し 、decision bireductを説明する • データから最も興味深いbireductsを抽出するための問題に対 するアルゴリズムの基礎を構築するためのいくつかの新しい 解釈を説明する • 新しいデータを分類するときにロバストなままである可能性 の⾼い決定ルールの集合を作ることを考える • この論⽂では古典的なラフ集合理論のみを考える – すべての属性はカテゴリカル – この研究を⼀般化することは容易に考えられる • 提⽰する理論的な事柄のほとんどが1つのdecision bireduct の特性に焦点をあてる • Decision bireductのアンサンブルを構築するいくつかのアイ デアを議論し、これまで公開していなかった実験結果を⽰す 01. Introduction
  • 8. 2017.04.21 雑誌会 8 2.1. Decision reducts 定義1:決定表 U:対象の集合 A:条件属性の集合 d:決定属性 Va:属性aの値集合 a :関数 U → Va 定義2:対象の識別 B:条件属性の集合Aの部分集合 |U|:Uの基数 というようなa∈Bが存在する ⇔ 対象ui, ujはBによって識別されるという
  • 9. 2017.04.21 雑誌会 9 2.1. Decision reducts 定義3:識別不能関係 上記のケースのとき、属性集合Bによりuiとujが識別不能 であるという :IND(B)による対象Uの分割 IND(B)により決定される同値クラス :IND(B)に含まれる対象uと識別不能な対象の集合 同値類 (略記: ) (略記: )
  • 10. 2017.04.21 雑誌会 10 2.1. Decision Reducts 定義4:consistent ・属性集合Aが のようなすべての対象を識別する ・属性集合Aによって識別不能な対象ui, ujは同じ決定属性 値を持つ is consistent ⇔ Decision Rules 定義5:Decision Reduct ⇔
  • 11. 2017.04.21 雑誌会 11 2.1. Decision Reducts 決定属性 ⇒ 2つのdecision reductsがある {O,T,W} and {O, H, W} 表1:データの例
  • 12. 2017.04.21 雑誌会 12 2.1. Decision Reducts ⇒ 2つのdecision reductsから決定ルールが⽣成される 表2:抽出された決定ルール群
  • 13. 2017.04.21 雑誌会 13 2.1. Decision Reducts 定義6:Positive Region(正領域) 属性集合Bにより、唯⼀に決定クラスが分類され得るすべての対象で 構成される。 Bによる同値クラスを使って、以下のように書き換えることができる 結論と属性間の依存性の程度を表現するための関数として次のγが使 われる。UのうちBによる分割で⽭盾のない対象がどの程度あるかを測 る
  • 14. 2017.04.21 雑誌会 14 2.1. Decision Reducts 定義7:γ-decision reduct ⇔ を満たすこれ以上減少できない属性部分集合 ⇔ POS(B) = POS(A)をみたす 特別な決定属性値 ʻ#ʼ を識別不能な対象の決定属性値とす る。 とB⊂Aで に修正された 決定表を作る。 γ-decision reductを得る⽅法:元の決定表を修正した⽭盾 のない決定表を作り、decision reductを求める
  • 15. 2017.04.21 雑誌会 15 2.1. Decision Reducts 表3:B={O,T,H}の場合の修正された決定表 元の決定属性 例: 4と14 or 5と6は元の決定属性が異なるので、#となる
  • 16. 2017.04.21 雑誌会 16 2.1. Decision Reducts 表4:γ-decision reductsから⽣成されたルール群 γ-decision reductは修正された決定表のすべての属性で構 成される
  • 17. 2017.04.21 雑誌会 17 2.2. Decision bireducts 定義8:Decision bireducts decision bireduct ⇔ ⇒ 2. Bの部分集合がないこと ⇒ 3. Xの上位集合がないこと d(ui)≠d(uj)であるすべてのペアui, ujをBが識別する
  • 18. 2017.04.21 雑誌会 18 2.2. Decision bireducts Proposition 1:2つの単調性の性質 Proposition 2:decision reductとの関係 証明 ・Bがdecision reduct ⇒ BによりUのすべてのペアを識別 できるので、(U,B)はdecision bireduct ・(U,B)がdecision bireduct ⇒ であり、 となる がないため、Bはdecision reduct
  • 19. 2017.04.21 雑誌会 19 2.2. Decision bireducts Decision reductの⽤語を使って、decision bireductsは表 現される Proposition 3 ⇔ decision bireductを探索するときに、Proposition 3は decision reductを探索するために発達したアルゴリズムを 適⽤するのに役⽴つ
  • 20. 2017.04.21 雑誌会 20 2.2. Decision bireducts Proposition 4:decision bireductの性質 1. Bによる分割で、 X∩Eにあるすべての対象は同じ決定 属性値を取る 2. Bによる分割で、Eにあるすべての対象はXに含まれる 3. Xは決定ルールの集合のサポートの和集合と等しい
  • 21. 2017.04.21 雑誌会 21 2.2. Decision bireducts • 定理4はdecision bireductがどのように決定ルールを⽣ 成するかを⽰している • ⾔いかければ、decision bireductが決定ルールの集合に よって表現される 表5:decision bireductから⽣成された決定ルール集合
  • 22. 2017.04.21 雑誌会 22 2.3. γ-Decision bireducts 定義9:γ-Decision bireducts Decision bireductの定義8を修正することでγ-Decision bireductが考えられる (X, B) がγ-decision bireduct ⇔ Decision bireductとの違いは、γ-decision bireductに所属する対象は Xだけでなく、Uの対象とも識別されることが必要である点
  • 23. 2017.04.21 雑誌会 23 2.3. γ-Decision bireducts Proposition 5:2つの単調性の性質 Proposition 6:decision reductとの関係 γ-decision bireductの特徴 - Uにアクセスする必要があるので、ストリームデータ上で、γ- decision bireductを計算することはできない - 正領域との類似性:対象uがPOS(B)に所属するときに限り、その対 象uはXに加えられる
  • 24. 2017.04.21 雑誌会 24 2.3. γ-Decision bireducts Proposition 7:γ-decision bireductの性質 Proposition 7から、 ・γ-decision bireductを探索する問題は、修正された決定 表 でのdeicision reductの探索する問題に置 き換えれる ・γ-decision bireductはγ-decision reductの場合と同様 に、決定ルールとして解釈できる:
  • 25. 2017.04.21 雑誌会 25 2.3. γ-Decision bireducts 表6:表1のデータにおけるdecision bireducts と γ-decision bireducts(B = {O,H}) 表7:B={O,H}のγ-decision bireductから⽣成されるルール集合 Decision-bireductは属性集合Bで、異なる対象の部分集合で構成され る。Decision-bireductのほうがXは⼤きい
  • 26. 2017.04.21 雑誌会 26 3.1. Boolean representation • Decision-bireductsを探索するためのたくさんの⽅法が 考えられる • まず、ブーリアン⽅式で決定表の識別可能性を表現する • Decision-bireductsもこれの類推で表現される Proposition 8:decision bireductのブーリアン⽅式 命題変数 ⇔
  • 27. 2017.04.21 雑誌会 27 3.1. Boolean representation Proposition 8の証明 P is an implicant of τ ⇔PがいつもTrueであるという事実はいつもτ もTrueであると評価される。 を考え、最初に を証明する。 (⇒) Pがτ_{bi}のimplicantじゃないなら、PがTrueのときにτ_{bi}が Falseがある。 がFalseになる節があるはず。 fはdisjunctionなので、すべての要素がFalseであるのがあるはず。 PがTrueでiとjはFalseであるので、それはiかjのどちらもPの⼀部では ない。PはU\Xの対象に対応する変数を含む。ui, uj ∈ Xとなる。Pはi とjが異なる結論部になる変数aを含まない。a∉Bとなる。これはuiと ujがBで識別されないということ。それゆえ は保たれないので ⽭盾。 (順次やればできるはずなので省略…)
  • 28. 2017.04.21 雑誌会 28 3.1. Boolean representation • Proposition 8はdecision reductの数よりもdecision bireductの数がかなり多いことを⽰す • decision bireductsのすべての集合 は CNF(連⾔標準 形)とDNF(選⾔標準形)で表現される 表8:表1のすべてのdecision bireductを表すCNFとDNF
  • 29. 2017.04.21 雑誌会 29 3.1. Boolean representation • Proposition 8はdecision bireductを作るためには、属 性と対象が等しく重要であることを⽰しており、それは 以下の定理を引き起こす Proposition 9 新しい決定表: 新しい属性集合: ⇔
  • 30. 2017.04.21 雑誌会 30 3.1. Boolean representation 表9:Proposition 9 の決定表の例 これは、⼤きなデータでは明⽰的に実体化するのはできないので、より効率 的なアルゴリズムの発展の始まりとして扱われる
  • 31. 2017.04.21 雑誌会 31 3.1. Boolean representation • γ-decision bireductで、Proposition 9に類似した表現 を考える • まずProposition 8への類似したブーリアン表現を持つ – それはdecision bireductよりも制限がある – 2つの対象を識別する属性がないなら、それらの対象 がγ-decision bireductに含まれない Proposition 10:γ-decision bireductのブーリアン⽅式 命題変数 ⇔
  • 32. 2017.04.21 雑誌会 32 3.1. Boolean representation • γ-Decision bireduct も CNF(連⾔標準形)とDNF(選 ⾔標準形)で表現される 表10:表1のすべてのγ-decision bireductを表すCNFと DNF • decision bireductよりもCNFは⻑く、DNFは短い(=γ- decision bireductが⼩さい) • ⻑さの⽐較により、よりdecision bireductより制限があ ることを⽰している
  • 33. 2017.04.21 雑誌会 33 3.2. Ordering algorithms • Decision bireductを探索するための⽅法を考える • 縮約探索のためにラフ集合で発達した古典的なアルゴリ ズムの拡張で、decision-bireductを取り出す(Alg.1) σ:置換(順列) :対象uを追加してもBで識別できるなら :aを削除したBで識別できるなら :初期化
  • 34. 2017.04.21 雑誌会 34 3.2. Ordering algorithms Proposition 11:Alg.1のアウトプットはdecision- bireductである。さらに、Alg.1のアウトプットが (X,B)に なる置換σが存在する 証明(1) 置換σを与える。最初はX0={},B0=A。Loop処理で、 属性が削除されるか対象が追加されるかが⾏われるが、常 に条件が満たされるかをチェックするため は最後まで保たれる。最後のペア( )が満たしてい るかをチェックするために が冗⻑じゃなく も 減らないことを⽰す。定義8の条件2と3を使って⽭盾によ ってこれを証明する(省略)
  • 35. 2017.04.21 雑誌会 35 証明(2) (X,B)となる置換σがあることを⽰すために、次を考える (a)は最初のステップでX0=∅なので、属性が選ばれて とな る。次の(b)で、|X|ステップのあと、 となる 次の(c)では、残りのBを減らすことができないので、変化なし 最後の(D)では、追加すると識別できなくなるので、追加されない。 結果(X,B)となる置換を作ることができる□ 3.2. Ordering algorithms
  • 36. 2017.04.21 雑誌会 36 • ある事前に指定した条件のdecision-bireductを⼿に⼊ れるために置換σを制御するのは難しい – 例:|X|, |B|, |X|と|B|の⽐率 • 部分的に置換を⽣成する⽅法をモデル化が必要 • 例えば、対象より属性を選択する可能性を制御するパラ メータを考える • 置換σが始めにたくさんの属性を含んでいるなら、少な い属性でかつカバーされない対象がたくさんある decision-bireductを⼿に⼊れやすい • このような可能性はRatioを呼ばれ、後にこのパラメー タの違いがBとXのサイズにどのように影響するかが説 明される 3.2. Ordering algorithms
  • 37. 2017.04.21 雑誌会 37 • γ-decision bireductの場合もほぼ同じアルゴリズム (Alg.2)で探索できる 3.2. Ordering algorithms
  • 38. 2017.04.21 雑誌会 38 3.2. Ordering algorithms Proposition 12:Alg.2のアウトプットはγ-decision- bireductである。さらに、Alg.2のアウトプットが (X,B)に なる置換σが存在する 証明 Proposition 11と同様である
  • 39. 2017.04.21 雑誌会 39 3.2. Ordering algorithms 表11:Alg.1の結果の例 表12:Alg.2の結果の例
  • 40. 2017.04.21 雑誌会 40 3.2. Ordering algorithms 図1:decision-bireductの計算過程の例 図2:γ-decision-bireductの計算過程の例
  • 41. 2017.04.21 雑誌会 41 • サンプリングアプローチとされるもう1つの⽅法を説明 する(Alg.3) • ⾼次元データでのbireductの計算を速くすることが狙い 3.3. Sampling algorithms :対象u_{*}を含んでいる決定クラス u_{*}を含む決定クラスとEの共通集合を追加する 3⾏⽬で⼿に⼊れられる縮⼩された決定表により、コンパ クトなif-thenルールになる
  • 42. 2017.04.21 雑誌会 42 Proposition 13:Alg.3のアウトプットはdecision- bireductである。さらに、それぞれのdecision-bireductが Alg.3の結果として⼿に⼊れることができる 3.3. Sampling algorithms 証明(2) あるdecision bireduct(X,B)を考える。A*=Bとおく。U*は Xの代表的な対象を取って構成するとする。 (X,B)がdecision bireductなので、XはBによる識別不能ク ラスの少なくとも1つの対象を持つ必要がある。U*は正確に それを持つ。アルゴリズムのステップで、reduct Bを⼿に ⼊れる。そのBはXにとって単純化できないので、U*にとっ ても単純化できない。よって、Bは唯⼀のreductとなる
  • 43. 2017.04.21 雑誌会 43 • Alg.3の計算例を表13,14で説明する 3.3. Sampling algorithms 表13. の決定表の識別不能クラス 表14. U_{*}の集合 からdecision reduct {T,H}で以下 のbireductが⼿に⼊れられる
  • 44. 2017.04.21 雑誌会 44 • 適切なサンプリングメカニズムと組み合わせることで、 多様な対象や属性に基づくdecision bireductのアンサン ブルを導きうる • Alg.3の⽅法は特定の置換σを使って、Alg.1のフレーム ワークでモデル化もできる – はじめにいくつかの属性 – 真ん中にすべての対象の並び – 最後に残りの属性 • この類推は、期待した属性や対象のサイズのbireductを 探索するためのパラメータを定義するのに役⽴つ 3.3. Sampling algorithms
  • 45. 2017.04.21 雑誌会 45 • そのようなパラメータは の期待値に対応する • Alg.3の4⾏⽬で⼩さい属性集合が引かれたら、識別不能 クラスは⼩さくなり、結果⼩さいXのbireductが⼿に⼊ る • 逆に、⼤きい属性集合が引かれたら、対応する識別不能 クラスは1つの対象で構成されやすくなり、bireductの Bは古典的なdecision reductに対応しやすくなる 3.3. Sampling algorithms
  • 46. 2017.04.21 雑誌会 46 3.3. Sampling algorithms • γ-decision bireductの場合もほぼ同じアルゴリズム (Alg.4)で探索できる Proposition 14:Alg.4のアウトプットはγ-decision- bireductである。さらに、それぞれのγ-decision-bireduct がAlg.4の結果として⼿に⼊れることができる
  • 47. 2017.04.21 雑誌会 47 3.3. Sampling algorithms • Alg.4の計算例を表16,17で説明する 表16. の決定表の識別不能クラス 表17. U_{*}の集合 からdecision reduct {T,H}で以下 のbireductが⼿に⼊れられる
  • 48. 2017.04.21 雑誌会 48 • 表18:Alg.3とAlg.4のいくつかの計算結果 3.3. Sampling algorithms
  • 49. 2017.04.21 雑誌会 49 • このアプローチのメインの利点が前節のアルゴリズム Alg.1,2とくらべて計算効率性である • このアプローチの最悪ケースでは – T:reductの計算アルゴリズムの複雑性 – A_{*}が⼩さいなら、最悪ケースよりもかなり⼩さ くなる(= ) 3.3. Sampling algorithms
  • 50. 2017.04.21 雑誌会 50 4.1. Examples of approximate decision reduct formulations • Approximate decision reduct を計算するための基準は 閾値と属性の部分集合により抽出される情報の程度を評 価する関数の値に基づく • F-decision ε-reductに焦点をあてる – :情報の程度を評価する関数 – ε:どの程度の情報が落ちるのを許すかの閾値 定義10:Relative F-decision ε-reduct :Aのべき集合 :単調⾮減少関数 はa relative F-decision ε-superreductである⇔ はa relative F-decision ε-reductである⇔ and この不等式を満たすBの部分集合がない
  • 51. 2017.04.21 雑誌会 51 はa F-decision ε-superreductである⇔ • 部分集合Bを直接評価する別の定義を定める 4.1. Examples of approximate decision reduct formulations 定義11:F-decision ε-reduct はa F-decision ε-reductである⇔ and この不等式を満たすBの部分集合がない • Fのいくつかの例を考える • その1つがγ:
  • 52. 2017.04.21 雑誌会 52 4.1. Examples of approximate decision reduct formulations 定義12:Majority function 特定の識別不能クラスと各決定クラスとの共通集合の頻度の最⼤値の 平均。Bの正確性をモデル化 定義13:Relative gain function 各決定クラスでの特定の識別不能クラスと各決定クラスとの共通集合 の頻度の最⼤値の平均
  • 53. 2017.04.21 雑誌会 53 4.1. Examples of approximate decision reduct formulations • ⽭盾のない決定表では、 • F-decision ε-reductsのεの値は、分類器の正確性を制 御する閾値 • εを⾼くすると、⼩さい属性集合BもF-decision ε- reductsに含まれ、⽣成される決定ルールも短くなる • εを低くすると、より⼤きな属性集合BがF-decision ε- reductsに含まれやすくなり、⽣成される決定ルールも 複雑になりやすい
  • 54. 2017.04.21 雑誌会 54 • F-decision ε-reductsの探索に関わる計算複雑性を考え る • 多項式還元を使って、最⼩のreductを⾒つける問題が NP困難であることを証明する 4.1. Examples of approximate decision reduct formulations Proposition 15 最⼩のrelative γ-decision ε-reductを⾒つけるのはNP困 難である 証明 グラフG(V,E)の⽀配集合問題に置き換えてNP困難問題であることを証 明する ・⽀配集合問題:頂点の部分集合Dのうち、Dに属さない全ての頂点に 対して少なくとも1つのDに属する頂点が隣接するとき⽀配集合と⾔い 、⼤きさ最⼩の⽀配集合を⾒つける問題のこと
  • 55. 2017.04.21 雑誌会 55 4.1. Examples of approximate decision reduct formulations Proposition 16 最⼩のγ-decision ε-reductを⾒つけるのはNP困難である Proposition 17 最⼩のrelative M-decision ε-reductを⾒つけるのはNP困 難である Proposition 18 最⼩のM-decision ε-reductを⾒つけるのはNP困難である Proposition 19 最⼩のrelative R-decision ε-reductを⾒つけるのはNP困 難である Proposition 20 最⼩のR-decision ε-reductを⾒つけるのはNP困難である
  • 56. 2017.04.21 雑誌会 56 • 最も良いdecision bireductとは? – 暗黙の仮定として、⽣成過程では対象と属性の数が最⼩化 されるように⽣成される – 属性の数の最⼩化とカバーされない対象の数最⼩なのが直 感的に良いと理解される • 不均衡なデータ(ある決定クラスが極端に少ないなど)では 対象の基数に基づく⽅法では不⼗分 – マイノリティな決定クラスに所属する対象にもっと注意を 払うべき • 我々は属性と対象の数のバランスに関して、かなりたくさん の最適な基準を考えることができる • 過去の研究では、decision bireductを評価するために、次の 関数を最⼩化した 4.2. Searching for optimal decision bireducts
  • 57. 2017.04.21 雑誌会 57 • 別の評価の観点は、decision bireductのアンサンブルを 考えるとき、すべてのUをカバーできるようにdecision bireduct同⼠が助けあうように⽣成することが考えられ る – このアプローチは次の節で説明する • 我々はdecision bireductがたくさんのカバーされない対 象を⽣成しないようないくつかの制約保証を定式化する 4.2. Searching for optimal decision bireducts 定義14:decision ε-bireduct ⇔ 定義15:γ-decision ε-bireduct ⇔
  • 58. 2017.04.21 雑誌会 58 • 我々はdecision ε-bireductを探索する複雑性を調査する ⽅法は、approximate decision reductsの共通の何か があると考える • γ-decision ε-bireductについての下記のNP困難問題 4.2. Searching for optimal decision bireducts Proposition 21 1. 2. 属性数最⼩のγ-decision ε-bireductを⾒つけるのはNP 困難である ⇔
  • 59. 2017.04.21 雑誌会 59 4.2. Searching for optimal decision bireducts Proposition 23 最⼩の属性数のDecision ε-bireductを⾒つけるのはNP困 難である Proposition 22 ⇔ (X,B)がdeicion ε-bireductであり、Bの基数より⼩さい 属性のdecision ε-bireductがない • 我々はdecision ε-bireductとM decision ε-bireductの 関係を研究し、同様にNP困難問題であることを証明
  • 60. 2017.04.21 雑誌会 60 • 表1に基づく例を考える 4.2. Searching for optimal decision bireducts Yesが9個、Noが5個 ε≧5/14だと、M-decision ε- reductは空集合となり、デフォ ルトルール(Yesというルール) のみが⽣成される ε=4/14より⼩さいと、M-decision ε-reductは複数の集合となり、 興味深い結果となる⇒表19へ
  • 61. 2017.04.21 雑誌会 61 4.2. Searching for optimal decision bireducts decision ε-bireductのほ うが数が多い アンサンブルを構築する 際に、⼩さい属性の数の ほうがシンプルで⼀般的 なルールとなり得る 表19:M decision ε-reductとdecision ε-bireductの⽐較
  • 62. 2017.04.21 雑誌会 62 • データのそれぞれの対象が少なくとも2つによってカバーされるよ うな3つのdecision bireductsでアンサンブルを構成するのを考え ると、M-decision ε-reductで構成するのは不可能 • decision ε-bireductなら637通り作れる • ルールのシンプルさが未知データにも良い分類精度を提供するだろ う • 3つのうち2つがいつも正しいなら、シンプルな投票により精度の妥 当性が保証される 4.2. Searching for optimal decision bireducts 表20:decision ε-bireductによるアンサンブルの構成例
  • 63. 2017.04.21 雑誌会 63 4.3. Searching for optimal ensemble of decision bireducts • Decision bireductsの最も有望なアプリケーションの1 つがアンサンブル分類器の構築である – できるだけ様々な属性を含むreductの分類器のアン サンブルを考えたい • Decision bireductでは、データの異なる部分を使う分 類器のアンサンブルを構築でき、訓練データを均⼀にカ バーする • さらに、decision bireductのアンサンブルはより短いル ールで構成され得る – 個々のルールは完璧なものではないが、お互いを⼗ 分に助け合う
  • 64. 2017.04.21 雑誌会 64 4.3. Searching for optimal ensemble of decision bireducts • UCI から、3つのデータ(|U|,|A|,|D|)を利⽤した – Zoo(267,22,2), lymphograpy(101,17,7), spect(148,18,4) • 置換σを制御するパラメータratioを使う – 値が⼤きいと、置換σの順列の中で始めのほうに多く の属性が現れる – 中⽴値は|U|/|A|。属性と対象が順列の中で均⼀に⽣ 成される – 実験では0から2|U|/|A|まで変化させる
  • 65. 2017.04.21 雑誌会 65 4.3. Searching for optimal ensemble of decision bireducts • 図5の左:Decision reduct と decision bireductにある 属性数の⽐較(各パラメータで1000回計算) – Ratio = 0 はdecision reducts – Ratioが⼤きいほど属性が置換σの始めに並ばれやす く、Xが⼩さいときに、属性が減っていく傾向にある
  • 66. 2017.04.21 雑誌会 66 4.3. Searching for optimal ensemble of decision bireducts • 図5の右:Decision reduct と decision bireductにある 対象数の⽐較(各パラメータで1000回計算) – Ratio = 0 はdecision reducts – Ratioが⼤きいほど対象が置換σの後ろに並ばれやす く、Xに加わる数が減る
  • 67. 2017.04.21 雑誌会 67 • 属性数と対象数の関係をさらに調査するために、2つの 指標を調べた • 1. Description Length • 2. 2つのDecision bireductのOverlap Size: – Overlap sizeが⼩さいなら、より対象集合Uをカバー している可能性が⾼い 4.3. Searching for optimal ensemble of decision bireducts
  • 68. 2017.04.21 雑誌会 68 4.3. Searching for optimal ensemble of decision bireducts • 図6の左:Decision reduct と decision bireductにある Description Lengthの⽐較 – Ratio = 0 はdecision reducts – データによって傾向が違うが、decision reductより は⼤きい
  • 69. 2017.04.21 雑誌会 69 4.3. Searching for optimal ensemble of decision bireducts • 図6の右:Decision reduct と decision bireductにある Overlap sizeの⽐較 – Ratio = 0 はdecision reducts – Ratioが⼤きいほど、1つのXは⼩さくなりやすいので 、Overlapは⼩さくなる
  • 70. 2017.04.21 雑誌会 70 • Ratioと分類器のアグリゲーションの影響を調べた • 1サイクル(1000個のdecision bireductsを⽣成し、ルール を⽣成。5-fold-cross validationを⾏い評価)を各Ratioごと に10回⾏った • テストデータの対象の決定クラスを予測するために、2つの アグリゲーション法を使⽤ – Majority Voting – Balanced Support Weighted Voting:Supportの⼤きさ で重み付け • 決定クラスがかなり不均衡であるので、分類器を評価するた めに2つの指標を使⽤ – Mean Accuracy:正しく分類された⽐率 – Balanced Accuracy:各決定クラスの中で正しく分類され た⽐率の平均値 4.3. Searching for optimal ensemble of decision bireducts
  • 71. 2017.04.21 雑誌会 71 4.3. Searching for optimal ensemble of decision bireducts • 表21 – Random Forest / Bagging Logistic Regressionと ⽐較 – 機械学習における⼈気のあるアプローチに匹敵する スコア
  • 72. 2017.04.21 雑誌会 72 • 図7と8:Spectデータのスコアの結果 4.3. Searching for optimal ensemble of decision bireducts • 図7と8:Zooデータのスコアの結果
  • 73. 2017.04.21 雑誌会 73 05. Conclusions • Decision bireductの探索⽅法に関する⽅法を提案 • 多様でロバストなルールを⽣成する⽅法を提案 • ある種の条件満たしながらdecision bireductを探索する ための⽅法を – Future Workとしては、最適な基準の理論的基礎や 計算の複雑性、実⽤的なヒューリスティックアルゴ リズムなどが関係する • 他の種類のbireductの研究を続ける – Information bireducts:教師なし学習 • 様々なアンサンブルの作り⽅を実験する • bireductの性質の調査する • 様々なタイプのデータにも適⽤する