17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

Decision bireducts and decision
reducts – a comparison
Sebastian Stawicki, Dominik Slezak, Andrzej Janusza, Sebastian
Widz
International Journal of Approximate Reasoning 84, 75-109,
2017
紹介者：Motoyuki Oki
2017.04.21 雑誌会

2017.04.21 雑誌会 2
00. 概要
• この論⽂では、私たちはdecision bireductの概念を改訂する
• この概念について私たちは新しい解釈を⽰し、いくつかの重要で実⽤的な事実を証明する
• 私たちはいくつかのdecision bireductの計算のためによく知られたアルゴリズムを改良⽅
法を説明する
• 私たちの研究の完全性を達成するために、私たちはdecision bireductsとapproximate
decision reducts間の関係を調査する
• それら2つのアプローチの異なる定式化を⽐較し、それらの間の類似点を指摘する
• 私たちはデータから最適なdecision bireductsとapproximate decision reductsを検索す
るのがNP困難に関わる新しい結果を報告する
• 最後に、私たちは分類モデルとしての効率的な単純なアンサンブルを構築し、decision
bireductの有⽤性を説明する実験の新しい結果を⽰す
読んだ動機
・Slezakが2010年ごろから研究しているbireduct研究の総まとめ
論⽂のようなので興味
・bireductに基づくルール抽出とその効果を確認

2017.04.21 雑誌会 3
00. ⽬次
• 01. Introduction
• 02. Basics off decision reducts and decision
bireducts
• 03. Heuristic search for decision bireducts
• 04. Decision bireducts and approximate decision
reducts
• 05. Conclusions

2017.04.21 雑誌会 4
01. Introduction
• ラフ集合理論の基礎的な概念の1つとして発展した
Decision Reductsが知識発⾒や属性選択においてたくさ
んのアプリケーションがある
• Decision Reductsのさまざまな拡張の中に、ノイズがあ
りサイズが⼤きいデータを扱うために、approximate
decision reductsがある
– ある閾値を満たす決定情報を保存し、それ以上削減
できない属性の部分集合である
• 初期のdecision reductsより正確性が適度に低い属性の
部分集合であり、実世界の応⽤では、ロバストでかつ少
ない属性を保持するため好まれている

2017.04.21 雑誌会 5
01. Introduction
• 過去の研究[9](Slezak+,2011)では、異なる
approximate decision reductsに基づいた分類器のア
ンサンブル分類器が、同じ対象を誤分類してしまうとい
うことが議論された
– 理由として、上記の関数が全体的なデータのサマリ
によって属性の部分集合を評価するため、特定の対
象で誤分類が起こってしまう
• この問題に取り組むために、BoostingやBaggingのよう
な結合⽅法について考えられている

2017.04.21 雑誌会 6
01. Introduction
• Decision bireductsがdecision reductの新しい拡張とし
て提案された
– 属性の部分集合と対象の部分集合のペア
– つまり，属性の部分集合により正しい分類を保証す
る対象でペアは構成されている
• その概念は冗⻑でない属性の部分集合と対象の部分集合
によって定義される

2017.04.21 雑誌会 7
• はじめにstandard/approximate decision reductとの⽐較し
、decision bireductを説明する
• データから最も興味深いbireductsを抽出するための問題に対
するアルゴリズムの基礎を構築するためのいくつかの新しい
解釈を説明する
• 新しいデータを分類するときにロバストなままである可能性
の⾼い決定ルールの集合を作ることを考える
• この論⽂では古典的なラフ集合理論のみを考える
– すべての属性はカテゴリカル
– この研究を⼀般化することは容易に考えられる
• 提⽰する理論的な事柄のほとんどが1つのdecision bireduct
の特性に焦点をあてる
• Decision bireductのアンサンブルを構築するいくつかのアイ
デアを議論し、これまで公開していなかった実験結果を⽰す
01. Introduction

2017.04.21 雑誌会 8
2.1. Decision reducts
定義１：決定表
U：対象の集合
A：条件属性の集合
d：決定属性
Va：属性aの値集合
a ：関数 U → Va
定義2：対象の識別
B：条件属性の集合Aの部分集合
|U|：Uの基数
というようなa∈Bが存在する
⇔ 対象ui, ujはBによって識別されるという

2017.04.21 雑誌会 9
2.1. Decision reducts
定義３：識別不能関係
上記のケースのとき、属性集合Bによりuiとujが識別不能
であるという
：IND(B)による対象Uの分割
IND(B)により決定される同値クラス
：IND(B)に含まれる対象uと識別不能な対象の集合
同値類
（略記： )
（略記： )

2017.04.21 雑誌会 10
2.1. Decision Reducts
定義4：consistent
・属性集合Aがのようなすべての対象を識別する
・属性集合Aによって識別不能な対象ui, ujは同じ決定属性
値を持つ
is consistent ⇔
Decision Rules
定義5：Decision Reduct
⇔

2017.04.21 雑誌会 11
決定属性
⇒ 2つのdecision reductsがある
{O,T,W} and {O, H, W}
表１：データの例

2017.04.21 雑誌会 12
⇒ 2つのdecision reductsから決定ルールが⽣成される
表２：抽出された決定ルール群

2017.04.21 雑誌会 13
定義6：Positive Region（正領域）
属性集合Bにより、唯⼀に決定クラスが分類され得るすべての対象で
構成される。
Bによる同値クラスを使って、以下のように書き換えることができる
結論と属性間の依存性の程度を表現するための関数として次のγが使
われる。UのうちBによる分割で⽭盾のない対象がどの程度あるかを測
る

2017.04.21 雑誌会 14
定義7：γ-decision reduct
⇔ を満たすこれ以上減少できない属性部分集合
⇔ POS(B) = POS(A)をみたす
特別な決定属性値 ʻ#ʼ を識別不能な対象の決定属性値とす
る。とB⊂Aでに修正された
決定表を作る。
γ-decision reductを得る⽅法：元の決定表を修正した⽭盾
のない決定表を作り、decision reductを求める

2017.04.21 雑誌会 15
表3：B={O,T,H}の場合の修正された決定表
元の決定属性
例: 4と14 or 5と6は元の決定属性が異なるので、#となる

2017.04.21 雑誌会 16
表4：γ-decision reductsから⽣成されたルール群
γ-decision reductは修正された決定表のすべての属性で構
成される

2017.04.21 雑誌会 17
2.2. Decision bireducts
定義8：Decision bireducts
decision bireduct ⇔
⇒ 2. Bの部分集合がないこと
⇒ 3. Xの上位集合がないこと
d(ui)≠d(uj)であるすべてのペアui, ujをBが識別する

2017.04.21 雑誌会 18
Proposition 1：2つの単調性の性質
Proposition 2：decision reductとの関係
証明
・Bがdecision reduct ⇒ BによりUのすべてのペアを識別
できるので、(U,B)はdecision bireduct
・(U,B)がdecision bireduct ⇒ であり、
となるがないため、Bはdecision reduct

2017.04.21 雑誌会 19
Decision reductの⽤語を使って、decision bireductsは表
現される
Proposition 3
⇔
decision bireductを探索するときに、Proposition 3は
decision reductを探索するために発達したアルゴリズムを
適⽤するのに役⽴つ

2017.04.21 雑誌会 20
Proposition 4：decision bireductの性質
1. Bによる分割で、 X∩Eにあるすべての対象は同じ決定
属性値を取る
2. Bによる分割で、Eにあるすべての対象はXに含まれる
3. Xは決定ルールの集合のサポートの和集合と等しい

2017.04.21 雑誌会 21
• 定理4はdecision bireductがどのように決定ルールを⽣
成するかを⽰している
• ⾔いかければ、decision bireductが決定ルールの集合に
よって表現される
表5：decision bireductから⽣成された決定ルール集合

2017.04.21 雑誌会 22
2.3. γ-Decision bireducts
定義9：γ-Decision bireducts
Decision bireductの定義8を修正することでγ-Decision
bireductが考えられる
(X, B) がγ-decision bireduct ⇔
Decision bireductとの違いは、γ-decision bireductに所属する対象は
Xだけでなく、Uの対象とも識別されることが必要である点

2017.04.21 雑誌会 23
Proposition 5：2つの単調性の性質
Proposition 6：decision reductとの関係
γ-decision bireductの特徴
- Uにアクセスする必要があるので、ストリームデータ上で、γ-
decision bireductを計算することはできない
- 正領域との類似性：対象uがPOS(B)に所属するときに限り、その対
象uはXに加えられる

2017.04.21 雑誌会 24
Proposition 7：γ-decision bireductの性質
Proposition 7から、
・γ-decision bireductを探索する問題は、修正された決定
表でのdeicision reductの探索する問題に置
き換えれる
・γ-decision bireductはγ-decision reductの場合と同様
に、決定ルールとして解釈できる：

2017.04.21 雑誌会 25
表6：表1のデータにおけるdecision bireducts と γ-decision
bireducts（B = {O,H}）
表7：B={O,H}のγ-decision bireductから⽣成されるルール集合
Decision-bireductは属性集合Bで、異なる対象の部分集合で構成され
る。Decision-bireductのほうがXは⼤きい

2017.04.21 雑誌会 26
3.1. Boolean representation
• Decision-bireductsを探索するためのたくさんの⽅法が
考えられる
• まず、ブーリアン⽅式で決定表の識別可能性を表現する
• Decision-bireductsもこれの類推で表現される
Proposition 8：decision bireductのブーリアン⽅式
命題変数
⇔

2017.04.21 雑誌会 27
Proposition 8の証明
P is an implicant of τ ⇔PがいつもTrueであるという事実はいつもτ
もTrueであると評価される。
を考え、最初に
を証明する。
(⇒) Pがτ_{bi}のimplicantじゃないなら、PがTrueのときにτ_{bi}が
Falseがある。がFalseになる節があるはず。
fはdisjunctionなので、すべての要素がFalseであるのがあるはず。
PがTrueでiとjはFalseであるので、それはiかjのどちらもPの⼀部では
ない。PはU＼Xの対象に対応する変数を含む。ui, uj ∈ Xとなる。Pはi
とjが異なる結論部になる変数aを含まない。a∉Bとなる。これはuiと
ujがBで識別されないということ。それゆえは保たれないので
⽭盾。
（順次やればできるはずなので省略…）

2017.04.21 雑誌会 28
• Proposition 8はdecision reductの数よりもdecision
bireductの数がかなり多いことを⽰す
• decision bireductsのすべての集合は CNF（連⾔標準
形）とDNF（選⾔標準形）で表現される
表8：表1のすべてのdecision bireductを表すCNFとDNF

2017.04.21 雑誌会 29
• Proposition 8はdecision bireductを作るためには、属
性と対象が等しく重要であることを⽰しており、それは
以下の定理を引き起こす
Proposition 9
新しい決定表：
新しい属性集合：
⇔

2017.04.21 雑誌会 30
表9：Proposition 9 の決定表の例
これは、⼤きなデータでは明⽰的に実体化するのはできないので、より効率
的なアルゴリズムの発展の始まりとして扱われる

2017.04.21 雑誌会 31
• γ-decision bireductで、Proposition 9に類似した表現
を考える
• まずProposition 8への類似したブーリアン表現を持つ
– それはdecision bireductよりも制限がある
– 2つの対象を識別する属性がないなら、それらの対象
がγ-decision bireductに含まれない
Proposition 10：γ-decision bireductのブーリアン⽅式
命題変数
⇔

2017.04.21 雑誌会 32
• γ-Decision bireduct も CNF（連⾔標準形）とDNF（選
⾔標準形）で表現される
表10：表1のすべてのγ-decision bireductを表すCNFと
DNF
• decision bireductよりもCNFは⻑く、DNFは短い（＝γ-
decision bireductが⼩さい）
• ⻑さの⽐較により、よりdecision bireductより制限があ
ることを⽰している

2017.04.21 雑誌会 33
3.2. Ordering algorithms
• Decision bireductを探索するための⽅法を考える
• 縮約探索のためにラフ集合で発達した古典的なアルゴリ
ズムの拡張で、decision-bireductを取り出す(Alg.1)
σ：置換（順列）
：対象uを追加してもBで識別できるなら
：aを削除したBで識別できるなら
：初期化

2017.04.21 雑誌会 34
Proposition 11：Alg.1のアウトプットはdecision-
bireductである。さらに、Alg.1のアウトプットが (X,B)に
なる置換σが存在する
証明(1)
置換σを与える。最初はX0={},B0=A。Loop処理で、
属性が削除されるか対象が追加されるかが⾏われるが、常
に条件が満たされるかをチェックするため
は最後まで保たれる。最後のペア( )が満たしてい
るかをチェックするためにが冗⻑じゃなくも
減らないことを⽰す。定義8の条件2と3を使って⽭盾によ
ってこれを証明する(省略)

2017.04.21 雑誌会 35
証明(2)
(X,B)となる置換σがあることを⽰すために、次を考える
(a)は最初のステップでX0=∅なので、属性が選ばれてとな
る。次の(b)で、|X|ステップのあと、となる
次の(c)では、残りのBを減らすことができないので、変化なし
最後の(D)では、追加すると識別できなくなるので、追加されない。
結果(X,B)となる置換を作ることができる□

2017.04.21 雑誌会 36
• ある事前に指定した条件のdecision-bireductを⼿に⼊
れるために置換σを制御するのは難しい
– 例：|X|, |B|, |X|と|B|の⽐率
• 部分的に置換を⽣成する⽅法をモデル化が必要
• 例えば、対象より属性を選択する可能性を制御するパラ
メータを考える
• 置換σが始めにたくさんの属性を含んでいるなら、少な
い属性でかつカバーされない対象がたくさんある
decision-bireductを⼿に⼊れやすい
• このような可能性はRatioを呼ばれ、後にこのパラメー
タの違いがBとXのサイズにどのように影響するかが説
明される

2017.04.21 雑誌会 37
• γ-decision bireductの場合もほぼ同じアルゴリズム
(Alg.2)で探索できる

2017.04.21 雑誌会 38
Proposition 12：Alg.2のアウトプットはγ-decision-
bireductである。さらに、Alg.2のアウトプットが (X,B)に
なる置換σが存在する
証明
Proposition 11と同様である

2017.04.21 雑誌会 39
表11：Alg.1の結果の例
表12：Alg.2の結果の例

2017.04.21 雑誌会 40
図1：decision-bireductの計算過程の例図2：γ-decision-bireductの計算過程の例

2017.04.21 雑誌会 41
• サンプリングアプローチとされるもう１つの⽅法を説明
する（Alg.3）
• ⾼次元データでのbireductの計算を速くすることが狙い
3.3. Sampling algorithms
：対象u_{*}を含んでいる決定クラス
u_{*}を含む決定クラスとEの共通集合を追加する
3⾏⽬で⼿に⼊れられる縮⼩された決定表により、コンパ
クトなif-thenルールになる

2017.04.21 雑誌会 42
Proposition 13：Alg.3のアウトプットはdecision-
bireductである。さらに、それぞれのdecision-bireductが
Alg.3の結果として⼿に⼊れることができる
証明(2)
あるdecision bireduct(X,B)を考える。A*=Bとおく。U*は
Xの代表的な対象を取って構成するとする。
(X,B)がdecision bireductなので、XはBによる識別不能ク
ラスの少なくとも1つの対象を持つ必要がある。U*は正確に
それを持つ。アルゴリズムのステップで、reduct Bを⼿に
⼊れる。そのBはXにとって単純化できないので、U*にとっ
ても単純化できない。よって、Bは唯⼀のreductとなる

2017.04.21 雑誌会 43
• Alg.3の計算例を表13,14で説明する
表13. の決定表の識別不能クラス
表14. U_{*}の集合
からdecision reduct {T,H}で以下
のbireductが⼿に⼊れられる

2017.04.21 雑誌会 44
• 適切なサンプリングメカニズムと組み合わせることで、
多様な対象や属性に基づくdecision bireductのアンサン
ブルを導きうる
• Alg.3の⽅法は特定の置換σを使って、Alg.1のフレーム
ワークでモデル化もできる
– はじめにいくつかの属性
– 真ん中にすべての対象の並び
– 最後に残りの属性
• この類推は、期待した属性や対象のサイズのbireductを
探索するためのパラメータを定義するのに役⽴つ

2017.04.21 雑誌会 45
• そのようなパラメータはの期待値に対応する
• Alg.3の4⾏⽬で⼩さい属性集合が引かれたら、識別不能
クラスは⼩さくなり、結果⼩さいXのbireductが⼿に⼊
る
• 逆に、⼤きい属性集合が引かれたら、対応する識別不能
クラスは１つの対象で構成されやすくなり、bireductの
Bは古典的なdecision reductに対応しやすくなる

2017.04.21 雑誌会 46
• γ-decision bireductの場合もほぼ同じアルゴリズム
(Alg.4)で探索できる
Proposition 14：Alg.4のアウトプットはγ-decision-
bireductである。さらに、それぞれのγ-decision-bireduct
がAlg.4の結果として⼿に⼊れることができる

2017.04.21 雑誌会 47
• Alg.4の計算例を表16,17で説明する
表16. の決定表の識別不能クラス
表17. U_{*}の集合
からdecision reduct {T,H}で以下
のbireductが⼿に⼊れられる

2017.04.21 雑誌会 48
• 表18：Alg.3とAlg.4のいくつかの計算結果

2017.04.21 雑誌会 49
• このアプローチのメインの利点が前節のアルゴリズム
Alg.1,2とくらべて計算効率性である
• このアプローチの最悪ケースでは
– T：reductの計算アルゴリズムの複雑性
– A_{*}が⼩さいなら、最悪ケースよりもかなり⼩さ
くなる（= ）

2017.04.21 雑誌会 50
4.1. Examples of approximate decision reduct formulations
• Approximate decision reduct を計算するための基準は
閾値と属性の部分集合により抽出される情報の程度を評
価する関数の値に基づく
• F-decision ε-reductに焦点をあてる
– ：情報の程度を評価する関数
– ε：どの程度の情報が落ちるのを許すかの閾値
定義10：Relative F-decision ε-reduct
：Aのべき集合
：単調⾮減少関数
はa relative F-decision ε-superreductである⇔
はa relative F-decision ε-reductである⇔ and
この不等式を満たすBの部分集合がない

2017.04.21 雑誌会 51
はa F-decision ε-superreductである⇔
• 部分集合Bを直接評価する別の定義を定める
定義11：F-decision ε-reduct
はa F-decision ε-reductである⇔ and
この不等式を満たすBの部分集合がない
• Fのいくつかの例を考える
• その１つがγ：

2017.04.21 雑誌会 52
定義12：Majority function
特定の識別不能クラスと各決定クラスとの共通集合の頻度の最⼤値の
平均。Bの正確性をモデル化
定義13：Relative gain function
各決定クラスでの特定の識別不能クラスと各決定クラスとの共通集合
の頻度の最⼤値の平均

2017.04.21 雑誌会 53
• ⽭盾のない決定表では、
• F-decision ε-reductsのεの値は、分類器の正確性を制
御する閾値
• εを⾼くすると、⼩さい属性集合BもF-decision ε-
reductsに含まれ、⽣成される決定ルールも短くなる
• εを低くすると、より⼤きな属性集合BがF-decision ε-
reductsに含まれやすくなり、⽣成される決定ルールも
複雑になりやすい

2017.04.21 雑誌会 54
• F-decision ε-reductsの探索に関わる計算複雑性を考え
る
• 多項式還元を使って、最⼩のreductを⾒つける問題が
NP困難であることを証明する
Proposition 15
最⼩のrelative γ-decision ε-reductを⾒つけるのはNP困
難である
証明
グラフG(V,E)の⽀配集合問題に置き換えてNP困難問題であることを証
明する
・⽀配集合問題：頂点の部分集合Dのうち、Dに属さない全ての頂点に
対して少なくとも1つのDに属する頂点が隣接するとき⽀配集合と⾔い
、⼤きさ最⼩の⽀配集合を⾒つける問題のこと

2017.04.21 雑誌会 55
Proposition 16
最⼩のγ-decision ε-reductを⾒つけるのはNP困難である
Proposition 17
最⼩のrelative M-decision ε-reductを⾒つけるのはNP困
難である
Proposition 18
最⼩のM-decision ε-reductを⾒つけるのはNP困難である
Proposition 19
最⼩のrelative R-decision ε-reductを⾒つけるのはNP困
難である
Proposition 20
最⼩のR-decision ε-reductを⾒つけるのはNP困難である

2017.04.21 雑誌会 56
• 最も良いdecision bireductとは？
– 暗黙の仮定として、⽣成過程では対象と属性の数が最⼩化
されるように⽣成される
– 属性の数の最⼩化とカバーされない対象の数最⼩なのが直
感的に良いと理解される
• 不均衡なデータ（ある決定クラスが極端に少ないなど）では
対象の基数に基づく⽅法では不⼗分
– マイノリティな決定クラスに所属する対象にもっと注意を
払うべき
• 我々は属性と対象の数のバランスに関して、かなりたくさん
の最適な基準を考えることができる
• 過去の研究では、decision bireductを評価するために、次の
関数を最⼩化した
4.2. Searching for optimal decision bireducts

2017.04.21 雑誌会 57
• 別の評価の観点は、decision bireductのアンサンブルを
考えるとき、すべてのUをカバーできるようにdecision
bireduct同⼠が助けあうように⽣成することが考えられ
る
– このアプローチは次の節で説明する
• 我々はdecision bireductがたくさんのカバーされない対
象を⽣成しないようないくつかの制約保証を定式化する
定義14：decision ε-bireduct
⇔
定義15：γ-decision ε-bireduct
⇔

2017.04.21 雑誌会 58
• 我々はdecision ε-bireductを探索する複雑性を調査する
⽅法は、approximate decision reductsの共通の何か
があると考える
• γ-decision ε-bireductについての下記のNP困難問題
Proposition 21
1.
2. 属性数最⼩のγ-decision ε-bireductを⾒つけるのはNP
困難である
⇔

2017.04.21 雑誌会 59
Proposition 23
最⼩の属性数のDecision ε-bireductを⾒つけるのはNP困
難である
Proposition 22
⇔ (X,B)がdeicion ε-bireductであり、Bの基数より⼩さい
属性のdecision ε-bireductがない
• 我々はdecision ε-bireductとM decision ε-bireductの
関係を研究し、同様にNP困難問題であることを証明

2017.04.21 雑誌会 60
• 表1に基づく例を考える
Yesが9個、Noが5個
ε≧5/14だと、M-decision ε-
reductは空集合となり、デフォ
ルトルール（Yesというルール）
のみが⽣成される
ε=4/14より⼩さいと、M-decision ε-reductは複数の集合となり、
興味深い結果となる⇒表19へ

2017.04.21 雑誌会 61
decision ε-bireductのほ
うが数が多い
アンサンブルを構築する
際に、⼩さい属性の数の
ほうがシンプルで⼀般的
なルールとなり得る
表19：M decision ε-reductとdecision ε-bireductの⽐較

2017.04.21 雑誌会 62
• データのそれぞれの対象が少なくとも2つによってカバーされるよ
うな3つのdecision bireductsでアンサンブルを構成するのを考え
ると、M-decision ε-reductで構成するのは不可能
• decision ε-bireductなら637通り作れる
• ルールのシンプルさが未知データにも良い分類精度を提供するだろ
う
• 3つのうち2つがいつも正しいなら、シンプルな投票により精度の妥
当性が保証される
表20：decision ε-bireductによるアンサンブルの構成例

2017.04.21 雑誌会 63
4.3. Searching for optimal ensemble of decision bireducts
• Decision bireductsの最も有望なアプリケーションの1
つがアンサンブル分類器の構築である
– できるだけ様々な属性を含むreductの分類器のアン
サンブルを考えたい
• Decision bireductでは、データの異なる部分を使う分
類器のアンサンブルを構築でき、訓練データを均⼀にカ
バーする
• さらに、decision bireductのアンサンブルはより短いル
ールで構成され得る
– 個々のルールは完璧なものではないが、お互いを⼗
分に助け合う

2017.04.21 雑誌会 64
• UCI から、3つのデータ(|U|,|A|,|D|)を利⽤した
– Zoo(267,22,2), lymphograpy(101,17,7),
spect(148,18,4)
• 置換σを制御するパラメータratioを使う
– 値が⼤きいと、置換σの順列の中で始めのほうに多く
の属性が現れる
– 中⽴値は|U|/|A|。属性と対象が順列の中で均⼀に⽣
成される
– 実験では0から2|U|/|A|まで変化させる

2017.04.21 雑誌会 65
• 図5の左：Decision reduct と decision bireductにある
属性数の⽐較（各パラメータで1000回計算）
– Ratio = 0 はdecision reducts
– Ratioが⼤きいほど属性が置換σの始めに並ばれやす
く、Xが⼩さいときに、属性が減っていく傾向にある

2017.04.21 雑誌会 66
• 図5の右：Decision reduct と decision bireductにある
対象数の⽐較（各パラメータで1000回計算）
– Ratioが⼤きいほど対象が置換σの後ろに並ばれやす
く、Xに加わる数が減る

2017.04.21 雑誌会 67
• 属性数と対象数の関係をさらに調査するために、2つの
指標を調べた
• 1. Description Length
• 2. 2つのDecision bireductのOverlap Size：
– Overlap sizeが⼩さいなら、より対象集合Uをカバー
している可能性が⾼い

2017.04.21 雑誌会 68
• 図6の左：Decision reduct と decision bireductにある
Description Lengthの⽐較
– データによって傾向が違うが、decision reductより
は⼤きい

2017.04.21 雑誌会 69
• 図6の右：Decision reduct と decision bireductにある
Overlap sizeの⽐較
– Ratioが⼤きいほど、1つのXは⼩さくなりやすいので
、Overlapは⼩さくなる

2017.04.21 雑誌会 70
• Ratioと分類器のアグリゲーションの影響を調べた
• 1サイクル（1000個のdecision bireductsを⽣成し、ルール
を⽣成。5-fold-cross validationを⾏い評価）を各Ratioごと
に10回⾏った
• テストデータの対象の決定クラスを予測するために、2つの
アグリゲーション法を使⽤
– Majority Voting
– Balanced Support Weighted Voting：Supportの⼤きさ
で重み付け
• 決定クラスがかなり不均衡であるので、分類器を評価するた
めに2つの指標を使⽤
– Mean Accuracy：正しく分類された⽐率
– Balanced Accuracy：各決定クラスの中で正しく分類され
た⽐率の平均値

2017.04.21 雑誌会 71
• 表21
– Random Forest / Bagging Logistic Regressionと
⽐較
– 機械学習における⼈気のあるアプローチに匹敵する
スコア

2017.04.21 雑誌会 72
• 図7と8：Spectデータのスコアの結果
• 図7と8：Zooデータのスコアの結果

2017.04.21 雑誌会 73
05. Conclusions
• Decision bireductの探索⽅法に関する⽅法を提案
• 多様でロバストなルールを⽣成する⽅法を提案
• ある種の条件満たしながらdecision bireductを探索する
ための⽅法を
– Future Workとしては、最適な基準の理論的基礎や
計算の複雑性、実⽤的なヒューリスティックアルゴ
リズムなどが関係する
• 他の種類のbireductの研究を続ける
– Information bireducts：教師なし学習
• 様々なアンサンブルの作り⽅を実験する
• bireductの性質の調査する
• 様々なタイプのデータにも適⽤する

17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

Recommended

Recommended

More Related Content

More from LINE Corp.

More from LINE Corp. (20)

17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison