1. 研究室ホームページ
    http://www.slab.dnj.ynu.ac.jp/index-j.html

  2. 研究組織
  3. 研究分担者氏名 鈴木 英之進
    所属機関・部局・職 横浜国立大学工学部電子情報工学科・ 助教授
    現在の専門 機械学習
    学位 博士(工学)
    所属&アドレス: 〒240-8501 横浜市保土ヶ谷区常盤台79-5
    横浜国立大学工学部電子情報工学科
    電話番号 045-339-4148
    FAX番号 045-339-4148
    Email: suzuki@dnj.ynu.ac.jp

  4. 研究協力者
  5. 研究協力者氏名 菅谷 信介
    所属機関・部局・職 横浜国立大学大学院工学研究科電子情報工学専攻・ 修士1年
    現在の専門 情報科学
    学位 学士(工学)
    所属&アドレス: 〒240-8501 横浜市保土ヶ谷区常盤台 79-5
    横浜国立大学大学院工学研究科電子情報工学専攻
    電話番号 045-339-4135
    FAX番号 045-339-4148
    Email: shinsuke@slab.dnj.ynu.ac.jp

  6. 研究課題

  7. スケジューリング機能を持つ例外ルールと常識ルールの同時発見

  8. 研究目的

  9. 本研究では,スケジューリング機能を持つ例外ルールと常識ルールの同時発見手法を提案し,大規模データへの適用を通してその有効性を評価する.例外ルールは,よく知られた常識ルールに対する例外と定義され,きわめて有用となる場合がある.申請者が提案した常識ルールと例外ルールの同時発見は,真に意外な知識の発見手法として,評価されてきた.しかし,同手法では,サンプリングデータ数と発見制約の閾値をあからじめ指定する必要があることと,発見知識の表現が限定されているという弱点があった.本研究は,これらの弱点をスケジューリング機能によって克服することを主な目的とする.スケジューリング機能は,発見過程の分析に基づく,
    1) サンプリングデータ数を調節するサンプリングスケジューリング,
    2) 発見ルールの制約条件を調節する閾値スケジューリングおよび
    3) ルール表現形式を調節するルール表現スケジューリングの3種類を考えている.また,上記課題と関連する,例外事例の発見についても検討する.

    ルール発見は,データ集合からの属性間に成立する局所的制約の導出であり,知識発見において最も基本的な手法の一つである.データマイニングにおいて提案されている他の手法では,領域固有の情報をあからじめ与えることや,ユーザインタラクションを利用することを仮定している. 本研究が対象とする常識ルールと例外ルールの同時発見は,領域知識に相当する常識ルールを与えるのでなく,例外ルールと同時に求めるものである.すなわち,本手法は,領域固有の情報とユーザインタラクションではなく,発見過程の分析に基づいて有用ルールを求めるものであり,独創的な手法である.知識を発見する際に,領域固有の情報とユーザインタラクションは強力であるが有用な知識を見落とす可能性があることも指摘されており,特に後者はユーザの負担を伴う. 本研究を遂行することにより,領域固有の情報が得にくいデータにも適用でき,有用な知識を見落とす可能性が少なく,ユーザへの負担が軽いルール発見システムを実現できると考えられる.さらに,本手法は,常識を学びながら意外なルールを発見するモデルにもなっており,発見科学に貢献するところも大きいと考えられる.

    ルール発見は,数多くの例を説明する強いルールと,少数の例を説明する弱いルールの両方を対象とし,意外性を示す例外ルールは後者に属する.弱いルールの発見手法は,強いルールを与えてそれらに反するものを求める知識駆動型,ルール中の論理式についての生起確率を組み合わせた式を仮定してその値が大きいものを求める規準駆動型および強いルールと対応する弱いルールの両方を 同時に求める仮説駆動型がある.知識駆動型発見手法としては,AT & T 社の Silberschatz とNew York 大学の Tuzhilin による信念駆動発見などがあるが,これらは上記の欠点を持っている. 規準駆動型発見手法としては,California大学Irvine校のSmythによるITRULEなどがあるが,単一のルールを求めるため,他の型の発見手法と統合しない場合,例外ルール発見には不向きである.仮説駆動型としては,申請者による一連の研究があり,上記の弱点を持っている. 当該研究は,発見過程に応じたスケジューリングにより,これらの弱点を克服し,仮説駆動型例外ルール発見手法を適用しやすくするものである.

  10. 研究計画

  11. 平成11年度の目標は,サンプリングスケジューリングと閾値スケジューリングの実現,基盤システムの実装および予備実験である.
    まず,1) サンプリングデータ数を調節するサンプリングスケジューリングと2) 発見ルールの制約条件を調節する閾値スケジューリングを,以下に述べるように実現する.1) サンプリングスケジューリングは,統計的近似手法に基づいて実現する.申請者は,常識ルールと例外ルールの同時発見において,サンプリングに関する解析解をすでに導いている.このスケジューリングは,解析解と発見時間との関係を調べることにより実現できると考えている.2) 閾値スケジューリングとしては,複数キーを用いるデータ構造に基づく方式が有望であると考えている.申請者が提案した常識ルールと例外ルールの同時発見手法では,発見ルールに関する制約が 5 個存在し,それらに対応して閾値も 5 個存在する.まず,発見されたルールの閾値に関する分布を調べ,これらの閾値のうちで特に制御すべきものを特定する.次に,ルール数一定などの制約から,これらの閾値を発見中に自動調節する手法を提案する.なお,上記の 2 スケジューリングは互いに関連し合うものであり,本研究では,互いの影響を考慮したメタ・スケジューリングについても検討する予定である.

    次に,上述のスケジューリング機能を常識ルールと例外ルールの同時発見システムに組み込むことにより,基盤システムを計算機上に実装する.

    最後に,実装した基盤システムの有効性を示すために,大規模データを用いて予備実験を行う.ここでの大規模データとしては,阪神大震災直後に実施された 16,489 人分のアンケートデータや,機械学習の標準問題として公開されている 299,285 人分の米国国勢調査データなどを想定しており,これらのデータは入手済みである.

    なお,例外事例の発見についても,ケーススタディを通して考慮したい.

  12. 発見科学に関する研究成果(開発ソフトウェアを含む)