1. 研究組織

    研究分担者氏名 森下 真一
    所属機関・部局・職 東京大学 医科学研究所 客員助教授
    現在の専門 データベース、データマイニング
    最終学校名・卒業年 東京大学 1983年 理学博士(東京大学1990年)
    生年 昭和35年

  2. 研究課題

    ゲノムデータベースからの知識発見
    Knowledge Discovery from Genome Databases

  3. 研究目的

    ヒトゲノム計画は、大規模シークエンシング技術の進歩により、塩基配列決定に主眼を置いた第2期に入り、大量のゲノム配列データが日々蓄積されつつある。この結果、ゲノム研究における情報科学的観点からの研究は、単なる研究支援の道具開発にとどまらず、主要技術として位置づけられつつあり、21世紀にはゲノム情報学がバイオテクノロジー産業の基盤に不可欠と考えられている。この目標を実現するには、日々蓄積される、いままで知られていないゲノム配列の機能をや構造に関する法則を効率よく探索したり発見するための情報処理技術が渇望されており、本研究の目標とするところである。具体的には以下の研究を行う。

    • ゲノム配列の分析:プロモーター、エクソン、イントロンの構造予測ツールの開発
    • 蛋白質、ゲノム配列の構造を記述し、効率的問合せを可能にする問合せ言語の設計開発
    • 蛋白質や RNA の高次構造予測手法の開発 (準最適解の網羅的探索方法の効率化とクラスタリング)

  4. 研究計画・方法

    研究分担者の森下は過去以下のテーマで研究を行ってきた。

    • データベースに対する問合せ最適化技術の研究関係データベース演算でボトルネックとなるジョインを効率的に実装するための経験則に理論的根拠を与える最適化技術の開発。
    • 演繹データベース問合せ言語の設計と開発演繹データベース Glue-Nail の開発(スタンフォード大学から配布中)し、かつ最適化が困難とされた否定記号を通した再帰的呼び出し問題を解決。
    • 数値属性を扱うデータマイニング アルゴリズムの設計と実装従来のデータマイニング研究で考察が不十分だった数値属性の取り扱いを最適化問題として定式化し、効率的アルゴリズムの開発、そして従来手法をより高い予測制度を数多くのベンチマークテストで実証した。

    これらの方法論を軸に、超並列計算機上での実装方法と、記号列を扱うデータマイニング手法を新たに開発し、研究目的で掲げた3つの研究テーマに関して、ソフトウエアを開発する。開発のスケジュールは大まかに以下の段取りを考えている。

    • 平成10年度 第一期: ソフトウエアの設計 プロトタイプによる性能予測実験
    • 平成11年度 第二期: ソフトウエアの開発 公開に向けた本格的な開発
    • 平成12年度 第三期: ソフトウエアの公開 公開を実現し、メインテナンスと新機能の追加を行う

  5. 参考文献

    • S. Morishita, "Avoiding Cartesian Products for Multiple Joins," Journal of the ACM, Volume 44, Number 1, pp. 57-85, January 1997
    • S. Morishita, ``An Extension of Van Gelder's Alternating Fixpoint to Magic Programs,'' (Invited Paper) Journal of Computer and System Sciences, Academic Press, Volume 52, Number 3, pp. 506-521, June 1996
    • Y. Morimoto, H. Ishii, and S. Morishita, "Efficient Construction of Regression Trees with Range and Region Splitting," Proceedings of VLDB'97, pages 166-175, Athens, Greece, August 1997
    • K. Yoda, T. Fukuda, Y. Morimoto, S. Morishita, and T. Tokuyama, "Computing Optimized Rectilinear Regions for Association Rules," Proceedings of the Third Conference on Knowledge Discovery and Data Mining (KDD97), pages 96-103, Los Angels, August 1997
    • T. Fukuda, Y. Morimoto, S. Morishita, and T. Tokuyama, "Data Mining Using Two-Dimensional Optimized Association Rules: Scheme, Algorithms, and Visualization," Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data, pp. 13-23, Montreal, Canada, June 1996
  6. 研究協力者

    研究協力者氏名 中谷 明弘
    所属機関・部局・職 東京大学 医科学研究所 助手
    現在の専門 並列計算
    最終学校名・卒業年 東京大学 1994年 理学修士
    生年 昭和45年