概要

本ツールABC(Asymmetric Bi-Clustering)は,文科省科研費新学術領域研究(平成25年度~29年度)「スパースモデリングの深化と高次元データ駆動科学の創成」に設定された計画研究課題「スパースモデリングを促進する可視化基盤の強化」のなかで開発されたものです.

さまざまな分野で観測が日常的に実施されている現在,そこから生み出される大量の高次元データに隠された有益な情報の発見が期待されています.スパースモデリングは,高次元データに内在するスパース性を利用し,計算量が次元数に対して指数的に爆発するような状況でも,実際的な時間でデータから最大限の情報を効率よく抽出できる技術です.しかし,スパースモデリングにより抽出されたデータであっても,通常その説明変数の個数は十数から数十次元にまでしか落ちません.そこで,さらに視覚的に理解可能な2, 3, 4 次元にまで説明変数を圧縮し,所与の問題を記述する物理スペースにおけるデータの挙動を情報スペースに変換するような新たな情報可視化ツールABCを開発してきました[IC-4].ABCは,下図に示すような処理の枠組みにおいて,データ解析処理に対して明示的に解析者の視覚的フィードバックを取り込むことで,スパースモデリングに基づく高次元データの解析において分析者の対話的処理が重要な役割を果たすHuman-in-the-Loopを実現しています[J-1].  

スパースモデリングとABC

本研究課題のなかでABCの前に開発した,グラフスペクトル法に基づく軸縮約平行座標系表示[J-2, IC-5]は,中次元の多変量データから適切な変数群を段階的に選択する能力は有しますが,軸縮約後もデータサンプル数は減少せず,多変量データに隠れている興味ある部分空間を,軸とサンプルの双方から並行して同定する能力において課題を残していました.この点を抜本的に解消するために,ABCでは,非対称バイクラスタリングを用いて有意なデータ相関情報を提供する部分空間を効果的に構成します.バイクラスタリングは1972年にHartiganによって提唱されたデータマトリクスのクラスタリング手法で,以来ゲノム解析や文書解析で利用されてきました.なお,ここで「非対称」と冠しているのは,サンプル間の距離尺度は通常の二乗距離を用いているのに対し,定義域の相異なる軸方向に対しては相関係数(の符号反転)を用いているため,クラスタリングに用いる距離尺度が軸とサンプルで異なる点に由来しています.

ABCツールにおける処理フローを下図に示します.ここでは部分空間クラスタリングと部分空間探索の二機能が実現されています.ステップ1では,非対称バイクラスタリングによって,自動的に高い相関性をもつデータサンプルと次元を同時にクラスタリングします.色付きブロック図は,各ブロックのデータ相関性の高さを表しています(緑:低―赤:高).分析者は,このブロック図を参照しながら,次のステップ2と3で相関性に乏しい次元や異常値と考えられるデータサンプルを選択・削除し,さらなる探索に向けて,高い相関性をもつ部分空間を意図的に生成することができます.このような部分空間探索の反復過程は,履歴ツリーによって管理され,組織的な視覚分析がサポートされます.

ABCによる部分空間マイニングの処理フロー

下図に,USDA食品成分データにABCを適用した結果を示します.図中(a),(b)に示すシステムインタフェース画面は,大きく6種類のコンポーネントから構成されています.左上は部分空間探索中の平行座標系表示,右上は太い仕切り線により軸クラスタを明示した平行座標系表示,左下は縮合された平行座標系,右下はブロック図です.さらに下部には履歴ツリーとバイクラスタリングの目的関数値も確認されます.

同図(a)に示す初期状態から出発し,次元クラスタ数とデータサンプル数をともに9としてバイクラスタリングを段階的に適用した結果,同図(b)に示す2次元3データクラスタにまでクラスタリングできました.ここでは,EnergyとWaterの対が最も強い相関をもち(左軸),同程度の高い相関をProteinとVitamin B6 の対がもつ(右軸)ような結果が得られている.同図(c)は,stripレンダリングを用いて(b)の縮合平行座標系(左下)のデータサンプルクラスタを強調表示したものです.

(a) 初期状態

(b) 最終状態
(c) Stripレンダリング

USDA食品成分データのABC視覚解析

このABCツールを「Ia型超新星」とよばれる天体の分類問題に適用しました[IC-2].サンプルの分類は天体までの距離推定の高精度化につながり,変数の同定は超新星の爆発機構の理解につながることが期待されています.UCバークレーで管理されている,14次元132サンプルを対象データセットとしました.下図(a)に示す初期状態から出発し,最終的に(b)に示す3次元129サンプルにまでクラスタリングできました.ところで,Ia型超新星は「シリコン吸収線の強度」と「ガスの膨張速度」を変数として分類することで「通常の系列」と「高速膨張する天体群」に分けられることが知られています.上記の可視化分析結果を散布図行列(c)に変換したところ,天文学者による経験的な分類(d)と概ね一致することがわかりました.また,天体の距離指標として重要な「絶対等級(明るさ)」はそれらの変数と弱い相関があるものの分散が大きく,絶対等級を決める物理要因は今回扱った変数以外にあることが示唆されました.

(a) 初期データ
(b) 縮約されたデータ
(c) (b)に対応する散布図行列

(d) 従来の散布図

ABCによるIa型超新星の分類

ABCの課題の一つは,効果的なクラスタリング結果への収束を保証する初期の次元とサンプルのクラスタ予想数です.我々は,制約付von Mises-Fisher分布を仮定し,ベイス推定により適正な次元とサンプルのクラスタ数の推定できる,確率的非対称バイクラスリング法[IC-3]も開発しています.また,多変量データに記述された対象の特徴を効果的に理解するため,解析者は交互に次元変数を比較します.特に特徴が強いと判断された次元に対しては,より詳細な探査を続行します.しかし,平行座標系表示は本来的に,離れた次元変数間の相関を視覚的に捉える能力に限界があります.そこで,多対多平行座標系表示,一対多平行座標系表示とその連合ビューを導入し,データの一覧性を向上させる工夫も提案しています[IC-1].

メンバ

背景色が灰色のメンバは現在はプロジェクトに関わっていないメンバです。現在も藤代研究室に所属しているメンバは名前の前に藤代研のアイコンがついています。

名前現在の所属ホームページ
高橋 成雄福島県立会津大学個人Webサイト
渡辺 一帆豊橋技術科学大学研究室Webサイト
Hsiang-Yun Wuウィーン工科大学個人Webサイト
植村 誠広島大学個人Webサイト
新部 祐輔慶應義塾大学

ビデオ

業績

下線が引いてある著者は藤代研究室所属している/所属していたメンバーです。

論文誌

  1. 藤代 一成,高橋 成雄,渡辺 一帆,Hsiang-Yun Wu:「スパースモデリングと情報可視化」,電子情報通信学会誌D,Vol. 99, No. 5, pp. 466–470 (2016)
  2. 能野 琴Hsiang-Yun Wu,渡辺 一帆,高橋 成雄,藤代 一成:「グラフスペクトル解析を用いた平行座標系の軸縮約」,画像電子学会誌,Vol. 44,No. 3,pp. 447–456 (2015)

会議・シンポジウム

国際会議・シンポジウム

  1. Hsiang-Yun Wu, Yusuke Niibe, Kazuho Watanabe, Shigeo Takahashi, Makoto Uemura, Issei Fujishiro: “Making many-to-many parallel coordinate plots scalable by asymmetric biclustering” (VisNotes), in Proceedings of IEEE Pacific Visualization Symposium 2017, pp. 305–309, Seoul (2017) [doi: 10.1109/PACIFICVIS.2017.8031609].
  2. Makoto Uemura, Koji S. Kawabata, Shiro Ikeda, Keiichi Maeda, Hsiang-Yun Wu, Kazuho Watanabe, Sheigeo Takahashi, Issei Fujishiro: “Data-driven approach to Type Ia supernovae: Variable selection on the peak luminosity and clustering in visual analytics,” Journal of Physics: Conference Series (HD3-2015 ), Vol. 699, Article No. 012009 (2016) [doi: 10.1088/1742-6596/699/1/012009].
  3. Kazuho Watanabe, Hsiang-Yun Wu, Shigeo Takahashi, Issei Fujishiro: “Asymmetric biclustering with constrained von Mises-Fisher models,” Journal of Physics: Conference Series (HD3-2015 ), Vol. 699, No. 012018 (2016) [doi: 10.1088/1742-6596/699/1/012018].
  4. Kazuho Watanabe, Hsiang-Yun Wu, Yusuke Niibe, Sheigeo Takahashi, Issei Fujishiro: “Biclustering multivariate data for correlated subspace mining,” in Proceedings of IEEE Pacific Visualization Symposium 2015, pp. 287–294, Hangzhou (2015) [doi: 10.1109/PACIFICVIS.2015.7156389].
  5. Koto Nohno, Hsiang-Yun Wu, Kazuho Watanabe, Shigeo Takahashi, Issei Fujishiro: “Spectral-based contractible parallel coordinates,” in Proceedings of iV2014, pp. 7–12, Paris (2014) [doi: 10.1109/IV.2014.60].

資金

  1. 新学術領域計画研究:25120014(2013―2017)

チームページに戻る