数式を使わないデータマイニング入門　隠れた法則を発見する

作者: 岡嶋裕史
出版社/メーカー: 光文社
発売日: 2006/05/17
メディア: 新書
購入: 27人クリック: 123回
この商品を含むブログ (87件) を見る

本書は、『データマイニング』という言葉は知っていてもきちんと学んだことがない方(私も！)にとっての入門書だ。如何せん『数式を使わない』と決めて書かれているので至極分かりやすい。

まずデータマイニングと統計分析の違いについて。
両者はどこか似ている風ではあるのだが、

データマイニングが従来の統計分析と一線を画して語られるのは、取り扱う情報が、質と量の両面において異なるからです。

統計分析が確立された頃と比較して、現在では情報が至る所に溢れているために、従来は分析の対象にしなかった(できなかった)情報をも対象とすることができるようになった。そのため、質・量の両面で膨大になってしまった情報の中から何かしら有意な法則を見つけるために、従来とは異なるアプローチすなわちデータマイニングが登場してきた。
もう一つの違いとして、統計分析は見つけた法則に対する事後検証指向であるのに対し、データマイニングは多分に未来予測指向である点が挙げられている。このことは偏差値を例に考えると分かりやすい。受験したテストの結果を集計して各人の偏差値を割り出す事で集団内での自分の位置を確認するのが統計分析、テスト結果以外の情報をさらに加えて分析し、次回のテストでは何点取れるかを予測するのがデータマイニング、ということのようだ。

データマイニングで使用される手法には新旧様々なものがあり、中には昔から統計分析で利用されてきた回帰分析なども含まれる。
なぜなら、

データマイニングの本質は、手法の目新しさにあるのではなく、用意する情報の質と量にある。

からだ。
とにかく圧倒的な種類・量の情報を用意して、従来は無視していた情報でも分析してみたり、一見無意味に思えるような情報同士の組み合わせを検証したりすることで、そこに隠された法則を見つけ出す、それがデータマイニングの一面である。
もう一つ、データマイニングによって得られた法則群の中から、本当に使える法則を見つけ出すというプロセスが必要であり、多分こちらのプロセスの方がより難しいのではないかと思う。どの法則が有意であるかを最後に決めるのは結局人間であり、その判断が下せるためには、やはりそれなりの経験や直感が必要になるだろう。

本書で取り上げるデータマイニング手法は以下の通り。

回帰分析
決定木
クラスタ分析
自己組織化マップ
連関規則
ニューラルネット

本書はこれらの手法に関するエッセンスのみを説明しているため、あくまでも入門(あるいは入門の入門)程度のことしか書かれていない。
例えばニューラルネットについては、かつて学んだことのある身として読んでみた限りでは、ホントに入門書の第1章レベルのことしか書かれていないという印象を受けた。
それが悪いのではなく、専門用語や数式を使わないでここまで分かりやすく書けるのはすごいなという事と、本書を上記データマイニング手法の専門書として購入するのであればそれは他書を選択した方がよいという事。『データマイニングのエッセンス集』というのがしっくりくるかな。

本書でも触れられているが、例えばAmazonやGoogleのように、私たちの利用履歴などの情報をもとにサービス提供している企業のバックグラウンドでは、ここで触れられているデータマイニングのさらに洗練された技術が活用されているはず。
もちろんそれらは企業秘密であり公にされる事はないだろうが、その技術のとっかかりを知る上でも本書はデータマイニングの入門書として優れていると思う。