会誌「情報処理」の特集『利用者の好みをとらえ活かす-嗜好抽出技術の最前線-』のメモ

情報処理学会の会誌「情報処理」を毎月読んでるわけですが（会員だしね）、今月号の特集『利用者の好みをとらえ活かす-嗜好抽出技術の最前線-』が面白かったので備忘録代わりにメモ。
特集記事一覧はこちら。

0. 編集にあたって（土方嘉徳）
1. 嗜好抽出・情報推薦の基礎理論：1）嗜好抽出と情報推薦技術（土方嘉徳）
1. 嗜好抽出・情報推薦の基礎理論：2）協調フィルタリングの課題：プライバシー，サクラ攻撃，評価値のゆらぎ（神嶌敏弘）
2.ネットワーク上のユーザ行動に着目した嗜好抽出・情報推薦：1）協調フィルタリングを用いたレコメンドサービスの導入事例と課題（市川裕介）
2.ネットワーク上のユーザ行動に着目した嗜好抽出・情報推薦：2）嗜好情報に基づくニュースコンテンツの推薦とその応用-画一的な便利さと多様な嗜好への適応-（河合由起子）
3.実世界上のユーザ行動に着目した嗜好抽出・情報推薦：1）AV機器利用者に対する放送コンテンツの推薦（村上知子）
3.実世界上のユーザ行動に着目した嗜好抽出・情報推薦：2）移動端末におけるユーザの状況を考慮した嗜好抽出技術（小野智弘・本村陽一・麻生英樹）
4.ユーザ作成のコンテンツに着目した嗜好・評判抽出：1）テキスト評価分析の技術とその応用（乾　孝司・奥村　学）
4.ユーザ作成のコンテンツに着目した嗜好・評判抽出：2）テキストを用いた評判と嗜好の分析（金山　博）
http://www.ipsj.or.jp/05system/digital_library/special_features.html

「1. 嗜好抽出・情報推薦の基礎理論：1）嗜好抽出と情報推薦技術（土方嘉徳）」が嗜好抽出技術の概要となっていて分かりやすかった。以下、箇条書きメモ。

嗜好抽出・情報推薦の現在
- 注目を集める推薦サービス（レコメンデーション）
  - Amazon、Google News、TSUTAYA online、ユニクロ等
- 情報の適応
  - ユーザの行動履歴に基づく推薦（Amazon、MSN Newsbot）
  - 選択アイテムに基づく推薦（TSUTAYA online、ユニクロ）
- 提示方式の変更（カスタマイゼーション）（iGoogle、MyYahoo!）

情報推薦の基本方式
- コンテンツに基づくフィルタリング：コンテンツの特徴量を抽出してモデル化
  - ルールベース方式：人手でフィルタリングのルールを設計
  - メモリベース方式：コンテンツモデルとユーザプロファイルの両方をベクトルで表し、ベクトル空間上の距離により推薦を決定
  - モデルベース方式：過去の閲覧／購読したアイテムの評価値から一般的な興味の傾向をモデル化
- 協調フィルタリング方式：アイテムに対するユーザの評価値を利用
  - ユーザベース方式（メモリベース）：嗜好傾向の似ているユーザ情報を利用
  - アイテムベース方式（メモリベース）：アイテム間の類似度を利用
  - モデルベース方式：ユーザやアイテム間の関係をクラスタリング等でモデル化

嗜好抽出技術
- 抽出粒度と適合性フィードバック
  - どのくらいの粒度で興味にかする情報を獲得する必要があるか
  - 協調フィルタリング：アイテム単位
  - コンテンツに基づくフィルタリング：記事内のキーワード等（推薦精度の問題、余分な操作が必要）
- 明示的手法と暗示的手法
  - 明示的：直接ユーザから興味情報を入力してもらう
  - 明示的手法1：興味に関するアンケート
  - 明示的手法2：閲覧ページの興味を数段階で評価をつけさせる
    - 1は短期間、2は長期間での効果が期待される
  - 暗示的：ユーザのWeb閲覧時の挙動から興味情報を取得する
  - 暗示的手法1：閲覧した情報すべてにユーザが興味を持ったと仮定する手法（Webのアクセス履歴）
  - 暗示的手法2：何かを手がかりにして閲覧情報に対する興味を判定する方法（閲覧時間、マウス操作、視線）
    - 実現性では1、精度では2の方がすぐれる

情報推薦の評価指標
- 正確さ：個々の予測の正確さ、推薦リストの評価（精度、再現率）
- Coverage：システムがどれだけのアイテムを予測可能であるか
- Novelty：推薦されたアイテムの新規性
- Serendipity：推薦されたアイテムの意外性
- Diversity：推薦リストのトピックに関する多様性
- Discovery ratio：推薦リスト内に知らないアイテムがどれだけあるか（発見性）

情報推薦の課題
- コンテンツに基づくフィルタリング
  - 利点：推薦の質が利用するユーザ数に影響されない
  - 利点：まったく新しいアイテムでも推薦対象に含まれる
  - 課題：コンテンツによっては特徴量の抽出が困難
  - 課題：serendipityの高い推薦が困難
- 協調フィルタリング
  - 利点：コンテンツの解析（特徴量の抽出）が不要
  - 課題：sparsity問題＝システムの扱うアイテム数に対して評価をつけたアイテムが少な過ぎると推薦の質が低くとどまる
  - 課題：first-rater問題＝まったく新しいアイテムは誰かが評価しない限り推薦候補に入らない
  - 課題：cold-start問題＝新たにシステムを利用しはじめたユーザは、ある程度の数のアイテムを評価付けしないと質の良い推薦が得られない
- その他の課題
  - 推薦に対するユーザの飽き（高い推薦精度が災いして、似たようなアイテムばかり推薦される）
  - 不正攻撃に対する頑健性の問題（自社のアイテムを高評価、他社のアイテムを低評価するユーザプロファイルを不正に作成）

情報推薦の未来
- 人間と推薦システムを切り分けて考えるのではなく、推薦のメカニズムそのものに人間の積極的なインタラクションを導入し、全体の系として推薦の質を高め、ユーザの満足度を高めていくような方向性があるのではないか

参考になる記事

ソーシャルメディアセカンドステージ：レコメンデーションの虚実（2）〜レコメンデーションの分類 (1/2) - ITmedia NEWS