CEATECの記事に関してちょっと気になったので

starocker2006-10-12

http://www.ohmynews.co.jp/News.aspx?news_id=000000002170
私も先週CEATECの「情報大航海プロジェクト」ブースを見学してきました。
そこで上記記事で触れられている早稲田大学「Web上の著作権違反検知ツール」の展示も見てきたのですが、担当学生に聞いた話と上記記事の内容にちょっと食い違いがあるみたいなので参考までに記しておきます。

「Web上の著作権違反検知ツール」は、簡単に言うと、あるテキスト著作物と似た文章を、Yahoo!(ヤフー)やグーグルなどの既存の検索エンジンを利用して、自動的に発見するシステムである。単に似たページを見つけ出すだけではなく、その類似度によってランクを付け、類似度が高ければ「著作権違反」と判断する機能を持っている。

記事ではこのように述べられていますが、私の聞いた話では、このツールに『類似度によってランクを付け』る機能は実装されていましたが、『類似度が高ければ「著作権違反」と判断する機能』は実装されていなかったと思います。
私もその点が気になったので担当者に「どうやって著作権違反を判定しているのか?」と質問しましたが、担当者曰く「著作権違反は判定しない。著作権違反の疑いがある(=文章レベルで類似度が高い)かどうかを判定するだけ。」という話でした。
だから、

なお論文によると「著作権侵害ページとは、表面的に類似している文章を掲載したWebページと定義」されており、正当な引用やライセンスに沿った利用であるかどうかは、全く無視されていた。

という点については、そういった判定を無視しているのではなく、そもそも機能として実装していないようです。


論文中では、Webページが盗用・引用・無断掲載・正規利用のどれに当たるかを判断することはなかなか難しいので、このツールでは「類似した文章を掲載したページ」を検出することを目的とする、と書かれています。
ここで「類似した文章」を

  • 深層的に似ている文章(例:アイデアを盗用した文章)
  • 表面的に似ている文章(例:軽微な語尾変化を行った文章)

の2つに大きく分類しています。
この中で、計算機でも判別が可能で、かつ、著作権違反の可能性が高いと考えられる後者の「表面的に似ている文章」を掲載しているWebページを「著作権侵害ページ」と定義し、そういったWebページをこのツールの対象としているとのことです。
だから、著作権違反の判定を「無視」していたと言うよりは、課題としては認識しているが今回はまだそこまで出来てません、というのが正直なところでしょう。(担当者もそういうニュアンスのことを言ってましたし。)


そのため、現状このツールは正確には「Web上の著作権違反検知ツール」ではないわけですね。その点はまさに上記記事にあるような「類似文章検索ツール」という名前の方が相応しいだろうと思います。
その方が汎用性の面でも面白いものが作れそうな予感。
もしどうしても著作権違反検知ツールの路線で行きたいのなら、既存の検索サービスのAPIを活用している点がネックになるでしょうね。
検索サービスが入り込めない会員制サイト(mixiとか)や巡回ロボットをはじいているサイトは、現状のツールだと野放し状態になりますし。
そういうサイトが著作権違反の温床になりやすい気がします、私見ですけど。
間違っても「Googleに取り上げられない違反サイトは違反ではない」ってことにならないようにして欲しいですね。