東京大学とトレンドマイクロは28
日、
情報セキュリティ
分野の
共同研究成果として「Webリンク
構造の
解析結果」を
発表した。これは、Webサイトのリンク
構造を
把握することで、
有害サイトの
特定および
未知サイトのカテゴライズ
精度の
向上を
図るもの。
研究は2007
年6
月から2008
年1
月にかけて
行なわれた。
研究では、トレンドマイクロのWebコンテンツ
評価データベースからランダムに
抽出した700のURLを
出発点とし、
各ページ
内のリンクを3ジャンプ
先まで
辿ることでアクセスできるすべてのページを
対象にした。
総ページ
数は1,247
万2,530ページ、
総リンク
数は5,270
万8,173リンク、
総ドメイン
数は33
万9,828ドメイン。これらをトレンドマイクロのデータベースに
基づいたカテゴリ
分類を
行ない、
東京大学の
研究者が
各種可視化ツールを
用いてリンク
構造を
分析した。
動画・
音声やゲーム、EC、
不動産、アダルトなど
各カテゴリを
出発点とし、ホスト
間のリンクに
絞ってWebページを
辿っていくと、どのようなサイトに
行き着くのか(Webコンテンツのネットワーク
構造)を
可視化したところ、カテゴリによってサイト
同士の
結び付きに
特徴が
見られた。
特に、
相互リンクの
密度はアダルトカテゴリが
最も強いという。また、ホスト
間のリンク
数が150
以上の
強い結び付きを
持つところも
多数存在し、ここでもアダルトカテゴリに
顕著な
傾向が
見られた。さらに、ホストのリンク
数を
示す「
次数」もアダルトカテゴリや、
その他の
有害サイトが
多かった。
また、
安全なカテゴリのページからであっても、リンクを
辿ることによって、
有害サイトに
到達する
可能性が
高まることが
判明した。
例えば、アダルトカテゴリに
到達する
率は、
安全なカテゴリ(アート・エンターテイメント、スポーツ、
旅行など)から
出発し、1ジャンプ
先では
平均0.27
%だが、2
〜3ジャンプ
先では
平均2.69
%まで
高まった。
特に、ユーザーがリンクを
貼るCGMコンテンツは
他のカテゴリに
結び付く可能性が
高くなり、
結果的に
有害サイトへ
行き着きやすい
傾向であることがわかった。このほか、アダルトカテゴリ
内では、930ドメインがすべて
相互リンクする
集合(
巨大クリーク)が
確認された。
今回の研究成果を応用すれば、ホストのリンク構造を解析することで、カテゴリの類推が可能という。共同研究員の東京大学大学院情報理工学系研究科講師の増田直紀氏は、「日々何百億というWebページが更新される中で、新しいデータベースを作ってカテゴライズしていくのは間に合わないことがある。今まで、新しいサイトが安全かどうかわからない場合は“Unknown”としていたが、サイトのリンク先・リンク元を見ることで、サイトのカテゴリを推定できる。ユーザーがアクセスする前に、サイトのレコメンデーションが可能になる」と述べた。
●研究成果の応用でサイトの分類・危険度識別を向上
今回の共同研究は、東京大学の産学連携プロジェクト「Proprius21」の一環として実施されたものだ。「Webリンク構造の解析結果」は共同研究成果の第1弾となる。東京大学産学連携本部長の藤田隆史教授は、「Proprius21では、大学側から企業にアプローチして、共同研究を行なっている。東京大学では、国際産学連携を発表しており、グローバルな展開を行なっているトレンドマイクロに声をかけた。また、情報セキュリティ分野については理工系だけでは十分な研究ができない。今回は、経済学研究科とも共同で取り組んだ」と述べた。情報理工学系研究科の増田氏は、「学内のデータだけでは不十分。トレンドマイクロ提供のデータを使用することで、十分な研究データが取れる」と説明した。
トレンドマイクロ上席執行役員日本代表の大三川彰彦氏は、「現在、インターネット上の脅威はWebページからの感染経路がほとんど。Webページは毎日300億ページも更新されており、従来の目視検査やテキストマイニングでは分析が追い付かない。トレンドマイクロは数年前から対策を考えているが、今回、東京大学からお話をいただき、共同研究を行なったことで、とても良い成果が出た」とした。また、同社の事業開発室テクノロジーリサーチ課テクノロジーリサーチマネージャーの近藤賢志氏は、「今回の研究成果から、各カテゴリへの関連性に基づくサイトの危険度・脅威判定が可能になる。さらに、言語や表現のゆれなどに依存しない、高精度なWebカテゴリ分類・識別技術を確立できる」と説明した。
東京大学とトレンドマイクロでは、今後も共同研究を継続する。近藤氏は、「半年間の研究では、まだまだ不十分なところもある。今回はトレンドマイクロのデータベースのみを使ったが、今後はデータ収集規模や元のソースを拡大したい。ユーザーの行動分析による、有害コンテンツへのアクセスリスク評価指標も検討する」と述べた。さらに、分散コンピューティングによる大規模ネットワークの解析とシステム構築も計画する。そのほか、今回発表した研究成果を応用し、ブラウザプラグインなどによるWebサイトの危険予測や安全性の可視化・分析ツールの提供も検討するという。
関連情報
■URL
ニュースリリース
http://jp.trendmicro.com/jp/about/news/pr/article/20080128025023.html
(野津誠)
2008/01/2817:53