参加方法新着ニュース


流し読みニュース > 記事 サイトのリンク構造から有害コンテンツを判定東大とトレンドマイクロ(Impress Watch)
この記事から振り仮名をはずす
*さいとのりんくこうぞうからゆうがいこんてんつをはんていとうだいととれんどまいくろ(ImpressWatch)*

サイトのリンク構造から有害コンテンツを判定東大とトレンドマイクロ(Impress Watch)

28日(月)18時33分



*
 東京大学とうきょうだいがくとトレンドマイクロは28にち情報じょうほうセキュリティ分野ぶんや共同きょうどう研究けんきゅう成果せいかとして「Webリンク構造こうぞう解析かいせき結果けっか」を発表はっぴょうした。これは、Webサイトのリンク構造こうぞう把握はあくすることで、有害ゆうがいサイトの特定とくていおよび未知みちサイトのカテゴライズ精度せいど向上こうじょう図るはかるもの。研究けんきゅうは2007ねん6がつから2008ねん1つきにかけて行なわおこなわれた。

 研究けんきゅうでは、トレンドマイクロのWebコンテンツ評価ひょうかデータベースからランダムに抽出ちゅうしゅつした700のURLを出発しゅっぱつてんとし、かくページないのリンクを3ジャンプさきまで辿るたどることでアクセスできるすべてのページを対象たいしょうにした。そうページすうは1,247まん2,530ページ、そうリンクすうは5,270まん8,173リンク、そうドメインすうは33まん9,828ドメイン。これらをトレンドマイクロのデータベースに基づいもとづいたカテゴリ分類ぶんるい行ないおこない東京とうきょう大学だいがく研究けんきゅうもの各種かくしゅ可視かしツールを用いもちいてリンク構造こうぞう分析ぶんせきした。

 動画どうが音声おんせいやゲーム、EC、不動産ふどうさん、アダルトなどかくカテゴリを出発しゅっぱつてんとし、ホストかんのリンクに絞っしぼってWebページを辿ったどっていくと、どのようなサイトに行き着くいきつくのか(Webコンテンツのネットワーク構造こうぞう)を可視かししたところ、カテゴリによってサイト同士どうし結び付きむすびつき特徴とくちょうられた。特にとくに相互そうごリンクの密度みつどはアダルトカテゴリが最ももっとも強いつよいという。また、ホストかんのリンクすうが150以上いじょう強いつよい結び付きむすびつき持つもつところも多数たすう存在そんざいし、ここでもアダルトカテゴリに顕著けんちょ傾向けいこうられた。さらに、ホストのリンクすう示すしめす次数じすう」もアダルトカテゴリや、その他そのた有害ゆうがいサイトが多かっおおかった。

 また、安全あんぜんなカテゴリのページからであっても、リンクを辿るたどることによって、有害ゆうがいサイトに到達とうたつする可能かのうせい高まるたかまることが判明はんめいした。例えばたとえば、アダルトカテゴリに到達とうたつするりつは、安全あんぜんなカテゴリ(アート・エンターテイメント、スポーツ、旅行りょこうなど)から出発しゅっぱつし、1ジャンプさきでは平均へいきん0.27ぱーせんとだが、2から3ジャンプさきでは平均へいきん2.69ぱーせんとまで高まったかまった。特にとくに、ユーザーがリンクを貼るはるCGMコンテンツはのカテゴリに結び付くむすびつく可能かのうせい高くたかくなり、結果けっかてき有害ゆうがいサイトへ行き着きいきつきやすい傾向けいこうであることがわかった。このほか、アダルトカテゴリないでは、930ドメインがすべて相互そうごリンクする集合しゅうごう巨大きょだいクリーク)が確認かくにんされた。

 今回こんかい研究けんきゅう成果せいか応用おうようすれば、ホストのリンク構造こうぞう解析かいせきすることで、カテゴリの類推るいすい可能かのうという。共同きょうどう研究けんきゅういん東京大学とうきょうだいがく大学院だいがくいん情報じょうほう理工りこうがくけい研究けんきゅう講師こうし増田ますだ直紀なおきは、「日々ひびなんひゃくおくというWebページが更新こうしんされるじゅうで、新しいあたらしいデータベースを作っつくってカテゴライズしていくのは間に合わまにあわないことがある。いままで、新しいあたらしいサイトが安全あんぜんかどうかわからない場合ばあいは“Unknown”としていたが、サイトのリンクさき・リンクもと見るみることで、サイトのカテゴリを推定すいていできる。ユーザーがアクセスするぜんに、サイトのレコメンデーションが可能かのうになる」と述べのべた。

研究けんきゅう成果せいか応用おうようでサイトの分類ぶんるい危険きけん識別しきべつ向上こうじょう
 今回こんかい共同きょうどう研究けんきゅうは、東京とうきょう大学だいがく産学さんがく連携れんけいプロジェクト「Proprius21」の一環いっかんとして実施じっしされたものだ。「Webリンク構造こうぞう解析かいせき結果けっか」は共同きょうどう研究けんきゅう成果せいかだい1だんとなる。東京大学とうきょうだいがく産学さんがく連携れんけい本部ほんぶちょう藤田ふじた隆史たかし教授きょうじゅは、「Proprius21では、大学だいがくかわから企業きぎょうにアプローチして、共同きょうどう研究けんきゅう行なっおこなっている。東京とうきょう大学だいがくでは、国際こくさい産学さんがく連携れんけい発表はっぴょうしており、グローバルな展開てんかい行なっおこなっているトレンドマイクロにこえをかけた。また、情報じょうほうセキュリティ分野ぶんやについては理工りこうけいだけでは十分じゅうぶん研究けんきゅうができない。今回こんかいは、経済けいざいがく研究けんきゅうとも共同きょうどう取り組んとりくんだ」と述べのべた。情報じょうほう理工りこうがくけい研究けんきゅう増田ますだは、「学内がくないのデータだけでは不十分ふじゅうぶん。トレンドマイクロ提供ていきょうのデータを使用しようすることで、十分じゅうぶん研究けんきゅうデータが取れるとれる」と説明せつめいした。

 トレンドマイクロ上席じょうせき執行しっこう役員やくいん日本にほん代表だいひょうおお三川みかわ彰彦あきひこは、「現在げんざい、インターネットじょう脅威きょういはWebページからの感染かんせん経路けいろがほとんど。Webページは毎日まいにち300おくページも更新こうしんされており、従来じゅうらい目視もくし検査けんさやテキストマイニングでは分析ぶんせき追い付かおいつかない。トレンドマイクロはすうねんぜんから対策たいさく考えかんがえているが、今回こんかい東京とうきょう大学だいがくからお話おはなしをいただき、共同きょうどう研究けんきゅう行なっおこなったことで、とても良いよい成果せいかた」とした。また、同社どうしゃ事業じぎょう開発かいはつしつテクノロジーリサーチテクノロジーリサーチマネージャーの近藤こんどう賢志けんじは、「今回こんかい研究けんきゅう成果せいかから、かくカテゴリへの関連かんれんせい基づくもとづくサイトの危険きけん脅威きょうい判定はんてい可能かのうになる。さらに、言語ごんご表現ひょうげんのゆれなどに依存いぞんしない、こう精度せいどなWebカテゴリ分類ぶんるい識別しきべつ技術ぎじゅつ確立かくりつできる」と説明せつめいした。

 東京大学とうきょうだいがくとトレンドマイクロでは、今後こんご共同きょうどう研究けんきゅう継続けいぞくする。近藤こんどうは、「半年はんとしかん研究けんきゅうでは、まだまだ不十分ふじゅうぶんなところもある。今回こんかいはトレンドマイクロのデータベースのみを使っつかったが、今後こんごはデータ収集しゅうしゅう規模きぼがんのソースを拡大かくだいしたい。ユーザーの行動こうどう分析ぶんせきによる、有害ゆうがいコンテンツへのアクセスリスク評価ひょうか指標しひょう検討けんとうする」と述べのべた。さらに、分散ぶんさんコンピューティングによるおお規模きぼネットワークの解析かいせきとシステム構築こうちく計画けいかくする。そのほか、今回こんかい発表はっぴょうした研究けんきゅう成果せいか応用おうようし、ブラウザプラグインなどによるWebサイトの危険きけん予測よそく安全あんぜんせい可視かし分析ぶんせきツールの提供ていきょう検討けんとうするという。

関連かんれん情報じょうほう

■URL

 ニュースリリース

 http://jp.trendmicro.com/jp/about/news/pr/article/20080128025023.html

野津のつまこと

2008/01/2817:53
*

この記事から振り仮名をはずす
seo