Development of a large-scale web crawler and search engine infrastructure

Susumu Akamine, Yoshikiyo Kato, Daisuke Kawahara, Keiji Shinzato, Kentaro Inui, Sadao Kurohashi, Yutaka Kidawara

研究成果: Chapter in Book/Report/Conference proceedingConference contribution

6 被引用数 (Scopus)

抄録

This paper reports the ongoing development of a large-scale Web crawler and search engine infrastructure at National Institute of Information and Communications Technology. This infrastructure has the following characteristics: (1) It collects one billion Japanese Web pages while keeping them up-to-date. (2) It selects 100 million pages from among the collected pages and converts them into a standard data format to store the results of morphological analysis, dependency parsing, and synonym augmentation. (3) The selected set of pages is searchable and accessible to the users. (4) The scalability of the system is achieved by using a large-scale cluster machine for distributed data processing.

本文言語英語
ホスト出版物のタイトルProceedings of the 3rd International Universal Communication Symposium, IUCS 2009
ページ126-131
ページ数6
DOI
出版ステータス出版済み - 12 1 2009
イベント3rd International Universal Communication Symposium, IUCS 2009 - Tokyo, 日本
継続期間: 12 3 200912 4 2009

その他

その他3rd International Universal Communication Symposium, IUCS 2009
国/地域日本
CityTokyo
Period12/3/0912/4/09

All Science Journal Classification (ASJC) codes

  • ソフトウェア
  • 人間とコンピュータの相互作用
  • コンピュータ ビジョンおよびパターン認識
  • コンピュータ ネットワークおよび通信

フィンガープリント

「Development of a large-scale web crawler and search engine infrastructure」の研究トピックを掘り下げます。これらがまとまってユニークなフィンガープリントを構成します。

引用スタイル