ストラテジ系 / 企業活動
Web クローリング
Webクローリングは、プログラムがWebページを巡回し、ページやリンクなどの情報を自動的に収集することです。
もう少し詳しく
検索エンジンのクローラは、Webページ内のリンクをたどって多くのページを収集し、検索用の索引作成に利用します。スクレイピングがページから特定の情報を抽出する処理を指すことが多いのに対し、クローリングは巡回・収集の側面が強い用語です。利用時にはrobots.txt、利用規約、アクセス負荷、著作権や個人情報に注意が必要です。
試験での見方
例:検索エンジンがWebサイトを定期的に巡回し、新しいページや更新されたページを収集します。
クローリングは『巡回して集める』、スクレイピングは『必要な情報を抜き出す』と区別しましょう。