Webスクレイピングの注意点

Webスクレイピングに関する法律上の注意

Webスクレイピングを実施する際は、法律上の注意が必要になる。以下に、主な注意点を示す。

主な注意点法律事務所等において示されている考え方
著作権を侵害しないか価格、商品名、配送料、販売店名、発送企業名、出品者情報などの情報は、著作物には該当せず、著作権法の保護対象ではない。また、著作物であっても、利用用途が私的利用や情報解析に限られる場合については、著作権法で例外として利用を認められている。
サイトの利用規約に抵触しないか利用規約などでスクレイピングを禁止されていたとしても、会員登録なしでサービスを提供している場合には合意が成立しておらず、法的拘束力は働くとはいえない。ただし、会員登録しないとアクセスできない情報については利用規約に従うこと。たとえば、XやInstagramでは、許可なく自動化された手段で情報を取得する行為は禁止されている。
業務妨害にならないか短期間で大量のアクセスが発生すると、サーバーに負荷がかかり、システム処理に支障がでる可能性がある。そのため、人がアクセスする場合と同じく2~3秒程度の間隔を開けた方が良い。過去に、スクレイピングによって他の利用者がアクセスしづらい状態になり、偽計業務妨害で逮捕された事例もあるため注意されたい。

スクレイピングする際は、そもそもスクレイピングが必要なのか、APIが用意されていないかについても確認する。

robots.txtの確認

スクレイピングが必要と判断したら、ドメイン直下におかれているrobots.txtを確認されたい。

例えば、「英ナビ」というサイトの場合は以下のリンクから確認できる。

# robots.txt

User-agent: *
Disallow: /cms/
Disallow: /member/

Sitemap: http://www.ei-navi.jp/sitemap.xml
Sitemap: http://www.ei-navi.jp/sitemap-dictionary1.xml
Sitemap: http://www.ei-navi.jp/sitemap-dictionary2.xml
Sitemap: http://www.ei-navi.jp/sitemap-dictionary3.xml

このサイトでは、/cms/や/member/の配下のページはスクレイピングが禁止されていることがわかる。

参考資料


著者画像

ゆうき

2018/04からITエンジニアとして活動、2021/11から独立。主な使用言語はPython, TypeScript, SAS, etc.