VBA

HOME
VBA
【selenium/webスクレイピング】robots.txtの読み方について

2024年3月19日 / 最終更新日時 : 2024年5月21日イプシロン VBA

【selenium/webスクレイピング】robots.txtの読み方について

みなさんこんにちは。

スクレイピングを実施する前に注意しなくてはならないのが、

webサイトの利用規約や注意事項です。

なぜなら、目的次第では利用規約に反して相手先に迷惑をかけてしまう可能性があるからです。

その中で、「robots.txt」の存在は必ず出てきます。

今日はその、「robots.txt」について書きます。

では、いってみましょう！！！

この記事はこんな人におすすめ

この記事は以下の人に特におすすめです！

robots.txtの読み方を知りたい人
webスクレイピング：初級者～中級者
webスクレイピングの注意事項を知りたい人

robots.txtとは

”ロボッツテキスト”と呼びます。

クローラーに対するWebページへのアクセス制限(ルール)を記載したファイルのことです。

Webサイトのルート配下に配置されていて、以下のように対象サイトのURLに直打ちすると、閲覧することも可能です。

(例)ココナラのサイトに対して、robots.txtを確認したい場合

https://coconala.com/robots.txt

するとこのようになります。

robots.txtのフォーマットについて

基本的には以下のことが記載されています。

【User-agent】

意味：クローラーの名前を指定

【Crawl-delay】

意味：巡回頻度(秒数)

【Allow】

意味：指定されたパス配下はアクセス可能

【Disallow】

意味：指定されたパス配下はアクセス不可

【Sitemap】

意味：sitemap.xmlの場所を明示

となります。

ここで、先ほどのココナラのrobots.txtを読んでみましょう。

User-agent: *
Disallow: /tags/
Disallow: /register
Disallow: /login
Disallow: /smartphone/register
Disallow: /smartphone/login
Disallow: /magazine/wp-admin/
Sitemap: https://coconala.com/sitemap.xml

解読結果

以下のような意味合いになります。

User-agent: *　←全てのクローラー対象

Disallow: /tags/　←「tags」で始まるディレクトリやファイルすべてがアクセス不可

Disallow: /register　←「register」で始まるディレクトリやファイルすべてがアクセス不可

Disallow: /login　←「login」で始まるディレクトリやファイルすべてがアクセス不可

・・・以下同様・・・

といったところです。

補足

ちなみに、先ほどのココナラのrobots.txtに以下のような記載があった場合の読み方も書きます。

Crawl-delay: 5
Allow: /

この場合は、以下のような意味です。

Crawl-delay: 5 　←5秒間に1回の頻度でアクセス可能

Allow: / 　←全てのパスに対してアクセス可能

つまり、Disallowに記載されているパス以外はアクセス可能。

ただし、5秒間に1回の頻度でアクセスしないとダメ。

という解釈になるわけです。

ちなみに、Allowにパスが記載されていることが多いですが、

読み方はDisallowと同じです。

まとめ

いかがでしたでしょうか。

スクレイピングを楽しむ前に、そのサイトのルールを確認して、

紳士的振る舞いのもと、スクレイピングライフを楽しみましょう！！！

もっと知りたい人へ

Excel&VBAを活用したスクレイピングサービスを出品しております。

サイトの情報をExcelに抽出したり、入力したり、

単純作業を自動化するサービスです。

Excelにてブラウザ操作自動化ツールを作成しますその作業、webスクレイピングを使って自動化しましょう！

ご興味がある方はこちら！！

@KP16Wt9UOB97870

コメントを残すコメントをキャンセル

Firebase

2024年3月17日

VBA

2024年3月20日

【selenium/webスクレイピング】robots.txtの読み方について

この記事はこんな人におすすめ

robots.txtとは

robots.txtのフォーマットについて

【User-agent】

【Crawl-delay】

【Allow】

【Disallow】

【Sitemap】

解読結果

補足

まとめ

もっと知りたい人へ

いいね:

関連

コメントを残すコメントをキャンセル

【Firebase】Firebaseとは？特徴とメリットのご紹介

【selenium】xPathの取得方法

この記事はこんな人におすすめ

robots.txtとは

robots.txtのフォーマットについて

【User-agent】

【Crawl-delay】

【Allow】

【Disallow】

【Sitemap】

解読結果

補足

まとめ

もっと知りたい人へ

共有:

いいね:

関連

コメントを残す コメントをキャンセル

【Firebase】Firebaseとは？特徴とメリットのご紹介

【selenium】xPathの取得方法

コメントを残すコメントをキャンセル