Ruby Nokogiri Anemoneを使ってスクレイピングに挑戦してみる その2

  • このエントリーをはてなブックマークに追加
  • Pocket
  • LINEで送る

はじめに

前回に引き続き、Ruby Nokogiri Anemoneを使ってスクレイピングに挑戦したいと思います。

前回は特定のサイトのタイトルのみを取得する簡単なプログラムでしたので、今回は少しだけ進めて
特定のブログのトップページの記事タイトルとURLを取得してみたいと思います。

今回も、私のブログを題材にしたいと思います。

私のブログはトップページに記事のリストが最新の記事から順に表示されてますので、
上から記事タイトルとURLを取得したいと思います。

no-name-title

プログラムを書いてみる

さっそくプログラムを書いてみたいと思います。

成功すると下記のようにタイトルとURLが出力されるはずです。

プログラムの解説

簡単にプログラムの解説をしてみます。

オプションの追加

前回はAnemoneオプションとして「depth_limit」だけ指定していましたが、今回はさらにオプション増やしました。

このオプションを増やした理由は、なるべくクローラーによってクロール対象のWEBサイトに迷惑をかけないようにするためです。
そもそもクローラーを作成するということで最初に記載すべきでしたが、クローラーを作成する前提として、対象のWEBサイトに迷惑を掛けてはいけません。

クローラーが原因で、対象のサイトのサーバーに負担がかかったり、他の閲覧者がサイトを見れなくなるような状態を引き起こせば、業務妨害とされる場合もあります。
※詳しくは下記の岡崎図書館事件を参考にしてください。

対象のサイトに負担をかけないように、今回はオプションによって下記の設定を行っています。

  1. robot.txtに従う
  2. クローリングの間隔を開ける

上記の設定をしていれば、絶対に大丈夫というわけではありませんが、最低限の設定としてオプションを指定しておくと良いと思います。
それと対象のサイトに利用規約のようなものがあれば一度目を通しておくと良いと思います。

構文解析

巡回の部分は前回簡単に説明しましたので、今回は構文解析について書こうと思います。

構文解析については構文解析ツールを使用すれば比較的簡単に実行することができ、今回のプログラムでは前回と同様、構文解析ツールとして「Nokogiri」を使用しています。Nokogoriのデータ指定方法はXPathとCSSセレクタの2種類があり、今回はXpathを使っています。

Xpathはrootノード、HTMLの場合はhtmlからタグ名を順番に指定することで要素を特定します。
たとえば、下記のようなHTMLがあるとします。

まず、「title」要素を指定するには、下記のように書きます。
rootノードのhtmlの次にheadを指定し、headの中にtitleがあるので下記のような形になります。

次に「a」要素を指定するには、下記のようにします。

さらに少し進んで、h2でclassがattentionのモノだけを取得するには、下記のように記述します。

単にh2と指定したのではbody内にある、h2すべてを指定してしまいますので、h2の中でもattentionクラスを含むものだけをcontainsを使って指定しています。

XPathの記載方法については下記のチートシートが非常に良いので一度見てみると良いです。

ただ、上記のような単純なHTML構造を持つサイトのほうが現在は少ないので、それを上から順に辿っていく方法は現実的ではありません。
そこでブラウザの開発ツールを利用することで簡単にXpathを抽出することができるのでさっそく試してみましょう。

今回はfirefoxを使用します。
firefoxの場合、Firebugというアドオンが必要ですので、インストールしていない場合はインストールしておきましょう。

今回は本記事の題材でもある、私のブログの記事のタイトルの要素を指定してみましょう。

XPathで指定したい要素があるページに移動し、firebugを起動したら指定した要素を選択し、
選択されている要素を右クリックします。

2016-07-17_23_11_09

「Xpathをコピー」をクリックします。

2016-07-17_23_11_44

すると、クリップボードに下記のようなXpathがコピーされているはずです。

ただ、上の指定の方法だと、上記で選択したh2要素、一つしか指定されないので、タイトルすべてを指定することはできません。そこで少し変更を加えます。

まず上記の指定方法だと長すぎるので短くします。XPathでは「//」を記載することで途中のパスを省略できます。

とりあえずarticle[1]より前は省略しておきましょう。

更にHTMLの構造をよく見てみると、どうやらタイトルが記載されているのはh2タグの中のaタグであることがわかります。
さらにタイトルが記載されているaタグの上にあるh2のクラス名が「post-title」となっているので、クラス名が「post-title」となっているh2の中にあるaタグを指定すればタイトルをすべて抜き出すことができそうです。

なのでXPathは最終的に下記のような形になります。

そして、取り出したa要素のテキストとURLをそれぞれ取り出せば、本記事のプログラムの目的を達成することができます。

今回は少し説明が長くなりすぎました(うまく説明できていないところがあるかもしれないので後々追記するかもしれません)。

また、次回に続きます。

参考書籍

  • このエントリーをはてなブックマークに追加
  • Pocket
  • LINEで送る

SNSでもご購読できます。

コメントを残す

*

CAPTCHA