【超簡単な使い方解説・後編】初心者でもすぐ出来る無料スクレイピングツール「Octoparse」

サバ漢(@sabakan_umashi)です🐟

これは、スクレイピングにとある可能性を見出した1人のサバの物語・・・🐟


「スクレイピング」をあなたはご存知でしょうか?「Web上から必要な情報を取得し、取得した情報を加工する」というのがざっくりとした定義です。

そして最近ではそのスクレイピングを自動で可能にするWebツールがあるのです!


この記事では、そんなWebスクレイピングツールの1つである「Octoparse」の超簡単な使い方について書いておこうと思います。

後編ではOctoparseでスクレイピングするのに必要なワークフローを設定する方法の続きについて書きます。


前編はコチラ。前編ではOctoparseの概要と、スクレイピングするのに必要なワークフローを設定する方法について書いてます。

sabakan-playroom.hatenablog.jp


超簡単な使い方、それはつまり「実際に使ってみること」です。

「スクレイピングって気になるけど、プログラミング勉強したことないし。。。」という方も読んでみて下さい!

プログラミング未経験であっても使えます


実際の使用実例をもとに書いた方が分かりやすいと思うので、実例を交えて書きます。「へえ!こんなものがあるんだ!」、「自分だったらこういう風に使ってみたい!」という気持ちになっていただけたら幸いです。

www.octoparse.jp

実例から見る、Octoparseを使ったスクレイピングの方法~ワークフロー設定・続き~

f:id:nukoshogun:20201221231255p:plain
ニュースでは猫ちゃんの可愛い写真が沢山見れる!

【前編のおさらい】Octoparseでスクレイピング~ワークフロー設定~

前編の続きということで、「ねとらぼ 生物部」というサイトを例に、そのサイトで猫ちゃんのニュース記事を探すことをやってみます。

nlab.itmedia.co.jp


Octoparseの概要については前編に書いてあるのでそちらを参照してもらうとして、後編ではワークフロー設定の続きを書きます。


前編でも書きましたが、Octoparseのワークフロー設定のコツをもう一度書いておきます。

①人間の動作手順を整理する

②Octoparse上で実際に動作をしながら設定する


ちなみにねとらぼ 生物部で猫ちゃんのニュース記事を探す場合は以下の動作手順です。

①サイト右上にある検索マークをクリックする。
②検索ボックステキストに、「猫」と入力する。
③画面右にある虫メガネマーク(検索)をクリックする。
④検索結果で出てきたニュース記事を見る。

前編では、上の③の手順までワークフロー設定をしました。後編では④から始めます。

Octoparseのワークフロー設定:続き

「④検索結果で出てきたニュース記事を見る」ということですが、ここで思い出して欲しいのは「スクレイピングツールの目的は特定の情報収集であること」です。

なので実際に1記事ずつクリックしてページを開くのではなく、検索結果一覧が表示されているページで必要な情報を集めます。


今回は、「記事タイトル」「記事URL」「記事サムネイル画像」「見出し文」の4種の情報を集めることにします。

f:id:nukoshogun:20201226125131p:plain
上手くいけば、こんな感じに集められます。


ではまずは、記事タイトルの抽出から。

f:id:nukoshogun:20201224204133p:plain
どれでも良いので、任意の記事タイトルをクリックします。
f:id:nukoshogun:20201224205351p:plain
「各要素のテキストを抽出する」を選択後、ワークフローに「データを抽出」が追加されます。この状態では、1ページ内にある記事タイトルを自動で抽出してくれる状態です。

上の画像下部の赤枠内のように、フィールド1に記事タイトルが並んでいれば、記事タイトルの自動抽出設定は成功です。

さて次は、記事URLの抽出です。

f:id:nukoshogun:20201224205535p:plain
記事タイトルの時と同様、2か所のURLをクリックすると自動で選択されます。そしてまた「各要素のテキストを抽出する」を選択します。
f:id:nukoshogun:20201224211819p:plain
すると今度は、フィールド1の隣にフィールド2が作成され、記事URLが並ぶようになります。

次は記事サムネイル画像と見出し文です。ここも同様の流れでOKです。

f:id:nukoshogun:20201224212029p:plain
画像を2か所クリック後に、「各画像のURLを抽出する」を選択します。
f:id:nukoshogun:20201224212120p:plain
2か所の見出しをクリックして「各要素のテキストを抽出する」を選択します。


ここまで来たら、画面左にある「データフィールド」というタブをクリックし、「ワークフロー」タブから切り替えてみましょう。

f:id:nukoshogun:20201226130522p:plain
フィールドプレビューからは、抽出する情報の種類が分かる(画像左の青枠)。

画像下の青枠よりフィールド1は「記事タイトル」、フィールド2は「記事URL」、URLは「記事サムネイル画像」、フィールド3は「見出し文」を表します。


こんな感じでワークフローの設定は完了です。完了したら「保存」を押し、いよいよ抽出を「実行」しましょう。

f:id:nukoshogun:20201226131431p:plain


ちなみにワークフロー設定した一連のものは「タスク」と呼ばれ、ダッシュボード内でタスクの一覧を見れます。

f:id:nukoshogun:20201226132242p:plain
タスク名をクリックすればワークフローの設定や対象データの抽出が出来ます。あとはお好みでタスク名を変えましょう。

実例から見る、Octoparseを使ったスクレイピングの方法~データの抽出~

f:id:nukoshogun:20201217204757p:plain

さてここから、いよいよデータ抽出をやります。

f:id:nukoshogun:20201226131431p:plain
実行をクリック
f:id:nukoshogun:20201226134431p:plain
無料で出来るのは「ローカル抽出」のみです。抽出したファイルを自身のPC上に保存できます。


ローカル抽出を選択すると自動で抽出が始まります。

f:id:nukoshogun:20201226135815p:plain
自分が設定したワークフロー通りにOctoparseが動いてくれます。

そして、抽出が終わると以下のような画面になります。

f:id:nukoshogun:20201226140303p:plain
ここで「データをエクスポート」をクリックしましょう。
f:id:nukoshogun:20201226140957p:plainf:id:nukoshogun:20201226141006p:plain
後はファイル形式を選択し、任意の場所に保存すればデータ抽出完了です。

画面見て気づいた方も居ると思いますが、CSVかExcelファイルを読み込めるソフトが必要です。


そして実際に開いてみると以下のような感じです。

f:id:nukoshogun:20201226142101p:plain
選択した種類の情報がデータとして収集されています。


後は自身の好きなように活用しましょう。私は自分で作ったアプリに情報を入れて、猫ちゃんだらけのニュースサイトにしています(笑)

超簡単な使い方解説・後編のまとめ

以上が、Octoparseの一連の使い方です。いかがだったでしょうか?

出来るだけ細かく書いたので「ながっ!?」と感じたかもしれませんが、実際に自分で流れに沿ってやってみると「あっ、こんなもんか。」と思うことでしょう。


興味が湧いた方は、下記公式サイトから「無料トライアル」をクリックし、会員登録をして実際にOctoparseを動かしてみてはいかがでしょう?

www.octoparse.jp


更にOctoparseのYouTubeチャンネルがあり、そこではOctoparseの操作方法や活用事例を学ぶことが出来るので合わせて参考に!

今回前編と後編で紹介した使い方以外にもOctoparseは用途が色々あるようなので、ここから先は是非ご自身でお試しください。

www.youtube.com


Octoparseの超簡単な使い方解説・前編はコチラ

【超簡単な使い方解説・前編】初心者でもすぐ出来る無料スクレイピングツール「Octoparse」 - サバ漢の遊び場兼踏み台


【サバ漢が作った、好きなニュースだけ持ち歩くアプリ】
previewer.adalo.com


【サバ漢のTwitter】
こちらからフォロー⇒サバ漢@ゲーム諸々ごった煮 (@sabakan_umashi) | Twitter