【超簡単な使い方解説・前編】初心者でもすぐ出来る無料スクレイピングツール「Octoparse」

サバ漢(@sabakan_umashi)です🐟

これは、スクレイピングにとある可能性を見出した1人のサバの物語・・・🐟


「スクレイピング」をあなたはご存知でしょうか?「Web上から必要な情報を取得し、取得した情報を加工する」というのがざっくりとした定義です。

そして最近ではそのスクレイピングを自動で可能にするWebツールがあるのです!


この記事では、そんなWebスクレイピングツールの1つである「Octoparse」の超簡単な使い方について書いておこうと思います。

長くなったので、前編と後編に分けます。前編ではOctoparseの概要と、スクレイピングするのに必要なワークフローを設定する方法について書きます。

後編はコチラ

sabakan-playroom.hatenablog.jp


超簡単な使い方、それはつまり「実際に使ってみること」です。


「スクレイピングって気になるけど、プログラミング勉強したことないし。。。」という方も読んでみて下さい!

プログラミング未経験であっても使えます


実際の使用実例をもとに書いた方が分かりやすいと思うので、実例を交えて書きます。「へえ!こんなものがあるんだ!」、「自分だったらこういう風に使ってみたい!」という気持ちになっていただけたら幸いです。

【Octoparse】プログラミング未経験でも使えるスクレイピングツール

f:id:nukoshogun:20201219141205p:plain

Octoparseは、公式サイトのトップページに書かれている通り誰でもWebスクレイピングが出来てしまうWebツールです。

ダウンロードは下の公式サイトから出来ます。事前にOctoparseの会員登録をしておきましょう。

www.octoparse.jp


Octoparseをダウンロードして起動すると以下の画像のような画面になります。

f:id:nukoshogun:20201219144645p:plain
赤枠内に情報収集したいサイトのURLを入力して右隣にある「抽出開始」をクリックすると、ワークフロー編集の画面に切り替わります。
f:id:nukoshogun:20201211121201p:plain
ワークフローでは、そのサイトでどのような動きをするのか設定します。

Octoparse上でワークフローを設定してから、スクレイピングを開始できます。ワークフローの設定というと難しく感じてしまうかもしれませんが、実際に試してみるとそんなに難しくないです。


実際にワークフローを設定してみて感じたことですが、「自分が特定の情報を集める時の動きを機械に指示する」というのをイメージすると設定がやりやすいかなと思います🤔

次項で、実際に自分が猫ちゃんのニュース記事を集めた時のワークフロー設定方法を紹介します!

実例から見る、Octoparseを使ったスクレイピングの方法~ワークフロー設定~

f:id:nukoshogun:20201221231255p:plain
ニュースでは猫ちゃんの可愛い写真が沢山見れる!

ここでは実際に自分がやったワークフローの設定方法を紹介します。さっきも書いたように、「自分が特定の情報を集める時の動きを機械に指示する」というのをイメージするとやりやすいと思います。

コツを2つ挙げておくと、①人間の動作手順を整理するのと②Octoparse上で実際に動作をしながら設定する、です。

Octoparseのコツ1:人間の動作手順を整理する

nlab.itmedia.co.jp

ここでは「ねとらぼ 生物部」というサイトを例に、そのサイトで猫ちゃんのニュース記事を探すときの動作手順を下に書き出してみます。

①サイト右上にある検索マークをクリックする。
②検索ボックステキストに、「猫」と入力する。
③画面右にある虫メガネマーク(検索)をクリックする。
④検索結果で出てきたニュース記事を見る。

上記のような人間がやる動作を、Octoparseというスクレイピングツールにワークフローとして設定および指示をするのです。

では実際に自分がどのようにワークフローを設定したかを次に書きます。

Octoparseのコツ2:Octoparse上で実際に動作をしながら設定する

f:id:nukoshogun:20201219144645p:plain
まずはホーム画面で情報収集したいサイトのURLを赤枠部に貼り付ける

ホーム画面でURLを貼り付けて「抽出開始」を押すと、以下の画面のようなタブが生成されます。

f:id:nukoshogun:20201222204541p:plain
この時点で「Webページを開く」というワークフローが追加されます。

ここから先は、先ほど整理した動作手順に従い、Octoparse上でサイトを動かします。先ほどの手順をもう一度載せておきます。

①サイト右上にある検索マークをクリックする。
②検索ボックステキストに、「猫」と入力する。
③画面右にある虫メガネマーク(検索)をクリックする。
④検索結果で出てきたニュース記事を見る。

まず「①サイト右上にある検索マークをクリックする。」を実行します。

f:id:nukoshogun:20201222210205p:plain
Octoparse上のサイト内の検索マークをクリックしてみる。

f:id:nukoshogun:20201222210241p:plain
右のようなボックスが出るので、上から2番目の「選択した要素をクリックする」を選択。

f:id:nukoshogun:20201222210725p:plain
すると左側のワークフロー内に「アイテムをクリック」という動作が追加され、Octoparse上のサイトにテキストボックスが出現します。

さて次は、「②検索ボックステキストに「猫」と入力する。」を実行します。

f:id:nukoshogun:20201223200913p:plain
テキストボックスをクリックし、出現したウインドウの「テキストを入力する」を選択する。

f:id:nukoshogun:20201223201211p:plain
次に現れるウインドウ内のテキストボックスに「猫」と入力する。

f:id:nukoshogun:20201223201504p:plain
ワークフローに「テキストを入力」という項目が追加されました。

これで②の行動は完了です。先ほども書いたように、「自分が特定の情報を集める時の動きを機械に指示する」というのがなんとなくイメージ出来てくるのではないでしょうか?


次は、「③画面右にある虫メガネマーク(検索)をクリックする。」を実行します。

f:id:nukoshogun:20201223202512p:plain
文字が入力された状態で虫メガネマークをクリックします。

f:id:nukoshogun:20201223203706p:plain
「選択したボタンをクリックする」を選択します。

f:id:nukoshogun:20201223203851p:plain
ワークフローに「アイテムをクリック1」が追加され、検索結果が現れます(赤枠内)。

おお!ついに猫ちゃんだらけのニュース記事画面が拝めましたね!😊

超簡単な使い方解説・前編のまとめ

ここまで来たら、最後は「④検索結果で出てきたニュース記事を見る。」の実行です。


ただし、長くなってしまったので前編はここまでです。後編では「④検索結果で出てきたニュース記事を見る。」を実行してワークフローを設定後、いよいよスクレイピングに入ります!

ここで、Octoparseのワークフロー設定のコツをもう一度まとめます。

①人間の動作手順を整理する

②Octoparse上で実際に動作をしながら設定する


ここまで読んでみて、「自分も早速試してみたい!」と感じた方も居るのではないでしょうか?

そんな方は下記公式サイトから「無料トライアル」をクリックし、会員登録をして実際にOctoparseを動かしてみてはいかがでしょう?

www.octoparse.jp


更にOctoparseのYouTubeチャンネルがあり、そこではOctoparseの操作方法や活用事例を学ぶことが出来るので合わせて参考に!

www.youtube.com


超簡単なOctoparseの使い方解説・後編はコチラから読めます。

【超簡単な使い方解説・後編】初心者でもすぐ出来る無料スクレイピングツール「Octoparse」 - サバ漢の遊び場兼踏み台


【サバ漢が作った、好きなニュースだけ持ち歩くアプリ】
previewer.adalo.com


【サバ漢のTwitter】
こちらからフォロー⇒サバ漢@ゲーム諸々ごった煮 (@sabakan_umashi) | Twitter