【超簡単な使い方解説・後編】初心者でもすぐ出来る無料スクレイピングツール「Octoparse」

これは、スクレイピングにとある可能性を見出した1人のサバの物語・・・🐟

有名人の不倫とかどうでもいいから、自分の見たいニュースだけ見たいですね🐟

最近知ったけどノーコードでもスクレイピング出来るらしいから、それで猫ちゃんのニュースだけ見ていたいですね🐈

自分からの一工夫で少しでもストレスフリー🆓#NoCode pic.twitter.com/MVy97Zazu5
— サバ漢@ゲーム諸々ごった煮 (@sabakan_umashi) December 3, 2020

「スクレイピング」をあなたはご存知でしょうか？「Web上から必要な情報を取得し、取得した情報を加工する」というのがざっくりとした定義です。

そして最近ではそのスクレイピングを自動で可能にするWebツールがあるのです！

この記事では、そんなWebスクレイピングツールの1つである「Octoparse」の超簡単な使い方について書いておこうと思います。

後編ではOctoparseでスクレイピングするのに必要なワークフローを設定する方法の続きについて書きます。

前編はコチラ。前編ではOctoparseの概要と、スクレイピングするのに必要なワークフローを設定する方法について書いてます。
⇓
sabakan-playroom.hatenablog.jp

超簡単な使い方、それはつまり「実際に使ってみること」です。

「スクレイピングって気になるけど、プログラミング勉強したことないし。。。」という方も読んでみて下さい！

プログラミング未経験であっても使えます。

実際の使用実例をもとに書いた方が分かりやすいと思うので、実例を交えて書きます。「へえ！こんなものがあるんだ！」、「自分だったらこういう風に使ってみたい！」という気持ちになっていただけたら幸いです。

www.octoparse.jp

実例から見る、Octoparseを使ったスクレイピングの方法～ワークフロー設定・続き～
- 【前編のおさらい】Octoparseでスクレイピング～ワークフロー設定～
- Octoparseのワークフロー設定：続き
実例から見る、Octoparseを使ったスクレイピングの方法～データの抽出～
超簡単な使い方解説・後編のまとめ

実例から見る、Octoparseを使ったスクレイピングの方法～ワークフロー設定・続き～

f:id:nukoshogun:20201221231255p:plain — ニュースでは猫ちゃんの可愛い写真が沢山見れる！

【前編のおさらい】Octoparseでスクレイピング～ワークフロー設定～

前編の続きということで、「ねとらぼ生物部」というサイトを例に、そのサイトで猫ちゃんのニュース記事を探すことをやってみます。

nlab.itmedia.co.jp

Octoparseの概要については前編に書いてあるのでそちらを参照してもらうとして、後編ではワークフロー設定の続きを書きます。

前編でも書きましたが、Octoparseのワークフロー設定のコツをもう一度書いておきます。

①人間の動作手順を整理する
②Octoparse上で実際に動作をしながら設定する

ちなみにねとらぼ生物部で猫ちゃんのニュース記事を探す場合は以下の動作手順です。
⇓

①サイト右上にある検索マークをクリックする。
②検索ボックステキストに、「猫」と入力する。
③画面右にある虫メガネマーク(検索)をクリックする。
④検索結果で出てきたニュース記事を見る。

前編では、上の③の手順までワークフロー設定をしました。後編では④から始めます。

Octoparseのワークフロー設定：続き

「④検索結果で出てきたニュース記事を見る」ということですが、ここで思い出して欲しいのは「スクレイピングツールの目的は特定の情報収集であること」です。

なので実際に1記事ずつクリックしてページを開くのではなく、検索結果一覧が表示されているページで必要な情報を集めます。

今回は、「記事タイトル」「記事URL」「記事サムネイル画像」「見出し文」の4種の情報を集めることにします。

f:id:nukoshogun:20201226125131p:plain — 上手くいけば、こんな感じに集められます。

ではまずは、記事タイトルの抽出から。

f:id:nukoshogun:20201224204133p:plain — どれでも良いので、任意の記事タイトルをクリックします。

f:id:nukoshogun:20201224205351p:plain — 「各要素のテキストを抽出する」を選択後、ワークフローに「データを抽出」が追加されます。この状態では、1ページ内にある記事タイトルを自動で抽出してくれる状態です。

上の画像下部の赤枠内のように、フィールド1に記事タイトルが並んでいれば、記事タイトルの自動抽出設定は成功です。

さて次は、記事URLの抽出です。

f:id:nukoshogun:20201224205535p:plain — 記事タイトルの時と同様、2か所のURLをクリックすると自動で選択されます。そしてまた「各要素のテキストを抽出する」を選択します。

f:id:nukoshogun:20201224211819p:plain — すると今度は、フィールド1の隣にフィールド2が作成され、記事URLが並ぶようになります。

次は記事サムネイル画像と見出し文です。ここも同様の流れでOKです。

f:id:nukoshogun:20201224212029p:plain — 画像を2か所クリック後に、「各画像のURLを抽出する」を選択します。

f:id:nukoshogun:20201224212120p:plain — 2か所の見出しをクリックして「各要素のテキストを抽出する」を選択します。

ここまで来たら、画面左にある「データフィールド」というタブをクリックし、「ワークフロー」タブから切り替えてみましょう。

f:id:nukoshogun:20201226130522p:plain — フィールドプレビューからは、抽出する情報の種類が分かる(画像左の青枠)。

画像下の青枠よりフィールド1は「記事タイトル」、フィールド2は「記事URL」、URLは「記事サムネイル画像」、フィールド3は「見出し文」を表します。

こんな感じでワークフローの設定は完了です。完了したら「保存」を押し、いよいよ抽出を「実行」しましょう。

f:id:nukoshogun:20201226131431p:plain

ちなみにワークフロー設定した一連のものは「タスク」と呼ばれ、ダッシュボード内でタスクの一覧を見れます。

f:id:nukoshogun:20201226132242p:plain — タスク名をクリックすればワークフローの設定や対象データの抽出が出来ます。あとはお好みでタスク名を変えましょう。

実例から見る、Octoparseを使ったスクレイピングの方法～データの抽出～

f:id:nukoshogun:20201217204757p:plain

さてここから、いよいよデータ抽出をやります。

f:id:nukoshogun:20201226131431p:plain — 実行をクリック

f:id:nukoshogun:20201226134431p:plain — 無料で出来るのは「ローカル抽出」のみです。抽出したファイルを自身のPC上に保存できます。

ローカル抽出を選択すると自動で抽出が始まります。

f:id:nukoshogun:20201226135815p:plain — 自分が設定したワークフロー通りにOctoparseが動いてくれます。

そして、抽出が終わると以下のような画面になります。

f:id:nukoshogun:20201226140303p:plain — ここで「データをエクスポート」をクリックしましょう。

f:id:nukoshogun:20201226140957p:plain — 後はファイル形式を選択し、任意の場所に保存すればデータ抽出完了です。

f:id:nukoshogun:20201226141006p:plain — 後はファイル形式を選択し、任意の場所に保存すればデータ抽出完了です。

画面見て気づいた方も居ると思いますが、CSVかExcelファイルを読み込めるソフトが必要です。

そして実際に開いてみると以下のような感じです。

f:id:nukoshogun:20201226142101p:plain — 選択した種類の情報がデータとして収集されています。

後は自身の好きなように活用しましょう。私は自分で作ったアプリに情報を入れて、猫ちゃんだらけのニュースサイトにしています（笑）

【サバ漢の手作りアプリ🐟】

猫ちゃんのニュース記事を補填して、明日も電車内で眺めて癒されようと思います🐟

自分の好きな記事を集めるて保管するアプリを作ってみました。
⇓https://t.co/tzLGhuywX1 #NoCode #Adalo pic.twitter.com/c7J7zPfHBq
— サバ漢@ゲーム諸々ごった煮 (@sabakan_umashi) December 23, 2020