サバ漢(@sabakan_umashi)です🐟
これは、スクレイピングにとある可能性を見出した1人のサバの物語・・・🐟
有名人の不倫とかどうでもいいから、自分の見たいニュースだけ見たいですね🐟
— サバ漢@ゲーム諸々ごった煮 (@sabakan_umashi) December 3, 2020
最近知ったけどノーコードでもスクレイピング出来るらしいから、それで猫ちゃんのニュースだけ見ていたいですね🐈
自分からの一工夫で少しでもストレスフリー🆓#NoCode pic.twitter.com/MVy97Zazu5
「スクレイピング」をあなたはご存知でしょうか?「Web上から必要な情報を取得し、取得した情報を加工する」というのがざっくりとした定義です。
そして最近ではそのスクレイピングを自動で可能にするWebツールがあるのです!
この記事では、そんなWebスクレイピングツールの1つである「Octoparse」の超簡単な使い方について書いておこうと思います。
長くなったので、前編と後編に分けます。前編ではOctoparseの概要と、スクレイピングするのに必要なワークフローを設定する方法について書きます。
後編はコチラ
⇓
sabakan-playroom.hatenablog.jp
超簡単な使い方、それはつまり「実際に使ってみること」です。
「スクレイピングって気になるけど、プログラミング勉強したことないし。。。」という方も読んでみて下さい!
プログラミング未経験であっても使えます。
実際の使用実例をもとに書いた方が分かりやすいと思うので、実例を交えて書きます。「へえ!こんなものがあるんだ!」、「自分だったらこういう風に使ってみたい!」という気持ちになっていただけたら幸いです。
【Octoparse】プログラミング未経験でも使えるスクレイピングツール
Octoparseは、公式サイトのトップページに書かれている通り誰でもWebスクレイピングが出来てしまうWebツールです。
ダウンロードは下の公式サイトから出来ます。事前にOctoparseの会員登録をしておきましょう。
⇓
www.octoparse.jp
Octoparseをダウンロードして起動すると以下の画像のような画面になります。
Octoparse上でワークフローを設定してから、スクレイピングを開始できます。ワークフローの設定というと難しく感じてしまうかもしれませんが、実際に試してみるとそんなに難しくないです。
実際にワークフローを設定してみて感じたことですが、「自分が特定の情報を集める時の動きを機械に指示する」というのをイメージすると設定がやりやすいかなと思います🤔
次項で、実際に自分が猫ちゃんのニュース記事を集めた時のワークフロー設定方法を紹介します!
実例から見る、Octoparseを使ったスクレイピングの方法~ワークフロー設定~
ここでは実際に自分がやったワークフローの設定方法を紹介します。さっきも書いたように、「自分が特定の情報を集める時の動きを機械に指示する」というのをイメージするとやりやすいと思います。
コツを2つ挙げておくと、①人間の動作手順を整理するのと②Octoparse上で実際に動作をしながら設定する、です。
Octoparseのコツ1:人間の動作手順を整理する
ここでは「ねとらぼ 生物部」というサイトを例に、そのサイトで猫ちゃんのニュース記事を探すときの動作手順を下に書き出してみます。
①サイト右上にある検索マークをクリックする。
②検索ボックステキストに、「猫」と入力する。
③画面右にある虫メガネマーク(検索)をクリックする。
④検索結果で出てきたニュース記事を見る。
上記のような人間がやる動作を、Octoparseというスクレイピングツールにワークフローとして設定および指示をするのです。
では実際に自分がどのようにワークフローを設定したかを次に書きます。
Octoparseのコツ2:Octoparse上で実際に動作をしながら設定する
ホーム画面でURLを貼り付けて「抽出開始」を押すと、以下の画面のようなタブが生成されます。
ここから先は、先ほど整理した動作手順に従い、Octoparse上でサイトを動かします。先ほどの手順をもう一度載せておきます。
⇓
①サイト右上にある検索マークをクリックする。
②検索ボックステキストに、「猫」と入力する。
③画面右にある虫メガネマーク(検索)をクリックする。
④検索結果で出てきたニュース記事を見る。
まず「①サイト右上にある検索マークをクリックする。」を実行します。
さて次は、「②検索ボックステキストに「猫」と入力する。」を実行します。
これで②の行動は完了です。先ほども書いたように、「自分が特定の情報を集める時の動きを機械に指示する」というのがなんとなくイメージ出来てくるのではないでしょうか?
次は、「③画面右にある虫メガネマーク(検索)をクリックする。」を実行します。
おお!ついに猫ちゃんだらけのニュース記事画面が拝めましたね!😊
超簡単な使い方解説・前編のまとめ
ここまで来たら、最後は「④検索結果で出てきたニュース記事を見る。」の実行です。
ただし、長くなってしまったので前編はここまでです。後編では「④検索結果で出てきたニュース記事を見る。」を実行してワークフローを設定後、いよいよスクレイピングに入ります!
ここで、Octoparseのワークフロー設定のコツをもう一度まとめます。
①人間の動作手順を整理する
②Octoparse上で実際に動作をしながら設定する
ここまで読んでみて、「自分も早速試してみたい!」と感じた方も居るのではないでしょうか?
そんな方は下記公式サイトから「無料トライアル」をクリックし、会員登録をして実際にOctoparseを動かしてみてはいかがでしょう?
⇓
www.octoparse.jp
更にOctoparseのYouTubeチャンネルがあり、そこではOctoparseの操作方法や活用事例を学ぶことが出来るので合わせて参考に!
⇓
www.youtube.com
超簡単なOctoparseの使い方解説・後編はコチラから読めます。
⇓
【超簡単な使い方解説・後編】初心者でもすぐ出来る無料スクレイピングツール「Octoparse」 - サバ漢の遊び場兼踏み台
【サバ漢が作った、好きなニュースだけ持ち歩くアプリ】
previewer.adalo.com
【サバ漢のTwitter】
こちらからフォロー⇒サバ漢@ゲーム諸々ごった煮 (@sabakan_umashi) | Twitter