
こんにちは。認定クリエイターの martina. です!
みなさんはスクレイピングというIT 用語をご存知でしょうか?
簡単に説明すると web ページから必要な情報を自動で収集することです。
具体的な例をあげると、データ分析や機械学習のため大量のデータがほしいときに、この技術が使われたりしています。また個人的な用途でも、手作業で集めていた画像を自動で集めることができるなど利便性は高いです。
このように便利なスクレイピングなのですが、今まではプログラミングの知識が必要でした。
しかし、今回はプログラミングやコード一切不要でスクレイピングができる Octoparse(読み方:オクトパス)というサービスを紹介します!
今回は無料のフリープランで使える機能を解説しますので、ぜひ参考にしてくださいね。
目次
Octoparse をインストールする手順
上記の流れで解説します。
Octoparse はアカウントが必要になるので、まずアカウントを作ります。
こちらから必要事項を入力し、アカウントを作成しましょう。
こちらからセットアッププログラムをダウンロードしましょう。この記事では、 8.2 Beta で解説します。
ダウンロードが終わったらセットアッププログラムをダブルクリックして、手順に従ってインストールしてください。

ソフトを立ち上げると、上図の画面が表示されます。
先ほど作成したアカウントのユーザー名かメールアドレスと、パスワードを入力してログインしましょう。

上図の画面がでてきたらスクレイピングする準備ができました。早速使ってみましょう。
スクレイピングする手順
上記の流れで解説します。
まずは、スクレイピングしたい web サイトの URL を用意します。

URL を検索ボックスに入力し、「抽出開始」をクリックします。

上図の画面が表示されるので、右側のWeb ページを自動識別するをクリックしましょう。
そうすると自動で Web ページの解析が行われます。

解析が終わると、ページ下部にスクレイピングした情報が表になって並んでいるので、ほしい情報が取得できているか確認しましょう。ほしい情報がとれているので「ワークフローを生成」をクリックします。

ワークフローが生成されたので、「保存して実行する」を押して、スクレイピングを開始しましょう。
ここで、ローカル抽出かクラウド抽出か選択するのですが、フリープランではローカル抽出のみ可能なので、ローカル抽出を選択してください。データがどんどん抽出されていきます!
POINT

表の項目のゴミ箱マークで一括削除、鉛筆マークで項目の名前の編集などができます。ドラッグすると順番を変えることも可能です。
注意
フリープランでは抽出できるデータ数が 10000 件までとなっています。
また、ローカル抽出は、使用しているコンピューターの性能とネットワークの速度によってデータ抽出の速度が変わります。
一方クラウド抽出は、複数のサーバーのクラウド内で実行されるので、ローカル抽出よりも約 6 〜 20 倍高速でデータ抽出が行えます。

スクレイピングが終わったらデータをエクスポートを押して EXCEL CSV HTML JSON ファイルから好きな形式を選び、はいをクリックしてエクスポートしましょう。

エクスポートしたファイルを開くと、上図のようにエクセルなどでデータを扱うことができます。このようにほぼ自動で簡単にデータが集められました!
有料版では、これらの機能に加えて、 Amazon や 楽天などの有名な web サイトを、テンプレートを使って自分で設定することなくスクレイピングできたり、クラウドを使って定期実行ができたりします。
各プランの価格や詳細などは、こちらから確認してみてくださいね。
今回はノーコードでスクレイピングをすることができる Octoparse を紹介しました。
自動解析で簡単にスクレイピングができたのが個人的には驚きました。私はプログラミングが苦手なので、このようなサービスは本当に助かりますね!!
またノーコードで便利なサービスがあれば紹介していこうと思うので、楽しみにしていてくださいね!

弊社では、画像・自然言語の AI モデル構築や、AI 搭載の Web アプリケーション開発が最短最速で学べる講座を運営中です!現在、無料説明会を定期的に開催していますので、気になる方はぜひチェックしてみてください!
SHARE
AI/データサイエンス学びはじめの方におすすめの記事
コース一覧
注目記事
新着記事