こんにちは、認定クリエイターの中野です!
今回は Google スプレッドシートでスクレイピングする方法を紹介していきます。
ゼロから始めるプログラミング
スモールステップで Python を基礎から学べる、初学者の方向けの講座です。演習問題を通して Python の使い方を理解し、データ分析や機械学習実装のための基礎を身につけることを目指します。
Google スプレッドシートにおけるスクレイピングの特徴
本来スクレイピングでデータ収集を行うには、プログラミングの知識が必要になります。
しかし、Google スプレッドシートを用いれば、特定の関数を使用するだけで簡単にデータ収集ができます。
Google スプレッドシートでスクレイピングを行うメリットは以下 3 つです。
- コードを書かず、データ収集が可能
- 環境構築も殆ど不要
- しかも無料
一方で、以下のようなデメリットが挙げられます。
- ボタンを押すなどの UI 操作ができない
- 高度なデータ収集には限度がある
今回は IMPORTXML
関数(使い方は後述)を用いて、Google スプレッドシートでスクレイピングする方法を紹介します。
Google スプレッドシートで Web ページの情報を抽出する方法
今回は、Web ページからタイトルを抽出してみましょう。全体像は以下の通りです。
それぞれ具体的に、見てみましょう。
STEP.1: Google スプレッドシートを開く
まず Google Drive を開いてください。
次に左上にある「新規」をクリックし、 Google スプレッドシートを開きましょう。下図のようになれば、成功です。
STEP.2: Web サイトから抽出したい情報の XPATH を取得する
情報を抽出したい Web サイトを開きます。今回は キカガクのブログサイト から情報を抽出しましょう。
Web サイト上で右クリックして「検証」を押してください。
すると、下図のように検証パネルが出てきます。
今回はキャリア形成を支援する転職サポートを開始!
という言葉を抽出しましょう。
そのために、キャリア形成を支援する転職サポートを開始!
の XPATH を取得する必要があります。
XPATH とは、Web ページの様々な要素を表す住所のようなものです。XPATH を取得する理由は Google スプレッドシートでデータを収集する際に必要になるからです。
キャリア形成を支援する転職サポートを開始!
の XPATH を取得するためにはセレクタを有効にします。方法は下図に示したボタンを押してください。
そして キャリア形成を支援する転職サポートを開始!
の部分を押しましょう。
次に、下図に従って 1
の部分を右クリック、「Copy」そして「Copy XPATH」を押しましょう。以上で XPATH をコピーできました!
STEP.3: データを取得する
まず、コピーした XPATH を Google スプレッドシートに張りつけましょう。
次に、Web サイトの URL をコピーして、スプレッドシートにペーストしてください。
次に、Google スプレッドシートに IMPORTXML 関数 を入力しましょう。
IMPORTXML
関数の引数は、URL
と XPATH
です。IMPORTXML(URL, XPATH)
をセルに入力して使います。
下図のように キャリア形成を支援する転職サポートを開始!
と結果が表示されれば、スクレイピング成功です!
最後に
以上です。本記事は Google スプレッドシートを用いたスクレイピングの方法を紹介しました。
Google スプレッドシートを用いれば、簡単に、しかも無料でスクレイピングができます。また応用すれば、さらに実践的なデータ収集を行うことも可能です。
ぜひ色々試してみてください!
まずは無料で学びたい方・最速で学びたい方へ
まずは無料で学びたい方: Python&機械学習入門コースがおすすめ
AI・機械学習を学び始めるならまずはここから!経産省の Web サイトでも紹介されているわかりやすいと評判の Python&機械学習入門コースが無料で受けられます!
さらにステップアップした脱ブラックボックスコースや、IT パスポートをはじめとした資格取得を目指すコースもなんと無料です!
最速で学びたい方:キカガクの長期コースがおすすめ
続々と転職・キャリアアップに成功中!受講生ファーストのサポートが人気のポイントです!
AI・機械学習・データサイエンスといえばキカガク!
非常に需要が高まっている最先端スキルを「今のうちに」習得しませんか?
無料説明会を週 2 開催しています。毎月受講生の定員がございますので確認はお早めに!
- 国も企業も育成に力を入れている先端 IT 人材とは
- キカガクの研修実績
- 長期コースでの学び方、できるようになること
- 料金・給付金について
- 質疑応答
ゼロから始めるプログラミング
スモールステップで Python を基礎から学べる、初学者の方向けの講座です。演習問題を通して Python の使い方を理解し、データ分析や機械学習実装のための基礎を身につけることを目指します。