
こんにちは、認定クリエイターの中野です!
今回は Google スプレッドシートでスクレイピングする方法を紹介していきます。
目次
本来スクレイピングでデータ収集を行うには、プログラミングの知識が必要になります。
しかし、Google スプレッドシートを用いれば、特定の関数を使用するだけで簡単にデータ収集ができます。
Google スプレッドシートでスクレイピングを行うメリットは以下 3 つです。
メリット
一方で、以下のようなデメリットが挙げられます。
デメリット
今回は IMPORTXML 関数(使い方は後述)を用いて、Google スプレッドシートでスクレイピングする方法を紹介します。
今回は、Web ページからタイトルを抽出してみましょう。全体像は以下の通りです。
それぞれ具体的に、見てみましょう。
まず Google Drive を開いてください。

次に左上にある「新規」をクリックし、 Google スプレッドシートを開きましょう。下図のようになれば、成功です。

情報を抽出したい Web サイトを開きます。今回は キカガクのブログサイト から情報を抽出しましょう。

Web サイト上で右クリックして「検証」を押してください。

すると、下図のように検証パネルが出てきます。

今回はキャリア形成を支援する転職サポートを開始! という言葉を抽出しましょう。
そのために、キャリア形成を支援する転職サポートを開始! の XPATH を取得する必要があります。
XPATH とは、Web ページの様々な要素を表す住所のようなものです。XPATH を取得する理由は Google スプレッドシートでデータを収集する際に必要になるからです。
キャリア形成を支援する転職サポートを開始! の XPATH を取得するためにはセレクタを有効にします。方法は下図に示したボタンを押してください。

そして キャリア形成を支援する転職サポートを開始! の部分を押しましょう。

次に、下図に従って 1 の部分を右クリック、「Copy」そして「Copy XPATH」を押しましょう。以上で XPATH をコピーできました!

まず、コピーした XPATH を Google スプレッドシートに張りつけましょう。

次に、Web サイトの URL をコピーして、スプレッドシートにペーストしてください。

次に、Google スプレッドシートに IMPORTXML 関数 を入力しましょう。
IMPORTXML 関数の引数は、URL と XPATH です。IMPORTXML(URL, XPATH)をセルに入力して使います。
下図のように キャリア形成を支援する転職サポートを開始! と結果が表示されれば、スクレイピング成功です!

以上です。本記事は Google スプレッドシートを用いたスクレイピングの方法を紹介しました。
Google スプレッドシートを用いれば、簡単に、しかも無料でスクレイピングができます。また応用すれば、さらに実践的なデータ収集を行うことも可能です。
ぜひ色々試してみてください!
.jpg&w=3840&q=75)
キカガクの長期コースはプログラミング経験ゼロの初学者が最先端技術を使いこなすAIエンジニアになるためのサポート体制が整っています!
実際に未経験からの転職・キャリアアップに続々と成功中です
まずは無料説明会で、キカガクのサポート体制を確認しにきてください!
説明会ではこんなことをお話します!
.png&w=3840&q=75)
AI・機械学習を学び始めるならまずはここから!経産省の Web サイトでも紹介されているわかりやすいと評判の Python&機械学習入門コースが無料で受けられます!
さらにステップアップした脱ブラックボックスコースや、IT パスポートをはじめとした資格取得を目指すコースもなんと無料です!
SHARE
AI/データサイエンス学びはじめの方におすすめの記事
コース一覧
注目記事
新着記事