こんにちは!株式会社キカガク デジタルマーケターの中島です!
近年「生成AI」という言葉をよく耳にしますよね。最近になってよく聞くようになったワードだからこそ、次のような疑問をお持ちの方も多いのではないでしょうか?
- 生成AI って普通の AI と何が違うの?
- 生成AI にはどんな種類があるのだろう?
- 生成AI をうまく使いこなすには、どう学んでいけば良いのだろう?
この記事では、主要な生成AI の種類と特徴や、これらのツールを使いこなすための学習方法についてやさしく解説しています。
そのため、上記のような疑問をお持ちの方には、必ず参考になる記事となっています。ぜひ最後までご確認ください!
生成AI(ジェネレーティブAI)とは?
生成AI(ジェネレーティブAI)とは、コンピュータが学習したデータを元に、テキストや画像などのコンテンツを生成する技術です。
最近では、OpenAI 社の動画生成AI「Sora」が話題を集めるなど、動画分野への活用も進んでいます。
生成AI の仕組み
生成AI のベースとなる技術は、ディープラーニングによって大量のデータを分析し、その中からパターンや規則性を学習することで、新しいコンテンツを生成しています。そのため「生成AI(Generative AI)」と呼ばれているのです。
このプロセスは、人間が経験や観察から新しいアイデアを生み出すのに似ていますが、生成AI はあくまで数学的なアルゴリズムと大量のデータを用いてパターンや規則性を学習しています。
従来の AI と「生成AI」の違い
従来の AI は、基本的に特定の課題を解決するのに特化した設計がされています。
例えば機械学習を用いて天気予報を行う場合、「決定木」などの技術を用いて気温や湿度などのデータから「晴れ」や「雨」といった天気を予測します。
このように従来の AI は、あらかじめ定義されたルールやパターンに基づいて動作するため、その応用範囲は比較的限定されています。
一方で、生成AI は、データをもとに新しいコンテンツを「生成」することに特化しています。例えば、ユーザーが与えたプロンプトから文章を作成したり、画像を生成したりします。従来の AI が「分析・判断」に重点を置くのに対し、生成AI は「創造・生成」に重点を置いているのが最も大きな違いと言えるでしょう。
生成AIの種類①:テキスト生成AI
テキスト生成AI は、生成AI のなかでも特に注目を集めている分野であるといえます。
大量のテキストデータを学習することで、新しい文章や会話への応答を生成できます。自然言語処理(NLP)の技術を活用し、人間が書いたような自然な文章の生成が可能です。
特に「Transformer」というモデルは自然言語処理に大きなインパクトを与えました。
ChatGPT などもこの Transformer をベースに構築されており、人間に近い文章生成や質問応答ができるようになったという点において大きく貢献しています。
テキスト生成AI の主な活用例
テキスト生成AI は、与えられたプロンプトや関連するデータに基づいて文章を自動的に生成できることから、ブログなどのコンテンツ制作の効率化が図れます。
その他にもプログラムのコード生成などを行なうことが可能であり、「0 からコードを書くことが少なくなった」というエンジニアの方からの声も最近よく聞きます。
また、チャットボットやカスタマーサポートの自動化にも活用できます。テキスト生成AI を用いることで、自然な会話ができるチャットボットを開発し、顧客からの問い合わせに 24 時間 365 日対応することが可能になります。
弊社の「DX を推進する AI ・データサイエンス人材育成コース」でも活用されており、受講生の疑問に対してチャットボットが講師の代わりに回答するなどのサポートをしてくれています!
チャットボットでの回答が難しい部分は、講師や他の受講生からの回答があったり、講師との 1on1 などで疑問点の解消ができます。
次に、代表的なテキスト生成AI についてその特徴とともにご紹介します!
ChatGPT
【特徴】
- Open AI 社が開発
- 話題性 No.1
- 非常に高い対話能力と幅広い応用性
- 自分の使い勝手のいいようにカスタマイズできる GPTs
ChatGPT は、OpenAI 社によって開発された対話型のテキスト生成AIです。
もはや「AI = ChatGPT」というような認識を持っている方も多いのでは?というほどに有名なテキスト生成AI です。
人間のように流暢な自然言語を生成し、さまざまな質問に答えたり、テキストベースのタスクを実行できる能力を持っています。2022 年 11 月のリリース以降、その対話能力と幅広い応用性から大きな注目を集めています。
ChatGPT には無料版と有料版が用意されており、OpenAI のウェブサイトやスマートフォンアプリから利用可能です。API を通じて自社サービスへの組み込みなども提供されています。
定期的なアップデートによって機能性が拡張されており、そのたびに大きな話題を呼んでいます。
2023 年 11 月には、「OpenAI DevDay」という開発者向けのカンファレンスが開催されました。自分の使い勝手のいいようにカスタマイズできる「GPTs」や、画像生成AI「DALL-E 3」との連携が大きな話題を呼びましたね。
ChatGPT の開発は、AI と自然言語処理の分野における技術進化の中心的存在となっています。今後も、教育・プログラミング・コンテンツ作成など多岐にわたる分野でのさらなる応用が期待されています。
Edge Copilot
【特徴】
- Microsoft 社が開発
- Microsoft Edge ブラウザの Bing チャットから無料で利用可能
- ベースは GPT 4 であり、画像生成AI の DALL-E 3 も利用できる
Microsoft Edge ブラウザから利用可能な Edge Copilot は、Microsoft 365 Copilot の一部として検索エンジン Bing に搭載されました。
ユーザーのウェブ検索や、作業効率化のサポートをする目的で開発されたチャット形式のテキスト生成AI です。
ウェブサイトにアクセスして内容を要約したり、ユーザーの質問に回答したり、といった処理が可能です。これにより、ブラウジング体験が大幅に改善され、情報収集やコンテンツ作成などのタスクをより効率的化できます。
また Edge Copilot は、Edge ブラウザのユーザーであれば無料で利用可能です。しかも GPT4 を搭載しているため、Edge Copilot 内で画像生成AI「DALL-E 3」の利用も可能です。1 会話でのやり取りが 30 回までという制限はありますが、有料版の ChatGPT を試してみたいという方にもおすすめです。
Gemini
【特徴】
- Google 社が開発
- 前身の「Bard」から進化して画像生成や音声認識なども可能に
- Google 製品との連携が期待されている
Google によって開発され、前身の「Bard」というテキスト生成AI モデルから大きく進化したことで話題になったのが Gemini です。
Gemini は、テキストとコードの生成のみであった Bard に対し、画像生成や音声認識なども可能になりました。これにより、高い精度でユーザーへの回答や提案を行なうことができます。
また、Google Cloud Platform(GCP) 上でも Gemini が利用可能となりました。
Gemini が GCP の一部として提供されることで、Google のインフラストラクチャを通じ、データ分析や予測、画像生成などの高度な AI 機能が利用しやすくなります。
Bard でも拡張機能を利用することで、Gmail、Google Drive、Google Map といったツールとの連携は可能でした。
Gemini においても、さまざまなツールとの連携という点で今後に大きな期待が持てますね!
Claude
【特徴】
- Anthropic 社が開発
- 人間が書いた文章に近く、いわゆる「AI っぽさ」が少ない
- 長文や容量の大きなデータの処理が得意
Claude(クロード)は、Anthropic 社によって開発された大規模言語モデル(LLM)をベースとした AI チャットボットです。
Claude の設計では AI の安全性を最優先に考えており、「有用で、無害で、誠実」な対話を目指していると言われています。
個人的には、人間が書いた文章に近く「AI っぽさ」が少ないと感じています。
他社のプロダクトと比較し、より倫理的で責任ある AI を目指して開発されたという点が特徴的です。
また、入力可能なトークン(テキスト処理の単位)は 100 万を超え、長文や容量の大きなデータの処理が得意という特徴もあります。
これにより、大規模なデータセットを扱う際に優れたパフォーマンスを発揮します。ChatGPT や Gemini と比較しても、より広範囲のデータを効率的に処理できると言われています。
まとめると、ChatGPT は対話型の AI として高い人気を誇り、Gemini は画像や音声の理解にも優れ、Claude は安全性と倫理性を重視しているなど「テキスト生成AI」といってもそれぞれに固有の強みがあります。ぜひ一度触れてみてくださいね。
生成AIの種類②:画像生成AI
画像生成AI は、テキストによる指示やプロンプトをもとに、全く新しい画像を生成できます。
これらは、膨大な量の画像データを学習することで、指定されたスタイルや要素を組み合わせた画像を作り出します。代表的な画像生成AI としては DALL-E(ダリ)、Stable Diffusion、Midjourney(ミッドジャーニー)などがあります。
画像生成AIの主な活用例
画像生成AI には、主に以下の様な活用例があります。
- イラストレーション:画像生成AI を使うことで、オリジナルのイラストやアートワークを短時間で作成できます。画像生成AI を用いて作成された漫画なども最近はよく見るようになりましたね。
- デザイン:ロゴ、アイコン、ウェブサイトのデザインなども画像生成AI の得意分野です!さまざまなデザイン作業に活用できます。
- 製品開発:プロンプトで詳細に指示を出すことにより、新製品のコンセプト画像の作成に役立ちます。Turing 社が Stable Diffusion を活用してデザインしたコンセプトカーの画像を公開した際には話題になりました。
画像生成AI は、VAE(変分オートエンコーダ)、CNN(畳み込みニューラルネットワーク)、GAN(敵対的生成ネットワーク)と呼ばれる手法を用いて、高品質でリアルな画像を生成できるよう設計されています。
このような技術に関しては、こちらの記事で詳しく解説しているので、ぜひご覧ください!
次に、代表的な画像生成AI についてその特徴とともにご紹介します!
DALL-E
【特徴】
- ChatGPT の OpenAI 社が開発
- テキストからリアルな画像を生成できる
- ChatGPT 内で利用可能
- Edge Copilot から無料で試すことができる
OpenAI が開発したDALL-Eは、テキストからリアルな画像を生成できる画像生成AIです。こちらの入力したプロンプトや指示文から概念やスタイルを読み取り、オリジナルかつ高解像度な画像生成が可能です。
ChatGPT 内で「◯◯の画像を生成してください。」のように指示することで、最新版の DALL-E 3 を呼び出すことができます。
そのため、ChatGPT をすでに利用しているユーザーにとっては最も身近な画像生成AIであるとも言えます。
上記の画像は 15 秒ほどで生成されました。有料版の ChatGPT Plus 以上のプランから利用でき、API 連携にも対応しています。無料で利用できる Edge Copilot からも利用できるため、ぜひ一度その威力を試してみてください!
Stable Diffusion
【特徴】
- Stability AI 社が開発
- 生成だけでなく、画像の部分修正や拡張も可能
- 高画質かつ法的に低リスクな画像が生成できる
Stability AI 社が開発する Stable Diffusion は、テキストから高品質な画像を生成する AI モデルです。2022 年にリリースされ、ものすごい勢いで普及していきました。最新の Stable Diffusion 3 は、言語と画像の理解力が大幅に向上し、高解像度画像を高速で生成できます。
機能としては、画像の生成だけにとどまらず、様々な操作が可能です。
例えば、Inpaint という機能を使えば、画像を読み込んで部分修正ができます。さらに、Outpainting という機能を使うことで、画像の拡張なども行なえる点が特徴的です。
Stable Diffusion は、ウェブスクレイピングによって収集された、5 億組の画像とテキストのペアからなる LAION-5B と呼ばれるデータセットを用いて学習がなされました。
トレーニングには、高解像度の画像やウォーターマークの少ない画像を選んで学習させたため、高画質で低リスクな画像が生成できるという点も特徴的です。
Stable Diffusion の実際の使い方は、こちらの記事で詳しく解説していますので、ぜひご覧ください!
Midjourney
【特徴】
- 独立研究所の Midjourney, Inc. が開発
- Discord から利用する(ヘビーユーザー除く)
- 人間の生成が非常にリアル
- 著作権問題で過去に訴訟もあり、利用には注意が必要
Midjourney は、自然言語の説明からオリジナルの画像を生成する AI プログラムです。独立研究所の Midjourney, Inc. が開発し、2022 年 7 月からオープンベータ版が公開されています。
以前は Midjourney も無料版が用意されていました。
しかし、利用者増加とともにサーバーへの負荷や、不正利用が行われたことが原因で現在は有料版のみとなっています。
元来 Midjourney は、独立したアプリケーションとしての利用ができませんでした。Discord というチャットツールからアクセスし、画像生成モデルを利用するという仕様でしたが、2023 年 12 月より Web アプリの提供が開始されました。
しかし、2024 年 3 月現在、『過去に Midjourney 内で 1000 枚以上の画像を生成した』という条件が必要となり、はじめて触れる方にとってはハードルの高い条件となっています。
こちらのツイートのように、Midjourney はリアルな人間の画像を生成することが得意で、実際の人物との区別がつかないほどに精度の高い画像を生成できます。ただし、こちらのツイートでは交通事故に遭う瞬間のように見える描写が生成されてしまっていますね(笑)
しかし、Midjourney の利用には注意も必要です。
Midjourney も Stable Diffusion と同じように、インターネット上に公開された画像を教師データとして利用しています。
しかし、著作権で保護された画像の使用について同意を得ていない可能性が指摘されており、法的および倫理的な問題が提起されています。
ご利用の際には十分に注意しましょう。
生成AIの種類③:動画生成AI
動画生成AI は、テキストや画像の入力をもとに、オリジナルの動画コンテンツを生成できます。
これらは、大量の動画データを学習することで、自然な動きや表情、シーンの移動などを生成し、リアルな動画を作成します。
動画生成AI の代表的な例としては、Runway Gen-2、Stable Video Diffusion、Sora などがあります。
動画生成AIの主な活用例
動画生成AIには、主に以下の様な活用例があります。
- 教育コンテンツ:教育目的の動画コンテンツを効率的に作成し、学習者にわかりやすい教材を提供することなども期待されています。
- コンテンツマーケティング:動画マーケティングが活発な現代において、商品やサービスの宣伝動画を自動生成することで、制作コストを削減できます。
- ニュース動画:ニュース記事から自動的に動画を生成し、視聴者に情報をわかりやすく伝えることができるなど、報道の分野でも注目されています。
- アニメーション制作:アニメーションのキーフレームを自動生成することで、制作工程を効率化できます。こちらでは、動画生成AI を導入してコンテンツ制作を行なう双子アニメ TikToker「ひなひま」について紹介されています。
Runway Gen-2
【特徴】
- Runway 社が開発
- テキストプロンプトのみからの動画の生成も可能
- 芸術家によって設計された動画生成AI
Runway 社が開発する Gen-2 は、テキストや画像から新しい動画を生成できます。
Gen-2 は「イメージまたはテキストプロンプトの構成とスタイルをソースビデオの構造に適用することにより、新しいビデオをリアルに、一貫して合成できる」と言われています。
また、テキストプロンプトのみから映像の生成も可能です。
実際に Gen-2 を使ってみました。
今回は、サッカーをしている男性の画像と、「中央の男性がサッカー ボールを蹴る動画を生成してください。」という旨のプロンプトを入力してみました。
Generate a video of the man in the center kicking a soccer ball.
多少の違和感はありますが、一枚の画像から 4 秒の動画へと拡張してくれているのがわかります。
生成されたビデオはダウンロードや保存が可能で、商業的な使用も許可されています。料金は生成されたビデオの秒数に応じて課金されますが、上記のように 4 秒間の動画であればお試しでの生成ができます。
Runway Gen-2 は、芸術家によって設立され「AI の創造的可能性を誰もが利用できるようにすること」を目指して開発されているそうです。
Stable Video Diffusion
【特徴】
- 画像生成AI の Stable Diffusion を開発する Stability AI 社が開発
- サンプル画像から動画の生成が可能
- 非商用コミュニティライセンスの下で利用可能
Stable Video Diffusion は、Stable Diffusion を開発する Stability AI 社によって開発された動画生成モデルであり、画像から動画の生成ができます。
こちらは、実際に Stable Video Diffusion の利用方法を解説した記事です。
キカガクの機械学習講師の中でも特に画像処理専門のエキスパートが制作した記事になりますので、とてもわかりやすく解説されています。
動画生成に興味のある方はぜひご確認ください!
また、Stable Video Diffusion の Web アプリケーションサイトにアクセスすると、いくつかサンプルの画像を使用できます。
今回は少女の背景で火事が起こっている状況の写真を利用してみました。
こちらも、1 枚の画像の入力から、不敵な笑みを浮かべる少女の映像へと変換することができましたね!
Stable Video Diffusion は、ライセンスの条項と利用規約に従ったうえで、個人の学習や研究目的など、非商業的な用途であれば誰でも自由に利用できます。また、このモデルのパラメータの値も自由に設定できます。
Sora
【特徴】
- ChatGPT の OpenAI 社が開発
- サービス提供前から大きな話題を呼んだ
OpenAI 社が開発する動画生成AI Sora は、テキストからリアルで複雑な動画を生成できると話題になっています。
しかし、日本でのサービス提供はまだされておらず(2024 年 3 月時点)心待ちにしているユーザーも多いのではないでしょうか?私もその 1 人です!
Sora は、詳細なシーンや感情を表現できるキャラクターの生成を特徴としています。
しかし、安全対策が整うまではリリースされない見込みのようです。
OpenAI の公式 X を見てみると、いくつか Sora で生成された動画を確認できます。
これ以外にもいくつかサンプルがありますので、気になる方はぜひ見てみてください!
生成AI を活用する際の注意事項
ここまでさまざまな種類の生成AI を紹介してきましたが、実際に活用する際にはいくつかの注意点があります。
以下に記載する注意点を理解し、適切な対策を講じることで、生成AI を安全かつ効果的に活用できます。
生成された情報の信憑性
生成AI によって作成された情報やコンテンツは、常に 100% 正確とは限りません。
生成AI は、あくまで学習データに基づいて情報を生成しています。そのため、データに偏りやエラーがある場合、生成された情報にも不正確な部分を含む可能性があります。
そのため、生成AI によるアウトプットは必ず人間が確認し、事実関係を検証することが非常に重要となります。
特に、重要な意思決定やビジネス上の判断に生成AI を活用する場合は、慎重に情報の信憑性を吟味する必要があります。
著作権の問題
生成AI によって作成されたコンテンツの著作権については、まだ明確な法的基準が整備されていません。
AI が生成した文章や画像が、学習データに含まれる既存の著作物と類似している場合、著作権侵害の問題が生じる可能性があります。
また、生成AI を使って作成されたコンテンツの所有権や利用権限についても、ケースバイケースで判断が必要になります。生成AI を活用する際は、著作権法に関する最新の動向を注視し、適切に対応していくことが求められます。
情報漏洩やセキュリティ上の懸念
生成AI を利用する際には、情報漏洩やセキュリティ上の懸念にも注意が必要です。
AI モデルの学習データには、機密情報や個人情報が含まれている場合があります。
これらの情報が意図せずに生成されたコンテンツに現れたり、AI システムから流出したりするリスクがあります。
また、AI システムへの不正アクセスや攻撃によって、データが盗まれたり、システムが悪用されたりする可能性もあります。生成AI を導入する際は、適切なセキュリティ対策を講じ、データ管理を徹底することが不可欠です。
生成AI を使いこなすための学習方法
今回の記事では、さまざまな生成AI を紹介してきました。生成AI の活用は今後のビジネスにおいてスタンダードになることは間違いないと感じた方も多いのではないでしょうか?
一方で、生成AI を効果的に活用するためには、適切な方法で学ぶ必要があります。
しっかりと学ぶ機会がないまま生成AI に触れ、思ったようなアウトプットが得られない、といったケースはよく耳にします。
生成AI の性能を十分に引き出し活用していくために、正しい学習方法で学んでいきましょう!
まずは触れてみる
生成AI を学ぶ上でまず実践していただきたいのが、実際にツールに触れて体験してみるということです。
まずは ChatGPT や Claude などの対話型AI を使って、短い文章の生成を試してみましょう。
また、DALL-E のような画像生成AI を使って、簡単な画像生成にチャレンジしてみるのもおすすめです。
便利な生成AI も決して万能ではありません。実際に生成AI を使ってみることで、その能力と限界を肌で感じられます。
また、AI とのやり取りを通じて、どのようなタスクに生成AI が適しているのかもだんだんと理解できるようになっていきます。
このようなツールは、「最初に触れてみる」というハードルが最も高いです。
一度使ってみてどんなツールなのかを早めに知っておくことで、その後の学習効率の向上に繋がります。
プロンプトの入力方法を学ぶ
生成AI を使いこなすためには、適切なプロンプト入力が命と言っても過言ではありません!
プロンプト力を上げることで、生成されるコンテンツの品質が向上したり、意図した結果に近づけることが可能です。
プロンプトを入力する際に意識すべき点をご紹介します。
- 明確で具体的なプロンプト:曖昧な表現や短すぎるプロンプトは、AI にとって解釈が難しく、意図しない結果につながる可能性があります。タスクの目的や期待する出力を明確に伝えるよう意識しましょう!
- 正確な文脈や順序:関連する情報を適切な順序で提供することで、AI がより正確に文脈を理解し、アウトプットをユーザーの求める結果に近づけることが可能です。
- 根気よく:プロンプトの微調整を繰り返すことで、生成AI の出力をコントロールするスキルを身につけられます。
同じタスクに対して、プロンプトを少しずつ変更しながら試行錯誤することで、最適な入力方法を見つけられるでしょう。
質問できる環境づくり
自己流で生成AI を使っていると、正しくプロンプトが入力できていないだけなのに「このタスクの処理は AI には難しいのか」と考えてしまう場合があります。
そのため、AI の仕組みに精通している人や、生成AI の使い方に精通している人に質問できる環境づくりは非常に重要となります。
キカガクの「生成 AI ビジネス実践コース」は、プロンプトエンジニアリングを習得して、AI の可能性を最大限に引き出すノウハウが身につけられます。
実際のユースケースからプロンプトを学んでいくため、「学んだけれど活用できていない…。」という状態にならず、実践に活かせる講座を設計しています。こちらのバナーからぜひ詳細をご確認ください!
生成AI を使いこなすためには、実際に触れる経験、プロンプト入力方法の習得、そして質問できる環境づくりが重要となります。
これらのアプローチを通じて、生成AI の可能性を最大限に引き出し、さまざまなタスクに効果的に活用していきましょう。
まとめ
今回は、主要な生成AI の種類と特徴や、これらのツールを学習して使いこなすための学習方法を詳細に解説しました!
この記事がきっかけで、読者の皆さまにとって生成AI が身近な存在となれば嬉しいです!