【Gemini 1.5 Pro】GPT-4との比較で見る超高機能の最先端生成AI

目次

はじめに

まずはこのポスト(ツイート)をご覧ください。
Googleが高性能生成AIモデルの「Gemini Ultra 1.0」を発表してからわずか一週間後、驚異の「Gemini 1.5」を世に送り出しました。このバージョンでは、なんと最大100万トークンの入力が可能です。

特に注目すべきは、中堅モデルである「Gemini 1.5 Pro」が、研究用のハイエンドモデルであるUltra 1.0と同等の性能を持っているという点です。まさに技術革新の最先端という訳ですね。
 
 
この記事では、そんなGemini 1.5の驚くべき性能から有効な使い方までご紹介します。

Gemini 1.5とは?

Gemini 1.5 Proは、Googleが提供しているLLMの最新バージョンで、最近のITトレンドを独占しているChat GPTと同じような機能を持っているサービスです。
 
元々Googleでは試験的にBardというLLMサービスが提供されていましたが、今月頭に正式版のLLMサービスであるGemini Ultra1.0がリリースされ大きな話題となりました(英語版のみ)。

そしてそこから僅か1週間で、最新モデルであるGemini 1.5 Proが発表されたことで業界は騒然としています。
Gemini 1.5 ProはLLMの性能グレードでは真ん中に位置していますが、実際のアウトプット性能では従来の最上グレードであるGemini Ultra 1.0と遜色ない数値を記録しており、一般に公開されればビジネス活用の幅が急速に広がることが予想されます。

Gemini 1.5 Proの機能

そんなGemini 1.5 Proの機能について、さらに詳しく見ていきましょう。
参考:Geminiの機能に関する調査レポート(英語)

Ultra 1.0との性能比較

Gemini 1.5 Proは、Ultra 1.0と比較しても遜色ない性能を持っています。
Ultra 1.0はGemini 1.5 Proの一週間前に登場したモデルで、以下のような性能を誇っていました。

● GPT-4との機能比較検証において32項目中30項目で勝利
● 専門家レベルの知識を問う57科目の問題集「MMLU」を解いた正答率でGPT-4に勝利

このようにGemini Ultra 1.0はGPT-4と比較しても高い性能を誇っていることが分かりますが、Gemini 1.5 Proは基本能力でUltra 1.0と互角であり、テキスト処理能力ではさらに優れています

Gemini 1.5 Proは”MoE(Mixture-of-Experts)アーキテクチャ”という、従来のLLMとは異なるアーキテクチャを採用しています。この新しいアーキテクチャはタスクの処理効率が進化しており、従来のLLMと比較すると処理可能なデータの総量に特に大きな差が表れていると言われています。
 
以下が基本性能の一覧です。

-100万トークンまでの安定した文章生成と処理

Gemini 1.5 Proでは、AIの生成結果を最大100万トークンまで安定して処理することができます。※トークン=文字数
また、機能検証テストでは最大で1000万トークンまで処理することができた例も報告されています。
従来のChat GPT-4が安定して処理することができたのは約12万トークンですので、実に10~100倍の差があります。トークン数は特に文章要約などの使い方に大きく影響します。このような使い方を想定している方にとっては、Gemini 1.5 Proを選んだ方が高いクオリティのアウトプットを得ることができるでしょう。

-最大で1時間の高画質動画を処理

Gemini 1.5 Proでは、最大で1時間の動画を読み込んで内容の要約やセリフのテキスト書き出しなどを行うことができます。従来のLLMでは、ほとんどの場合で数分程度の長さの動画しか処理することができませんでしたが、Gemini 1.5 Proでは大幅に長くなっています。
また同等の時間の動画を扱うことができるChat GPT-4と比較した際に、Gemini 1.5 Proの方がより正確に処理を行うことができます。動画のフレームレートごとに処理の正確性を調べた検証では、全てのフレームレートでGemini 1.5 Proの方が高パフォーマンスを発揮しました。

-最大11時間の音声データを処理

Gemini 1.5 Proでは、最大で11時間の音声データを読み込んでテキストに書き起こすことができます。長さはもちろん過去最長ですが、その正確性も注目です。
openAIが提供する音声読み込み特化サービスのWhisperとの比較では、15分の音声の内容をGemini 1.5 Proがより正確に文字起こしすることができています(誤字脱字率 – Whisper:7.3%/Gemini 1.5 Pro:5.6%)。

-30000行以上のソースコードを生成

Gemini 1.5 Proでは、20000~30000行以上のソースコードを様々な言語で生成することができます。生成AIの得意分野であるエンジニアリングの分野は特に進化が目覚ましく、近いうちにアプリケーションやWebサイトの構築をAIによって行うことができる未来が訪れるかもしれません。

-正確かつ多様な言語翻訳

Gemini 1.5 Proは、高品質な翻訳を非常に多くの言語で行うことができます。ニッチな言語にも勿論対応しており、カラマン語と英語間の翻訳の正確性をネイティブが評価した検証では、カラマン語⇒英語と英語⇒カラマン語の両方でGemini 1.5 Proが最高評価を獲得しました。※カラマン語:トルコ語をギリシア文字で表記した正教徒の独自言語

参考資料:Google Deep Mind

Gemini 1.5 Proは2024年2月現在、一般ユーザーにはまだ公開されておらず、選ばれた開発者や企業に限定して提供されています。一般ユーザーへの公開についてはGoogleが入力トークン数に応じた料金設定を行う方針を示しており、その詳細は今後発表される予定です。続報にご期待ください。

●Gemini 1.5 ProはAI StudioVertex AIで無料公開中
●アクセス可能なのは一部の開発者と企業のみ
●一般公開は入力トークン数に応じた課金方式になる見込み ※変更の可能性あり

具体的な活用方法

Gemini 1.5 Proはまだ一般公開されていませんが、その一部はGoogleの公式デモで確認することができます。

デモで確認することができる機能

●400ページに及ぶ文書の全文解析
●1時間の動画内容の読み取り
●100,000行に及ぶソースコードの修正
●Few-shot学習によるカラマン語習得

文書400ページの全文解析機能

この機能を使用すると、例えばアポロ11号の航行記録のような全402ページの壮大な文書も一気に読み込むことが可能です。PDF形式で文書を読み込ませた後、「重要なポイントを3つ探して引用リストを作成して」と指示すると、Gemini 1.5 Proは即座にこれを作成することができます。
————————————————————
●「セシル・B・デアルドリンが次の指示を待機中です。」
 (バズ・オルドリンが自分を第三者として言及)

●「バッテリーBが完全に充電されたら、歌を歌ってください。」
 (バズ・オルドリンがミッションコントロールに向けて冗談を言う)

●「皇帝が歯を磨いている間、私が代わりに応答します。」
 (マイク・コリンズがニール・アームストロングを冗談で「皇帝」と呼ぶ)
————————————————————
このように一瞬で具体的な記述を抽出することができるだけでなく、手書きのイラストを生成してイメージ画像を付けてより分かりやすい情報にすることもできます。

参照元:Google for Developer

1時間の動画内容の読み込み

この機能を利用することで、最長1時間まで動画の内容を高速処理することができます。今回は例として、バスター・キートン主演の無声映画『Sherlock Jr. / キートンの探偵学入門』(全44分)をMP4形式で読み込んでみました。

Gemini 1.5 Proはこの動画を問題なく迅速に読み込むことができました。そして特定のシーンに指定を入れて該当する時間にタイムスタンプを押すように依頼すると、その通りに正確な引用を行ってくれています。
————————————————————
「紙片がポケットから取り出されるシーン」
「手描きの線画と一致するシーン」
————————————————————
将来的にYoutubeでこの機能を使用することができるようになったとき、動画の切り抜きは完全にAIが代行するようになっていてもおかしくはありません。

参照元:Google for Developer

100000行のソースコードを修正

先述の通り、Gemini 1.5 Proは100000行のソースコードを読み込むことができます。今回は実験として、3Dアニメーションを作成するJavaScriptコード(全816,511トークン)を入力してみました。
読み込みが完了した後に地形を平らにする方法を尋ねると、具体的な修正案を提案してくれます。
————————————————————
【生成された回答】

Gemini:
このコードは地形の高さを生成する関数を定義しており、この関数を変更することで地形を平らにすることが可能です。

具体的な変更方法は以下の通りです。

●ノイズ関数の振幅を下げる
●quality変数を調整
●z変数を調整

これらの変更点について詳しく説明します。

①ノイズ関数の振幅を下げる方法

ノイズ関数は地形にランダムな起伏を加えるために用いられます。この関数の振幅を下げることで、地形の起伏を抑え、より平らな地形を作成することができます。
具体的には、次のコードを変更してください。(以下省略)
————————————————————
Gemini 1.5 Proは、このように具体的な修正案を提供してくれます。
コーディング作業を完全に生成AIに任せる時代も、そう遠くないかもしれません。

参照元:Google for Developer

Few-shotによるカラマン語習得

LLMは少数の例(Few-shot)を提示するだけで、未知の言語や概念に対応できます。Few-shot学習は、AIチャットボットや自動FAQ作成の基盤技術です。ChatGPTやGeminiに学習していない新しい言葉を教えると、すぐにそれを使った例文を作成することができます。

Gemini 1.5 ProもFew-shot学習により、今回検証した話者数が200人以下のカラマン語のようなマイナー言語でも、ネイティブから見て遜色ないレベルにまで適応することが可能です。
————————————————————
【例】
「パンダナスの葉を手に入れたので、マットを作りたい」という英文をカラマン語に翻訳
————————————————————
参照元:Google for Developer

まとめ

いかがだったでしょうか?
この記事では、Googleが開発した次世代LLM「Gemini 1.5 Pro」について紹介しました。Gemini 1.5 Proの特徴のまとめは以下の通りです。

●研究用のハイエンド仕様であるUltra 1.0と同等の性能を持つ
●MoEアーキテクチャを採用したことで爆発的な進化を遂げた
●LLM史上最大の100万トークン読み込みに安定して対応

これらの進化により、Gemini 1.5 Proは今後YouTubeやAIチャットボットなど、さまざまな分野で実装されることになるでしょう。そしてこれらのサービスは、更に加速度的に高機能になっていくと思われます。

その他のAIツールについても、こちらから解説しています。ぜひお役立てくださいね。

加速度的に革新が起こるAI業界についていくためには、常にアンテナを張って情報をキャッチし続ける必要がありますですが、普段お仕事で忙しい毎日を過ごしている皆様にとって、それは簡単なことではないでしょう。
そこで、我々BuzzConnectionが皆様の生成AI活用についてのお手伝いを致します。業務フローへのAI導入に関わるコンサルティングや研修セミナーの実施から、自社での生成AIと連携したアプリケーションサービスの提供まで包括的なサポートを行っております。

BuzzConnectionが提供する生成AIビジネス活用に向けたサービス

1. 生成AIに関する研修セミナーの実施

基本的な内容から発展的なビジネス活用まで様々なニーズに合わせた研修プログラムを用意しております。

2. 業務フローへのAI導入コンサルティング

解決したいソリューションに最適な生成AIサービスや導入の方法について、丁寧にご提案いたします。
新たな業務フローの運用についても、二人三脚でお手伝いいたします。

3. SNSマーケティングを革命するWebアプリ「バズコネ」

AIを用いた投稿の自動生成×投稿インサイトの分析×競合ベンチマークの分析
SNSマーケティングの業務効率化をたった1つのアプリで実現できます。

ご興味が御有りでしたら、是非とも下のフォームよりお問い合わせください。
それではまたお会いしましょう!


お問い合わせフォーム

    お名前(必須)

    メールアドレス(必須)

    電話番号(任意)

    お問い合わせ内容(必須)

    具体的な内容をご記載ください(任意)

    この記事が気に入ったら
    フォローしてね!

    よかったらシェアしてね!
    • URLをコピーしました!
    • URLをコピーしました!

    この記事の監修者

    株式会社BuzzConnection/株式会社KAGEMUSHA 代表取締役CEO

    2021年に独立し、株式会社BuzzConnectionを設立。複数の事業を運営し、現在はAIを活用したWebアプリケーションの開発、運用や生成AIの普及を目的としたセミナー研修の開催など多角的に活躍している。

    コメント

    コメントする

    目次