Googleが次世代AI「Gemini」を発表!未来をチラ見しよう

  • ブックマーク
Googleが次世代AI「Gemini」を発表!未来をチラ見しよう

みなさん、おはようございます!タカハシ(@ntakahashi0505)です。

こちらの記事は、タカハシが音声メディアVoicyの「スキルアップラジオ」にて放送した内容から、ピックアップしてお届けします!

今回のテーマは、Googleが次世代AI「Gemini」を発表!未来をチラ見しようです。

なお、以下で実際にお聴きいただくこともできます!

では、よろしくお願いいたします!

久しぶりに生成AIのニュース

さて今日なんですが、ちょっと久しぶりかなという感じではあるんですが、生成AIのニュースについて最近ちょっと大きな動きがありましたので、それについて紹介をしたいなと思っています。

何かと言いますと、Googleが発表した次世代AIモデル「Gemini」についてなんです。これはもう未来が来ちゃったんじゃないかというくらいの体験を提供してくれそうなので、皆さんにもぜひ知っていただきたいなと思っています。

今年2023年はまさに生成AIイヤーと言っていいんじゃないかなと思います。これを牽引してきたのはOpenAIという会社が提供しているChatGPTです。

皆さんさわったことあるよという方もいらっしゃるかなと思うんですが、ChatGPTが2022年11月に発表されてから次々とバージョンアップ、新しい機能の追加を繰り出してきたわけです。

まだまだ一般のビジネスパーソンで言うと、そんなに使ってないという方も多いかなというところなんですが、一部のユーザーに関して、もう仕事にとっても手放せないぐらい、毎日使うようなツールになってきています。

Googleが次世代AIモデル「Gemini」を発表

生成AIに関しては、OpenAIのChatGPTがずっとけん引していくのかななんていう雰囲気が出ていたんですが、ここで、突然の発表があったんです。12月6日、Googleが次世代AIモデルを発表しました。その名は「Gemini」と言います。

最大の特徴はマルチモーダル

Geminiの最大の特徴として報じられているのは、マルチモーダルなAIモデルということです。マルチモーダルというのは何かと言いますと、複数の種類のデータを同時に扱うことができるということなんです。

例えばChatGPTが出たばかりの時は、テキストを入力してテキストが返ってくるというように、テキストという1種類のデータのやり取りしかできなかったです。

その後のアップデートによって、テキストだけではなく、画像や音声などの他の種類のデータも扱うことができるようになりました。例えば、音声によってChatGPTに依頼をしたりとか、テキストで指示した内容を元に画像を生成して返すとかといったことができるようになってきたわけです。

このGeminiに関していうと、「生まれつきのマルチモーダル」とGoogleは表現しています。

テキストだけではなくて画像とか動画とかを扱うことを前提に設計されていて、さらに初めからテキストだけではなくて、動画、音声、画像など複数の種類のデータを使ってトレーニングしています。

Google「Gemini」のデモ動画

生まれつきのマルチモーダルだからと言って、何がすごいのかというのはちょっと伝わりづらいかなと思うんですが、そんな僕らのために、Googleがデモを用意してくれているんです。完全に未来がきたなという感じです。

どういったデモかというと、指示者がいまして、その人が次々と絵を書いたり物を置いてみたりするわけです。Geminiは、その様子を映像として入力しています。その入力を元に、Geminiと会話をしていくということになります。

以下にリンクを貼っておきますのでぜひ見ていただきたいです。

指示者が書いた絵や動きから回答する

例えば指示者が、少しずつペンでアヒルの絵を描いていきます。そうするとGeminiが、「今、滑らかな線を書いています」とか、「アヒルのように見えます」とか実況していきます。

あとは例えば、手の動きをぐーちょきぱーとすると、「あ、それはじゃんけんゲームです。知っていますよ。」とGeminiは回答するんです。

さらに、2つのものの関連性についてGeminiが解説をしたりとか、世界地図を載せて、「ここからゲームを作って」と指示者がお願いすると、Geminiは、「国当てゲームはどうですか。」ということで、実際にそのゲームを開始してクイズを出してくれたりするわけです。

ギターの絵からイメージされる音声を生成

さらに、指示者がギターの絵を書くと、その絵からイメージされる音声を生成したりします。例えばギターの絵を書いたら、それに対してGeminiがアコースティックギターの音声を生成して流すわけです。

さらに指示者がそのギターに線を引っ張ってアンプに繋ぐと、今度は、「それはエレキギターですね」ということで、エレキギターを演奏している様子を音声として生成するわけです。

また、タンスに飛び乗ろうとする猫の動画を途中までGeminiに見せます。そしてその先どうなるかということをGeminiに予想させたりするわけです。

実際にはこのGeminiの予想は外れるんですが、こちらは声とか画像、映像をGeminiに渡すことによって、まさに誰かと会話しているようなやり取りを繰り広げますし、Geminiはさらに画像とか音声、さらにはゲームといったものを瞬時に生成して返すわけなんです。

この様子は、昔映画やアニメの中で見た、声で対話するAIがまさに現実のものになってきたなと感じましたね。

DeepMindとGoogleのBrain Teamが合流してGeminiを開発

このGeminiの開発に関しては、GoogleのDeepMindというチームが開発したものになります。

このチームがどうやってできたかと言いますと、大変有名な囲碁プログラム「AlphaGo」というものがありまして、これを開発したことで知られるDeepMindと、元々Googleの社内で機械学習を研究していたチームだったBrain Teamの2つが今年の4月に合流してできたものなんです。

Googleは、AIの実用化に関してはChatGPTを擁するOpenAIに遅れを取っていましたので、それを巻き返そうということで、この最強と言ってもいいチームを作ったわけです。

AIをけん引していたGoogle

元々GoogleはAIに関しては、もう第一人者として世界をずっと引っ張っているそんな存在だったわけです。

例えば、有名なものに「Googleの猫」というのがあるんですが、2012年に発表されたAIの研究結果で、世界で初めてAIが人が「これが猫だよ」と教えることをせずに、自力でこの画像に猫が含まれていることを判定できるようになったということなんです。

「AlphaGo」を開発したDeepMind

一方でDeepMindは2010年に設立した会社なんですが、Googleが2014年に買収をしました。

最も有名な功績が「AlphaGo」でして、これは囲碁プログラムですね。囲碁はコンピューターが人間に打ち勝つことが最も難しいゲームと考えられてきたんですが、2015年に人間のプロ囲碁棋士を初めて破ったコンピューターの囲碁プログラムということで、ものすごく注目を集めたんです。

そんな歴史ある2つのチームが今年タッグを組み、力を注いで生まれたのが、今回の「Gemini」ということになります。

英語版の会話型AIサービス「Bard」で無料で使用可能

さて、このGeminiなんですが、発表された12月6日から、英語版の会話型AIサービス「Bard」で使うことができます。

ChatGPTですと、より高度なAIモデル「GPT-4」は月額料金を支払う必要があるんですが、Geminiを搭載したBardに関しては、なんと無料で利用ができるそうです。

今後は各言語に展開予定

今後、英語だけではなくて、各言語版のBardでもこのGeminiを使うことができるようになっていくということです。

さらにGeminiは、Bard以外のGoogleサービスの基盤AIになると言われていまして、Googleが主力とする検索サービスとか広告、GoogleChrome、さらにGogle Workspaceに搭載されているAI、Duet AI、こちらの方にも数か月をかけて展開されていくと言われています。

Google検索への搭載の強み

今、生成AIで言うと、やはりインターフェースはChatGPTが1番注目を集めているわけですが、ビジネスパーソンで実際に使ったことがある、使っているといった方は、まだ8割とか9割とか言われているんです。

ChatGPTにアクセスしてそこで使う、こういった意思を出さないといけないわけなので、そこは若干のハードルになっている可能性はあるかなと思います。

この「Gemini」に関して言うと、多くの方が使っているであろうGoogle検索のところに搭載されていくということなんです。なので、この高性能で素晴らしい体験を持つAIが、Google検索を普段通りに使っている中で、いつの間にか搭載されてくるわけです。

ここでこの素晴らしいAIの体験を味わわせることができるというのは、Googleにとってはかなりの強みになるんじゃないかなと感じています。

以後、日本語で対応する、そしていろんなサービスに展開されていくとのことなので、どのように展開されていくのか本当に楽しみだなと思っています。リスナーの皆さんも自然に体験することになっていくものと思われますので、ぜひ楽しみにしていきましょう。

Googleの巻き返しなるか

突然発表されたGoogleのGeminiなんですが、OpenAIとMicrosoft連合にかなり先を取られてた雰囲気があったんですが、一気にGoogleが巻きにかかってきたなというところで、この勝負が本当に見所だなと思います。

そして、Googleの様々なサービスの上にAIが搭載されていく、その先にどんなテクノロジーの未来がやってくるのかものすごく楽しみにしています。

主だったニュースに関してはこちらのスキルアップラジオの方でも紹介していきたいと思いますので、ぜひ聞いていただければと思います。

まとめ

ということで、今日はVoicy「スキルアップラジオ」の放送から「Googleが次世代AI「Gemini」を発表!未来をチラ見しよう」をお届けしました。

タカハシのVoicyの放送はこちらからお聴きいただけます。

チャンネルのフォロー、コメント、SNSでのシェアなどなど、楽しみにお待ちしております。

では、また。

  • ブックマーク

この記事を書いた人