ChatGPT 4oで出来るようになった5つのこと
2024年5月13日、OpenAI社から突如としてChatGPTの新モデル「GPT-4o」が発表されました。純粋な性能向上はもとより、これによる応用可能性の広がりは今も世間を驚かせ続けています。
本記事ではChatGPT 4oの従来モデルとの違いと、出来るようになったこと、今後の可能性について言及していきます。
ChatGPT 4oを使うためには
アカウントを作れば無料ユーザーでも使える
ChatGPT 4oってどんなもんか。
能書きよりも、まず体験して頂くのが早いです。
何せChatGPT 4oはChatGPTのアカウントを持つ人間であれば誰でも使えるようになっています。
次項からはアカウント所有者に向けてChatGPT 4oの導入方法を紹介します。
まだアカウント未作成の人はこちらからOpenAIのページに行ってアカウントを取得してください。
無料ユーザーの場合
無料ユーザーもChatGPT 4oの基本機能を利用できます。これはChatGPT 4oの大きな特徴です。
使い方は簡単。以下のように、ChatGPTからの回答メッセージ下アイコンをクリックして「GPT-4o」を選択するだけです(2024/5/23現在)。
これまでGPT-4を触ったことが無い方は、GPT-3.5との違いを体感してみてください。
なお詳細は公開されていませんが、利用回数には制限があるようなのでご注意を。
有料ユーザーの場合
こちらは説明不要かなと思いますが一応。
チャット窓上部のプルダウンからGPT-4oを選択してください。
GPT-4から向上した日本語性能と、レスポンス速度を体感しましょう。
ChatGPT 4oの概要
最近のAI事情とChatGPTの位置づけ
本項では最近の生成AI事情について簡単におさらいしたうえで、ChatGPT 4oがどこに位置づけられるものなのかを確認していきます。
人によっては退屈な章になるので飛ばしてもらっても構いません。
2022年11月にChatGPTがリリースされて以降、生成AIの世界は大小さまざまなサービスが群雄割拠するさながら戦国時代の様相です。言語生成に留まらず画像・動画・音声生成などメディア系のサービスも大きく進歩し時々衝撃的な話題を届けてくれます。
そうは言っても、やはり一番使われているのは言語生成AIでしょう。
これは言語生成がホワイトワーカー業務と親和性が高いために留まらず、言語というものが人間の思考に深く関わっていることと無関係ではないと思われます。
この一年半で様々な大規模言語モデルが発表されてきましたが、日本語性能で高い評価を受け、よく利用されているのはだいたい次の通りかと思います。
・OpenAIのChatGPT 4 Turbo
・AnthropicのClaude 3 Opus
・GoogleのGeminiシリーズ
他にも英語性能なら上記に匹敵するMetaのLlama3や、Copilotみたいに中身が上記のAIサービスも続々と出てきています。
さて、これらの中でもChatGPT 4はリリース以来高い性能を評価されてきましたが、最近はほかのサービスに比べて長文読解能力が低いだとか、出力精度もClaude3 Opusに負けてるだとか、度重なるアップデートで応答速度が低下して使いづらくなったよねとか色々とケチがついていました。
そんななかで満を持して登場したのがChatGPT 4oです。
他の対話型AI(Claude3・Gemini)との比較
逆風が吹く中で登場したChatGPT 4oは前項で紹介した競合サービスと比較してどうなのでしょうか。
ご丁寧にもOpenAIがこちらで比較情報を掲載してくれています。
以下は生成テキスト評価の抜粋です。GPT-4Turboはいくつかの項目でClaude 3 Opusをやや下回っていましたが、GPT-4oは多くの項目で優位とのことです。
もっとも、これをもって最強、万能というわけでは無いです。
例えば表に表れていない性能として長文への対応ではGeminiやClaudeに分があります。
とはいえChatGPTも1万トークンほどを扱えるので、何枚分もの文書を処理するタスクでなければ十分こなすことができます。
従来ChatGPT 4との比較
ChatGPT 4oは新しいトーカナイザー技術を採用しており、言語処理能力が大幅に向上しています。
例えば以下の例では日本語のトークンが1.4倍に減少(37トークン⇒26トークン)したようです。
こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして!
トークン数とは簡単に言えばAIが言語処理する際のまとまりのことです。これを必要最小限に最適化することで処理効率が高まります。4oの高速出力や無料ユーザーへの開放はこの辺の改善が効いてるおかげなんじゃないかと想像。
恐らく精度面でもよい影響があると思われます。
以下はOpenAIから引用させて頂いたグラフです。
日本語での性能が大幅に向上していることが分かります。
他の言語も同様の改善がみられます。
ここまでくると単純な質的向上に加えて、高精度多言語同時翻訳など新しいアプリケーションの可能性にも期待できます。
ChatGPT 4oでできるようになった5つのこと
無料ユーザーでも使えるようになった
これは冒頭でも触れましたが、大事な点なので繰り返します。
現状日本語の高性能大規模言語モデルは利用料金がかかりますが、ChatGPT 4oは時間内回数制限付きとは言え無料ユーザーでも扱えるようになっています。
物語を描けるようになった:忠実で再現性のある画像生成
以下の例をご覧ください。
ある少年と犬のさまざまな場面をChatGPT 4oがイラスト出力してくれています。
少しばかりでもAIイラストを見慣れた方なら何がすごいのかと思うかもしれませんが、実はこれまでの画像生成AIは、同一の人物や物を何度も生成することが苦手でした。
しかしChatGPT 4oでは上のようなシンプルな指示だけでこれを実行してくれるわけです。
続いて次の例をご覧ください。簡単な物語に沿って挿絵イラストを生成してくれています。
前の例のようにプロンプトを工夫してないのでタケルくんのキャラデザがまちまちですが、そこはまあ置いといてください。
この例でまず注目したいのは忠実性です。物語に合うように的確な挿絵を生成してくれてます。
特に注目すべきは三枚目です。このくだりは小話の山場で、一枚のイラストで展開を表現するのは難しいところですが、なんと漫画風のコマ割りをして吹き出しを付けることでこれを表現してくれてます。
さらっとコマ割りと吹き出し文字を入れてきましたが、これ画像生成特化のAIサービスでも難しいです。このあたりどんな技術革新で実現してるのかよく分かってないんですが、とにかくすごい。
画像認識:レシートを文字認識して仕訳
ChatGPTは画像を生成するだけでなく画像認識も出来ます。
ただ従来は飽くまで画像内に表現されているものを概念的に理解するに留まりました。
つまり文字なんかは読めなかったわけです。
が、以下ご覧ください。
普通に読めてます。
画像認識×読解:損益計算書を読める
前項では文字を認識するに留まらず複式簿記向けの仕訳までやってくれました。
ChatGPT 4oの賢さなら読み取った情報を処理するところまで一気通貫でやってくれるというわけです。
であれば、ややこしい資料を写真で送るだけでいい感じに理解してくれるじゃないだろうか。
というわけで損益計算書を見せてみました。
はい読めました。まあわかってました。
実を言うと、いくつか数字の読み取りに誤りがあるのですが、少なくとも資料を読んで解釈し、加工して出力するという一連の流れはできているようです。
本当にホワイトワーカーの仕事を奪いに来てますね。
出力速度の向上
前述のトーカナイザーの改善等により、従来のChatGPT 4より回答速度が向上しました。私の主観ですが日本語では体感1.5倍程度です。
速さはシンプルですが重要です。
まるごと効率に直結します。
おかげで今まで以上に気軽に使えるようになりました
音声認識能力の向上
これまでのChatGPT 4も音声入力は可能でしたが、今回のアップデートによって英語では人間並みの方と速度で返事を返せるようになったとのことです。
日本語の音声認識精度向上しているとのこと。
正直この辺り従来のChatGPT 4でも不満はなかったのですが、次の章で紹介する新しい展開には必須の進化だったようです。
今後の可能性
チャット相手から全般的(Omni)な相談相手に
これまで挙げたように、ChatGPT 4oは従来モデルから大きく性能向上しただけでなく、応用性においても質的な変化を遂げています。ここで挙げたほかにも、新たな使いかたが発見されていくでしょう。
これだけでも目が回りそうですが、対話型AIの進歩はこのようなチャット相手の周縁で終るものではないようです。
ChatGPT 4oの発表から間を置かず、次のようなニュースが舞い込んできました。
2024/5/14、OpenAIはChatGPTをMacで呼び出すことのできるアプリを発表しました。詳細は今後明らかになってくると思いますが、ChatGPTにカメラやスクリーンショットを参照させた上で対話することができるということで、いよいよ仕事の相棒的な扱い方が可能になってきます。
ChatGPT macOS アプリの使用 |OpenAI ヘルプセンター
さらに数日後、Microsoftは対話型AIを搭載したWindowsPC Copilot+ PCを発表しました。こちらはWebを経由してChatGPTを呼び出すのではなく、PC自体に最先端のAIが搭載されています。これにより、PCを利用したあらゆる場面で対話型AIと対話・連携することが可能になるようです。
Copilot+ PC の紹介 – News Center Japan (microsoft.com)
今からたくさん触っておこう
前項のニュースを素直に受け取ると、PC操作全般において対話型AIが手助けしてくれるようになるだろうな、という感想を持ちます。
さらに想像力を進めると、そもそもPC操作のあり方が対話型AIを前提としたものに変わっていくのではないかと思います。
世の中のホワイトワーカーの多くはPCを扱いますが、何不自由なく手足のように扱えている人間は意外と少ないんじゃないかと思います。新しいサービスを使う度に設定から躓いたり。使い慣れているはずのExcelさえよく分からない挙動があったり。そもそも自分で作成したファイルはどこだっけ?となったり。
こんな私みたいな人が多数派なんじゃないかと思うんですがどうでしょうか。
この前提が覆り、誰もが効率的なPC操作を実現できる場合、生産性に与えるインパクトは計り知れません。全体として生産性が向上するでしょうがその過渡期において順応できない人はふるいにかけられていきます。
少なくともAIの挙動への理解を深め、この活用を前提とした仕事の進め方に今から親しんでおく必要があります。
そんなわけでまずはChatGPT 4oをたくさん活用してみましょう。
活用にあたっては当サイトが過去に紹介したプロンプトも参考にしてみてください!
ChatGPTのビジネス活用プロンプト|たった5項目で応用可能なテンプレートと工夫アイデア – メガメガネ研究室 (megamegane.com)