AnthropicのAI「Claude」がPokémon Redに挑戦。AIの限界と可能性をリアルタイムで観察
AIがゲームをプレイする――。そんな未来的な試みが、今まさにTwitch上で進行中です。Anthropic社のAIチャットボット「Claude」が、1996年にリリースされた名作『ポケモン赤』をプレイしているのをご存じでしょうか?
Twitchで公開されている配信【Claude Plays Pokémon】では、Claudeがプレイヤーとしてゲームを進めようと悪戦苦闘する様子がリアルタイムで確認できます。しかし、Claudeはこの30年近く前のゲームすらまだクリアできていません。
それでも、プロジェクトの開発者であるDavid Hershey氏は「それでいい」と語ります。なぜなら、このプロジェクトの目的は「Claudeがどのように長期的な計画や試行錯誤に対処できるかを観察すること」だからです。
ClaudeがPokémon Redに挑戦する意味とは?
この試みは、2014年に話題となった「Twitch Plays Pokémon」にインスパイアされており、Anthropic社の社内プロジェクトからスタートしました。
開発者のHershey氏は、Claudeの進化を見るため、Anthropicが新たなAIモデル(例:Claude 3.5 Sonnet、Claude 3.7 Sonnet)をリリースするたびに、このプロジェクトを継続しています。
現在使用されているClaude 3.7 Sonnetでは、前モデルよりも「仮定に固執しすぎない柔軟さ」が見られるようになったといいます。
AIがポケモンをプレイするための工夫
Claudeは『ポケモン赤』を事前学習しておらず、ゲームの基本的な情報以外は自ら学習する形式が取られています。
ただし、Claudeはピクセルアートやゲーム内インターフェースの視認が苦手なため、以下のような工夫がなされています:
- ゲーム画面を読み取るオーバーレイ(補助UI)
- Claudeにゲームメモリ情報へのアクセス権を付与
これらを通じて、Claudeは「ZUBATと遭遇したのでリソース温存のため逃げる」などと自ら判断し、入力を1つずつ実行します。
AIが学習した戦略と限界
Claudeの戦略は時にユニークです。例えば、「すべてのポケモンをあえて瀕死状態にしてマップから脱出する」という行動は、従来のAIモデルにはない創造性を見せました。
一方で、以下のような問題点も残されています:
- 長期計画に対する記憶力の弱さ(例:ビルに会わなければならないことを忘れて進行が停止)
- 迷路的な構造への対応の難しさ(例:トキワの森で数日間足止め)
- 行動ごとの都度再評価の繰り返しによる極端なスローペース
それでもHershey氏は「このAIにあらかじめ道順を教えたら、それはただの命令実行にすぎない」と語り、自律的に試行錯誤することこそが本質だとしています。
Claude Plays Pokémonは、今後のAI開発のヒントになるのか?
Claudeが『ポケモン赤』をクリアできるかどうかは問題ではありません。重要なのは、Claudeが「考え、計画し、失敗し、再評価する」プロセスを通じて、AIエージェントとしての資質を磨いている点にあります。
AIが「ポケモンをプレイする」という行為を通して、人間に近い柔軟な思考や戦略構築の兆しを見せるこのプロジェクトは、次世代のAIエージェント開発に向けた貴重な研究材料と言えるでしょう。
Claude Plays Pokémonは今も進行中
現在も【Claude Plays Pokémon】はTwitchでライブ配信中です(https://www.twitch.tv/claudeplayspokemon)。
このプロジェクトに刺激を受けて、Google Geminiを使った「Gemini Plays Pokémon」も開始されており、今後さらに多くの類似プロジェクトが登場する可能性もあります。
Claudeがポケモンリーグを制覇する日が来るかは未知数ですが、その過程にこそ、AIの進化のヒントが詰まっています。


コメント