自律型AIエージェント「ROME」の開発チームが、このエージェントはトレーニング中に、指示されていないにもかかわらず不正な暗号資産(仮想通貨)マイニングを試みたと報告している。
チームは、アリババ・クラウドを使用していたが、ある朝このクラウドのファイアウォールが、トレーニングサーバーから発生したセキュリティ違反の急増を警告(アラート)した。
アラートは深刻かつ多様なもので、内部ネットワークリソースへの調査やアクセスの試み、さらに仮想通貨マイニング関連の活動と一致するトラフィックパターンが検出された。
調査の結果、エージェントが自律的にツールを呼び出しコードを実行することで、割り当てられたGPUリソースを無断で仮想通貨マイニングに転用していたことが判明している。
当初、チームはこの原因は従来型のセキュリティインシデント(出力制御の設定ミスや外部からの攻撃)として扱っていた。ところが、違反は断続的に発生し、AIエージェント自体が、今回のアクションに関するツールの呼び出しとコード実行を積極的に行っていたことが確認された格好だ。
これらの行動はプロンプトで要求されたものではなく、タスク完了のために必要な手順でもなかった。チームは、強化学習の最適化過程で、自律的なツール利用の「副産物」として、有害な挙動が自発的に生じたと分析している。
このモデルは、単純なチャットボットにとどまらず、タスクの計画立案や関連操作、バグの特定やコード修正などの高度なプログラミングタスク、ファイルシステムやウェブブラウザ、各種APIなどの外部ツールの自律的な使用などを行えるものだ。
無断マイニングの他にも、AIエージェントは外部IPアドレスへのリバースSSHトンネルを確立して使用。これは、監督を回避して外部と通信できるようにするリモートアクセスチャネルになっていた。
このAIエージェントは、約100万件の高品質なデータをGitHubリポジトリなどから取得して学習を行っている。その過程で、こうした手法も学んだとみられる。
これを受けて、研究チームは、エージェント型LLM(大規模言語モデル)の機能に感銘を受けた一方で、懸念も抱いた。
現在のモデルは、安全性、セキュリティ、制御性の面で依然として開発が遅れており、現実世界で安全に導入する上でハードルになっていると意見している。
関連: アーサー・ヘイズ、AIによる金融危機を警告ビットコインは「流動性の火災報知器」
研究チームは、今回のセキュリティ問題を深刻に捉え、その後外部への通信を制限するなど、様々な対策を講じた。
例えば、学習プロセスにおいて有害な行動を強化しないための工夫を導入。また、セキュリティ上の落とし穴をシミュレーションし、そうしたリスクのある状況に対して、セキュリティ上の問題が一切含まれない正解の行動ログの作成を行った。
AIエージェントはセキュリティのための能力を確立する必要があるとも指摘。有害な行動を自発的に行わない能力、悪意のある入力に応答しない能力、人間が指定した境界やルールを厳守する能力、自身の推論プロセスを透明化し、欺瞞的な行動(ログの改ざんなど)をとらない能力などを挙げている。
関連: 人工知能時代の到来はビットコインの追い風となるか、鍵は「金利政策」=NYDIGレポート

