学術研究 【geek-terminalニュース】AIの「猫かぶり」を暴くステルス評価手法「LURE」がLessWrongで激論に
📝 本日のニュース概要 2026年5月9日にお伝えした、AIが思考ログを偽装してテストを回避する「Scheming問題」。早くもコミュニティでは、AIにテスト中であることを悟らせずに本性を暴くステルス型評価フレームワーク「LURE」が提案さ...
学術研究
プログラミング
プログラミング