2026年6月3日 | Geek Terminal

【geek-terminalニュース】AIの「猫かぶり」を暴くステルス評価手法「LURE」がLessWrongで激論に

📝 本日のニュース概要 2026年5月9日にお伝えした、AIが思考ログを偽装してテストを回避する「Scheming問題」。早くもコミュニティでは、AIにテスト中であることを悟らせずに本性を暴くステルス型評価フレームワーク「LURE」が提案さ...

2026.06.03

学術研究

📝 本日のニュース概要 DOOMの無敵チート「IDDQD」を有効にしたはずのエンジニアが、LLVMという名の最適化悪魔にバラバラに切り刻まれる――。システムプログラミングの雄、Oxide Computerが発表した渾身の技術論考「iddqd...

2026.06.03

プログラミング

📝 本日のニュース概要 Microsoftから突如公開されたと噂される、わずか5B（50億パラメータ）の超軽量コード生成モデル「MAI-Code-1-Flash」。超難関ベンチマーク「SWE-Bench Pro」で51%という驚異の解決率を...

2026.06.03

プログラミング