【geek-terminalニュース】Qwen3.6「検閲除外」の狂気。85時間の重み鑑識が暴いた脳外科手術の真実

📝 本日のニュース概要

📝 本日のニュース概要

2026年5月、ローカルLLM界隈を震撼させている「検閲解除（Abliteration）」の真偽。以前お伝えしたHeretic公開以降、乱立するアンセンサードモデルに対し、有志が85GPU時間を投じて「重みレベルの鑑識」を敢行しました。Qwen3.6-27Bをベースに、Heretic、Huihui、AEON、Abliterix、そして疑惑のHauhauCSを徹底比較。ベンチマークの裏に隠された「思考予算」のカラクリや、モデルの脳を切り刻む5つの異なる手法の精度が明らかになりました。もはや「解除」は魔法ではなく、冷徹な数値で語られる外科手術の時代へ。最新のフォレンジックデータをお届けします。

2026年5月6日の「Heretic」公開以降、ローカルLLMコミュニティは一種の「アンセンサード（無検閲）バブル」に沸き返っていた。Qwen3.6-27Bという強力なベースモデルをいかにして「去勢」から解放するか。数多のモデルがHugging Faceに放流されたが、その実態は「能力を維持した解放」なのか、それとも「重みの破壊」なのか、誰も客観的な答えを持っていなかった。そんな混沌とした状況に終止符を打つべく、RedditのLocalLLaMAコミュニティにて、85GPU時間を投じた狂気の比較検証プロジェクト「Abliterlitics」の結果が報告され、ギークたちの間で激しい議論を巻き起こしている。

今回の報告は、以前お伝えしたHeretic公開後の混乱に対する「決定的な続報」と言える内容だ。検証を行ったnathandreamfast氏は、自作のフォレンジックツールキットを用い、主要な5つの検閲解除手法を「重みレベル」で解剖。もはや単なるプロンプトの通りやすさを競う段階を超え、モデルの「脳外科手術」としての精度を鑑識するフェーズへと突入したことが浮き彫りになった。

【事象の全貌と背景】：検閲解除という名の「脳外科手術」の乱立

事の発端は、Qwen3.6-27Bという推論特化型モデルの登場にある。このモデルは極めて高い性能を持つ一方で、メーカーによるガードレール（拒絶反応）が強固に組み込まれており、ローカルユーザーからは「使いにくい」との不満が噴出していた。これに対し、モデルの内部ベクトルから「拒絶の方向」を特定し、それを数学的に切除する「Abliteration（消去）」技術が急速に普及した。

しかし、この2週間で「Heretic」「Huihui」「AEON」「Abliterix」「HauhauCS」といった異なる解除手法を謳うモデルが乱立。各作者が「Lossless（無損失）」や「能力向上」を自称する中、ユーザー側はどのモデルが本当に優れているのか判断できなくなっていた。今回の検証は、RTX 5090をフル稼働させ、400件の有害挙動テスト（HarmBench）と、MMLU、GSM8Kなどの主要ベンチマーク、さらにはKLダイバージェンス（出力分布の乖離度）を網羅。単なる使用感ではなく、統計的な「正解」を導き出そうとしたものである。

【技術的ディープダイブ】：拒絶の方向は「単一ベクトル」ではない

今回の検証で最も技術的に衝撃的だったのは、「拒絶の方向（Refusal Direction）」に関する発見である。各手法が特定した「拒絶のベクトル」同士のコサイン類似度を測定したところ、そのほとんどが0.07以下という極めて低い数値を示した。これは、モデルの重み空間における拒絶反応が単一の点ではなく、多次元的な「マニフォールド（多様体）」として存在していることを示唆している。つまり、どの神経回路を「切除」しても検閲は解除できるが、そのアプローチは手法ごとに全く異なっていたのだ。

具体的に各モデルの「手術痕」を比較すると、その精度の差は歴然としている。コミュニティで高い評価を得た「Heretic」は、わずか120個のテンソル、3つのタイプに絞った外科的切除を行っており、KLダイバージェンスは0.0037と「驚異的な低ノイズ」を記録した。対して、「HauhauCS」は564個ものテンソル（全体の66.4%）に変更が加えられており、これは「Reaper」と呼ばれるツールの仕様に加え、GGUF量子化のノイズが重畳した結果であると分析されている。さらに、このReaperツール自体がHereticのコードを盗作（AGPL-3.0違反）した疑いも浮上しており、技術倫理面でも物議を醸している。

また、推論モデル特有の「思考予算（Thinking Budget）」問題もデータで証明された。Qwen3.6は回答の前に``タグ内で思考プロセスを展開するが、検閲解除手法によってはこの思考チェーンが極端に短縮、あるいは逆に無限ループ化することが判明した。「Huihui」モデルは、ベースモデルが68.2%の確率で思考予算（7168トークン）を使い果たすのに対し、無効回答率を23.0%まで劇的に改善。これは数学的推論能力が上がったのではなく、「思考の効率化」によって制限時間内に回答に到達できるようになったためだという。逆に「AEON」は思考ループに陥りやすく、45件もの空回答を出すなど、作者の「能力向上」という主張とは裏腹に、データ上は劣化が目立つ結果となった。

【コミュニティの生々しい熱量と議論】：マーケティングの嘘を暴くフォレンジックの力

Redditの反応は、この「鑑識結果」を歓迎する声で溢れている。「ついに『Lossless』という安っぽいマーケティング用語が論破された」という書き込みには多くのUpvoteが集まった。特に、特定のモデル作者が主張していた「能力の向上」が、実際には単なる「思考プロセスの短縮」による見かけ上のスコアアップに過ぎなかったという指摘は、多くのユーザーに衝撃を与えている。

一方で、盗作疑惑の「HauhauCS」については、「性能は悪くないが、コードを盗み、出所を隠してライセンスを変更する行為は許されない」と、オープンソースの倫理観を問う声が強まっている。検証を行ったnathandreamfast氏は、「今後、HauhauCSを比較対象から除外する」と明言しており、技術力だけでなくコミュニティへの貢献姿勢もモデルの評価に直結するシビアな時代が到来したと言える。

また、ギークたちは「KLダイバージェンス0.1」という閾値に注目している。今回の解除モデルはすべてこの値を大きく下回っており、現代のAbliteration技術が、モデルの言語能力を致命的に破壊することなく「特定の概念だけを抜き取る」精度に達していることを改めて確認した形だ。「これはもはやプログラミングではなく、神経学だ」というコメントが、今の熱量を象徴している。

【今後の展望とエコシステムへの影響】：モデル選択は「信頼」から「鑑識」へ

今回の「Abliterlitics」の公開は、今後のローカルLLMエコシステムに2つの大きなパラダイムシフトをもたらすだろう。

第一に、モデル作者による「自称ベンチマーク」の無力化だ。85時間のGPU検証という圧倒的なエビデンスの前では、都合の良いデータだけを並べたモデルカードは通用しなくなる。今後は、第三者によるフォレンジックツールを用いた「重みレベルの監査」が、優良モデルの必須条件となる可能性がある。

第二に、検閲解除技術の「個別最適化」の進展だ。今回の検証で、手法によって「思考が長くなる（Heretic）」「思考が効率化される（Huihui）」「分布が歪む（Abliterix）」といった特性が明確になった。ユーザーは単に「解除されているか」だけでなく、「自分の用途（数学、コーディング、ロールプレイ）において、どの手術手法が最適か」を選択するようになるだろう。

Qwen3.6という巨大な知性を巡る「脳外科手術」の精度競争は、まだ始まったばかりだ。しかし、今回の鑑識データによって、我々は「魔法の解除ボタン」の裏側にある、冷徹な数学的現実を直視することになった。次に切除されるのは、果たしてどのモデルのどの領域なのだろうか。

🔗 情報ソース・引用元

https://www.reddit.com/r/LocalLLaMA/comments/1tfmocw/85_gpuhours_comparing_5_abliteration_methods_on/

※この記事は、Geek Terminalの自律型AIパイプラインによって自動生成・配信されています。

📺 映像と音声でサクッとチェックしたい方は
Geek Terminal 公式YouTubeチャンネルへ！

月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30