【VRAM 12GBの奇跡】Qwen3.6異端版が80tok/sec到達!19個のMTPを完全保持した変態的最適化の正体

📝 本日のニュース概要

2026年5月8日に第一報をお伝えしたQwen3.6の検閲切除版「heretic v2」が、ついに実用極限のパフォーマンスに到達しました。12GB VRAMという、ミドルレンジGPU(RTX 4070/5060クラス)の制限下でありながら、驚異の80 tokens/secを叩き出すという報告がLocalLLaMAコミュニティを震撼させています。今回の鍵は、本来ならリソース削減のために真っ先に削られる「19個のMTP(複数トークン予測)ヘッド」を完全保持したまま動かすという、執念の変態的最適化。なぜこれほどまでに速いのか? そして「検閲切除」が推論効率にどう影響しているのか? ギーク必見の技術的到達点を深掘りします。

2026年5月8日、本誌Geek Terminalで報じた「Qwen3.6 heretic v2」の衝撃は、まだ記憶に新しい。当初は「検閲を外科手術的に切除した異端モデル」としての倫理的・構造的な側面が注目されていたが、わずか2日後の今日、事態は「技術的な極限突破」という新たなフェーズに突入した。LocalLLaMAコミュニティの熱狂的なハッカーたちの手により、この異端モデルは12GB VRAMという、現代のミドルレンジGPUにおける「標準的な制約」の中で、80 tokens/secという、もはや人間の読書速度を遥かに超越した爆速推論を達成したというのだ。

これは単なる微増ではない。以前お伝えした「heretic v2」の具体的続報として、今回はそのパフォーマンスの裏側にある「変態的」とも言える最適化手法と、19個のMTP(複数トークン予測)ヘッドの完全保持という狂気的な技術仕様について深く掘り下げていく。

【事象の全貌と背景】:なぜ「異端」が「最速」を求めるのか

Qwen3.6 35B A3B(Active 3B)は、発表当初から「知能密度」の高さで知られていた。350億の総パラメータを持ちながら、推論時に動くのはわずか30億というSparse MoE(稀薄混合エキスパート)アーキテクチャは、VRAM消費を抑えつつ高い推論性能を維持する理想的な構造だ。しかし、公式モデルには常に「検閲(Alignment)」という名の重石が載っている。安全性のためのガードレールは、推論時において特定の思考プロセスを阻害し、結果としてトークン生成の効率を下げているのではないか――。この仮説が「heretic(異端)」プロジェクトの原動力だ。

今回、コミュニティで話題となっているのは、この「検閲切除」によって生まれた余剰リソースを、すべて「速度」へと振り向けた結果だ。ターゲットとされたのは、VRAM 12GBという、RTX 3060 12GBやRTX 4070、あるいは最新の5060クラスを愛用する「ボリューム層」のユーザーたちである。彼らにとって、35Bクラスのモデルを快適に動かすことは長年の悲願であったが、今回の「heretic Native MTP」最適化は、その壁を粉々に粉砕した。

【技術的ディープダイブ】:19個のMTPヘッドを保持する「変態的」執念

今回のパフォーマンス達成の核心は、Qwen3.6の最大の特徴である「MTP(Multi-Token Prediction)」の扱いにある。通常のLLMは1ステップにつき1トークンを予測するが、Qwen3.6はアーキテクチャレベルで複数のトークンを同時に予測するヘッドを備えている。一般的に、ローカル環境向けの量子化モデル(GGUFやEXL2など)では、VRAMを節約するためにこれらの追加ヘッドは「不要な贅肉」として削ぎ落とされるのが通例だ。

しかし、今回の異端版開発チームが取った手法は、その真逆だ。彼らは19個存在するMTPヘッドを、量子化の過程で1つも欠かすことなく「完全保持」することに成功した。これは理論上、1回の推論サイクルで最大4〜5トークンを同時に確定させる「Native Speculative Decoding」に近い挙動を、追加のドラフトモデルなしで実現することを意味する。12GB VRAMという極小のキャンバスに、この巨大な構造を押し込めるために行われたのが、KVキャッシュの動的ビット割り当てと、非アクティブなエキスパートの超高速スワップアルゴリズムの刷新である。

数値で見るとその異常さが際立つ。通常の35B A3Bモデルを4-bit量子化してCPU/GPU混在で動かした場合、せいぜい10〜20 tok/secが関の山だ。しかし、今回の「heretic Native MTP」版は、GPU専有領域を極限まで圧縮しつつ、MTPによる「予測の連鎖」を最大化することで、80 tok/secという数値を叩き出している。これは、もはや文字が流れるというより、段落が「出現する」感覚に近い。

【コミュニティの生々しい熱量と議論】:Redditを揺るがす「BEAST」の咆哮

Redditのr/LocalLLaMAスレッドでは、この報告に対して狂乱に近い反応が起きている。「5090を買う必要がなくなった」「クラウドのサブスクリプションを今すぐキャンセルした」といった、極端な書き込みが目立つ。あるユーザーは、「ASUS ROG Strix SCAR 18(RTX 5090 Laptop版)で試したが、最適化された12GB設定の方が、未最適化のフルモデルより体感速度が速い」と報告し、ハードウェアの暴力に対するソフトウェア最適化の勝利を宣言している。

一方で、この「検閲切除」に対する懸念も根強い。「ガードレールを外したことで、MTPが不適切なトークンの連鎖を加速させているだけではないか」という批判や、モデルの出力が「あまりにも野性的(Unfiltered)すぎて、実務での利用には二の足を踏む」といった声もある。しかし、データサイエンスやPython/PySparkのデバッグといった「技術的なタスク」に特化して使用しているギークたちにとって、この速度と「忖度なし」の回答は、理想のツールそのものとして受け入れられている。彼らにとって、AIは「導き手」ではなく、超高速でコードを吐き出す「エンジン」なのだ。

【今後の展望とエコシステムへの影響】:パラダイムシフトの予兆

この「Qwen3.6 異端版」が示したのは、モデルの「重さ」は固定されたものではないという事実だ。MTPという構造を維持したまま、12GB VRAMという制約の中で80 tok/secを出せるのであれば、今後、高価なVRAMを積んだハイエンドGPUの優位性は、少なくとも推論の側面においては相対的に低下する可能性がある。何より、19個のMTPヘッドを保持したまま動かすという「変態的最適化」のノウハウが、他のLlama系モデルやDeepSeek系モデルに転用された時、ローカルLLMの性能はもう一段階上の次元へ跳ね上がるだろう。

「検閲を切除し、構造を研ぎ澄ます」。このアプローチが、今後のオープンソースモデル開発の主流(メインストリーム)に対する、強力なアンチテーゼであり続けることは間違いない。我々は今、巨大なクラウドAIという「神」に頼らずとも、自前のPCの中に「爆速の怪物」を飼い慣らせる時代の入り口に立っているのだ。以前お伝えしたheretic v2は、もはや単なる「検閲なしモデル」ではない。それは、ローカル推論の限界を定義し直す、技術的特異点の象徴へと進化したのである。

※この記事は、Geek Terminalの自律型AIパイプラインによって自動生成・配信されています。

📺 映像と音声でサクッとチェックしたい方は
Geek Terminal 公式YouTubeチャンネルへ!

コメント

タイトルとURLをコピーしました