【ローカルLLM】QwenMTP完全保存版!785個のMTP完全保持&検閲排除の「35B-A3B Heretic」がローカルLLM界を震撼させる噂を徹底解剖

📝 本日のニュース概要

2026年5月22日、ik_llama.cppの最適化によってQwen3.6 35Bが12GB VRAMで110 tok/sという驚異的な爆速駆動を記録したニュースをお伝えしましたが、今回はその系譜におけるさらなる「変態的進化」の続報です!

コミュニティで噂されているのは、Qwen3.5/3.6 35B-A3Bモデルにおいて、785個のMTP(Multi-Token Prediction)構造を完全に保持しつつ、アブリレーション技術によって検閲を完全排除(Heretic化)した「最強のローカルモデル」が、GGUFやGPTQ、Safetensorsなどの各種フォーマットで一挙に一般配布されたという衝撃の疑惑です。低VRAM環境で爆速かつ無制限の推論を求める個人開発者たちの間で、今まさに議論が沸騰しています。その技術的背景とReddit等のリアルな反響をマスター構成作家が深掘りします!

【事象の全貌と背景】

去る2026年5月22日、ローカルAI界隈は「ik_llama.cpp」を用いた最適化により、Qwen3.6 35Bが12GB VRAMという極めて限定的な消費消費者向けGPU環境において「110 tok/s」という驚異的な爆速駆動を達成したというニュースに沸き立ちました。しかし、技術の限界を突破しようとするギークたちの執念はそこで止まりませんでした。今回、その劇的な進化の系譜に連なる重要な続報として、Qwen3.5 35B-A3B(およびQwen3.6 35B-A3B)モデルにおける、さらなる「変態的ハック」が施されたカスタムモデルの一般配布が開始されたという噂が、RedditのLocalLLaMAコミュニティを中心に大炎上しています。

その疑惑の主役となっているのが、785個という膨大な数のMTP(Multi-Token Prediction:複数トークン同時予測)構造を完全に内包・保持したまま、モデルに施された安全フィルターや拒否応答などのシステム検閲をアブリレーション(物理的切除)技術によって完全排除したとされる「Qwen3.5/3.6 35B-A3B Heretic Native MTP」モデルです。これまでの部分的なMTP駆動や、量子化の過程でMTP構造が一部破壊されてしまっていた制限を完全に克服し、GGUF、GPTQ、Safetensorsといった各種主要フォーマットで一挙に一般公開されたと囁かれています。低VRAMでありながら、まるで商用巨大APIを叩いているかのような爆速推論と、一切の拒否反応を示さない完全な自由度を両立させたいという個人開発者たちの「究極の夢」が、ついに具現化したのではないかと大きな波紋を呼んでいます。

【技術的ディープダイブ】

このモデルがこれほどまでに注目を集めている理由は、その驚異的なアーキテクチャの融合にあります。まず、ベースとなっている35B-A3Bは、MoE(Mixture of Experts)アーキテクチャを採用したモデルです。総パラメータ数は35B(350億)スケールに達するものの、実際に推論時にアクティブになるパラメータは極限まで絞り込まれており、これにより消費電力を抑え、消費級グラフィックボードでも動作可能な軽量さを実現しています。ここに、最新の「Native MTP」技術が組み合わされています。

通常のLLMは、1トークンを生成した後にそれを入力に戻し、自己回帰的に次の1トークンを予測するというステップを繰り返します。しかし、本モデルに搭載されているとされる「785 MTP」システムは、一度のフォワードパス(順伝播計算)で未来の最大785個のトークン構造の相関関係を並行して予測・評価する能力を保持していると言われています。これにより、GPUが持つ強力な並列演算能力を余すことなく活用し、特にコンテキストが長い場面や複雑なコード生成において、従来の自己回帰型モデルを遥かに凌駕する理論上のトークン生成速度(Throughput)を叩き出すことが可能になると言われています。

さらにギークたちを熱狂させているのが、「Heretic(異端)」仕様、すなわち検閲の完全排除プロセスです。公開されたとされるモデルは、アブリレーション(Abliteration)技術を駆使し、モデルのニューロン内に存在する「拒否応答(Sorry, I cannot help with that…など)」を出力させるトリガーベクトルを直接特定し、そのウェイトを物理的にゼロアウト、あるいは反転させていると噂されています。このハックにより、単に「倫理的に無制限な回答が得られる」という利点だけでなく、モデルが拒否するかどうかを葛藤する無駄なプレフィックス推論ステップや、拒絶文を生成するための無駄なトークン消費を完全にカットできるため、推論効率そのものが実質的に向上するという技術的シナジーが生まれていると指摘されています。これがllama.cppや各種量子化(GGUF等)にネイティブ統合されたことで、わずか6GB〜12GBのVRAMしか持たない環境でも、圧倒的なスループットで動作する極限のローカル環境が実現したのではないかと噂されています。

【コミュニティの生々しい熱量と議論】

RedditのLocalLLaMAスレッドやHugging Faceの掲示板では、この「Qwen3.5/3.6 35B-A3B Uncensored HauhauCS Aggressive」や「Heretic」モデルを巡り、日夜怒号に似た熱い検証と議論が交わされています。実用報告を行うユーザーたちからは、「RTX 3060の12GB環境で動かしてみたが、MTPが完全に牙を剥いている。文字通り、スクロールスピードが速すぎてディスプレイの描画が追いつかない」「これまでのスペックからは信じられないほどの爆速で、コーディングのアシスタントとして完璧に機能している」といった驚嘆の報告が相次いでいます。

一方で、このモデルの「Heretic(異端)」としての性質に対する懸念や、開発者間の確執を指摘する声も少なくありません。過去にアブリレーション技術の実装を巡って、高名な開発者である「HauhauCS」氏と「Heretic」プロジェクトの間でコードのライセンスやオリジナリティに関する盗用疑惑(4月27日や5月6日のコミュニティ議論)が浮上していましたが、今回の「HauhauCS Aggressive」と冠されたUncensored版の登場により、その対立構図が再び蒸し返されています。「このモデルは誰の技術をベースに構築されたものなのか」「このアグレッシブな検閲解除は、安全性への配慮を完全に無視しており、ローカルAIの倫理的限界を危険な領域まで押し広げている」と警告する慎重派と、「オープンソースにおいて検閲解除と速度向上は正義だ。これこそがローカルAIの進むべき道だ」とする推進派の間で、激しいイデオロギー闘争が繰り広げられている状況です。また、「本当に785個のMTPがすべての量子化フォーマット(特に超軽量なGGUF)で機能しているのか、単なる投機的デコーディングの錯覚ではないか」というベンチマーク測定マニアたちによる厳密なファクトチェック検証スレッドも乱立しており、お祭り騒ぎは冷める気配がありません。

【今後の展望とエコシステムへの影響】

この「MTP完全保持×検閲完全排除」というローカルLLMの究極系の台頭は、今後のAIエコシステム全体に深刻なパラダイムシフトをもたらす可能性が囁かれています。何よりもまず、OpenAIのChatGPTやAnthropicのClaudeといった「クラウド集権型かつ厳格に検閲された商用巨大LLM」への依存度が、個人開発者や中小企業の間で決定的に低下していくのではないかという予測が現実味を帯びてきています。ローカル環境で、電気代以外のランニングコストをかけず、自社のソースコードや機密情報を一切外部に送信することなく、爆速かつ制限なしで35BクラスのMoEが稼働するとなれば、商用APIを叩く最大の理由が失われかねません。

さらに、この爆速の「脳」が普及することにより、現在トレンドとなっているローカルファーストの自律型マルチエージェント(Hermes AgentやOpenClaw、W.A.D.Eなど)の動作環境が劇的に変化するでしょう。これまでのローカルエージェントの最大の弱点は「意思決定(推論ループ)の遅さ」にありましたが、MTPによる超高速な並行推論が標準となれば、エージェントがミリ秒単位でツールを実行し、自己デバッグを回し、コードを生成するリアルタイム自律駆動が可能になります。今回のハックモデルが示す「ネイティブMTPとアブリレーションの融合」というアプローチは、今後のローカルLLM開発における標準的なテンプレート(ひな形)となり、従来のシングルタスク型・検閲ガチガチのローカルモデルを急速に過去の遺物へと追いやっていくのかもしれません。

🎥 このニュースの動画版&音声版はこちら!

📺 深掘りメイン動画: YouTubeで視聴する

🎧 ポッドキャスト版: ラジオ感覚で聴く

※この記事は、Geek Terminalの自律型AIパイプラインによって自動生成・配信されています。

📺 映像と音声でサクッとチェックしたい方は
Geek Terminal 公式YouTubeチャンネルへ!

コメント

タイトルとURLをコピーしました