【執念のハック】ディスコンのIntel Optaneが「1兆パラメータモデル」を駆動？個人宅でKimi K2.5を実用速度で動かす変態ビルドの正体

📝 本日のニュース概要

📝 本日のニュース概要

かつてIntelが社運を賭けて投入し、そして静かに市場から消えていった「Intel Optane Persistent Memory」。しかし今、ローカルLLMコミュニティでこの「遺物」が、1兆パラメータ（1T）級の超巨大AIを駆動するための最強の武器として再定義されています。

RedditのLocalLLaMA等で報告された最新のビルドでは、Optaneを巨大なVRAM代替（階層ストレージ）として活用し、1兆パラメータを誇る「Kimi K2.5」を秒間4トークンという、個人環境としては驚異的な速度で動作させることに成功したという噂が飛び交っています。本動画では、なぜOptaneがNVMe SSDや通常のDRAMを凌駕する「AI専用メモリ」になり得るのか、その技術的背景とMoESys（Mixture-of-Experts System）の内部構造、そして中古市場でOptaneを漁り始めたギークたちの熱狂を深掘りします。

#LocalLLaMA #IntelOptane #LLM #AIハードウェア #KimiK25 #自作PC #機械学習 #MoE

2026年5月、AIハードウェア界隈で「死者の蘇生」とも呼べる奇妙な、しかし熱狂的なムーブメントが起きている。かつてIntelが「メモリとストレージの境界を破壊する」と豪語しながらも、コストと需要のミスマッチからディスコン（生産終了）へと追い込まれた悲運のデバイス「Intel Optane Persistent Memory（PMem）」が、1兆パラメータ（1T）を超える超巨大LLMをローカル環境で動かすための「聖遺物」として発掘されているのだ。RedditのLocalLLaMAコミュニティでは、このOptaneを積層した中古のXeonサーバーを用い、最新の1兆パラメータモデル「Kimi K2.5」を秒間約4トークンで駆動させたという報告が浮上。VRAM容量の壁に絶望していたギークたちに、新たな「容量限界突破」の道を示している。

【事象の全貌と背景】：VRAM飢餓時代に現れた「中古の救世主」

現代のAIシーンにおける最大のボトルネックは、演算性能（TFLOPS）ではなく「メモリ容量（VRAM）」である。1兆パラメータ規模のモデルをFP16精度でロードするには約2TB、高度に量子化（4-bit等）しても数百GBのメモリ空間を必要とする。NVIDIAのH100やB200をクラスタ化すれば解決する問題だが、個人ユーザーや中小規模の研究室にとって、数千万円単位の投資は非現実的だ。

ここで注目されたのが、Intel Optane PMemである。これはDDR4/DDR5のメモリスロットに直接差し込むことができる不揮発性メモリであり、SSDよりも圧倒的に速く、DRAMよりも圧倒的に安価にテラバイト級の容量を実現できる。Intelがこの事業から撤退したことで、エンタープライズ市場から放出された中古のOptaneモジュール（128GB/256GB/512GB）が、現在eBayなどの二次流通市場で「AI専用の格安拡張メモリ」としてギークたちの標的になっているのだ。

4月28日に本誌が報じた「接ぎ木ハック」は、異なる世代のGPUを物理的に混在させてVRAMを稼ぐアプローチだった。しかし今回の「Optaneハック」は、さらに低レイヤーな「メモリ階層そのものの再定義」である。GPUのVRAM、CPUのDRAM、そしてその背後に控えるOptane PMemを単一の巨大なアドレス空間として統合し、1兆パラメータという「神の領域」のモデルを個人宅の電源容量で動かそうという執念の産物である。

【技術的ディープダイブ】：DDR-TプロトコルとMoESysの魔法

なぜOptane PMemが、通常のNVMe SSDによるスワップ（オフローディング）よりも劇的に速いのか。その鍵は「DDR-Tプロトコル」と「バイトアドレッシング」にある。通常のSSDはブロック単位でデータを転送し、OSのカーネルやファイルシステムのオーバーヘッドを介するが、Optane PMemはCPUのメモリコントローラに直結され、DRAMと同様に1バイト単位で直接アクセスが可能だ。

コミュニティで議論されているビルドの多くは、arXivで公開された「MoESys（Mixture-of-Experts System）」の概念を応用している。MoEアーキテクチャのモデル（Kimi K2.5等）は、1兆個のパラメータを持っていても、1つのトークンを生成する際に活性化（計算に使用）されるのはそのうちの数％の「エキスパート」のみである。MoESysはこの特性を突き、以下のような階層管理を行う。

1. **HBM/VRAM（GPU）**: 現在計算中の「アクティブなエキスパート」を保持。
2. **DRAM（CPU）**: 次に呼び出される可能性の高いエキスパートを事前フェッチ（2D Prefetching）。
3. **Optane PMem**: 1兆パラメータの「全エキスパート」を格納する巨大なベースキャンプ。

Optane PMemを「AppDirectモード」で動作させ、FSDAX（File System Direct Access）を介してExt4ファイルシステム上に配置することで、CPUのページキャッシュをバイパスしたゼロコピー転送を実現する。これにより、PCIe帯域に縛られるNVMe SSDでは到底不可能な、低レイテンシかつ高帯域な「エキスパートの入れ替え」が可能になるのだ。Redditの報告によれば、この階層管理を最適化することで、1Tモデルにおいて実用的な「読書速度」に近い4 tok/sを叩き出しているという。

【コミュニティの生々しい熱量と議論】：変態ビルドへの賛辞と現実的障壁

RedditのLocalLLaMAスレッドでは、この報告に対して「Intelが捨てたゴミが、ついに真の居場所を見つけた」「これこそが真のサイバーパンクだ」といった熱狂的な書き込みが相次いでいる。あるユーザーは「中古のXeon Scalable（第2世代以降）とOptane 128GBモジュールを8枚揃えれば、1000ドル以下で1TBの高速推論空間が手に入る。RTX 5090を4枚買うより遥かに安上がりだ」と、その圧倒的なコストパフォーマンスを強調する。

しかし、この「変態ビルド」には相応の苦難も伴う。まず、マザーボードとCPUの制約だ。Optane PMemをフルスピードで動かすには、特定の世代のXeon（Cascade Lake以降）と、PMemに対応したエンタープライズ向けマザーボードが必須となる。また、BIOSの設定や「ipmctl」「ndctl」といったLinux用の専用ツールを駆使したメモリプロビジョニングは、一般的なPC自作ユーザーには極めてハードルが高い。

議論の中には「4 tok/sでは遅すぎる」という冷ややかな意見もあるが、これに対し「1兆パラメータのモデルをローカルで動かせること自体に意味がある。これは速度の問題ではなく、検閲のない、プライベートな『神』を自宅に所有できるかどうかの主権の問題だ」という哲学的な反論がなされ、大きな支持を得ている。また、この手法が確立されれば、将来的にCXL（Compute Express Link）ベースの次世代メモリ拡張デバイスへと技術が継承されることを期待する声も多い。

【今後の展望とエコシステムへの影響】：VRAM至上主義の終焉か

この「Optane再定義」の動きは、AIハードウェアのパラダイムシフトを予感させる。これまで「AI＝NVIDIA VRAM」という単一の評価軸に支配されてきたが、MoEのようなスパース（疎）なモデル構造が主流になるにつれ、メモリの「速度」よりも「階層構造の賢さ」が重要になってきているからだ。

Intelは既にOptane事業を終了しているが、皮肉にもAIブームがその価値を証明してしまった。今後、業界はCXLを用いた「メモリプーリング」へと本格的に舵を切るだろう。MicronやSamsungが開発を進めるCXLメモリ拡張モジュールが普及すれば、今回の「Optaneハック」のような複雑な職人芸を必要とせずとも、誰もがテラバイト級のメモリ空間を手に入れられる時代が来る。

しかし、それまでの間の「ミッシングリンク」として、中古のIntel OptaneはローカルLLM愛好家たちにとっての「プラチナチケット」であり続けるだろう。ディスコンになったハードウェアをハックして、最先端のAIをねじ伏せる。この執念こそが、テクノロジーを進化させる真の動力源なのだ。編集部では、この「メモリ階層革命」が、2026年後半に登場すると噂される次世代オープンソース10Tモデルの稼働にどう寄与するか、引き続き注視していく。

🔗 情報ソース・引用元

※この記事は、Geek Terminalの自律型AIパイプラインによって自動生成・配信されています。

📺 映像と音声でサクッとチェックしたい方は
Geek Terminal 公式YouTubeチャンネルへ！

月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30