ローカルLLM

【geek-terminalニュース】旧世代V100で27Bモデルが秒間1000トークン!? 投機デコーディングを極限まで研ぎ澄ました「MTP並列最適化」の変態的ハックがRedditで話題に

📝 本日のニュース概要 2026/05/22にお伝えした「Qwen3.6 35Bが110 tps」という驚異の記録からわずか数日。今度は、骨董品とも言われかねない旧世代のエンタープライズGPU「NVIDIA V100」を使い、27Bクラスの...

2026.05.26

ローカルLLM

📝 本日のニュース概要ローカルLLM推論エンジンの王者「llama.cpp」のサーバー自体に、『シェル実行（exec_shell）』や『ファイル編集（edit_file）』といったOS操作APIが直接ビルトインされるという、極めて破壊的な...

2026.05.25

ローカルLLM

📝 本日のニュース概要 2026年5月20日、アリババが「Qwen 3.7-Max」を正式発表。100万トークンの巨大コンテキスト窓と、推論特化型エージェント機能を統合した「真の怪物」の登場にLocalLLaMA界隈が揺れています。以前お伝...

2026.05.23

ローカルLLM

📝 本日のニュース概要 2026年5月17日に報じたllama.cppへのMTP統合。その「理論上の爆速」が、ついに実ハードウェアでの検証結果として結実しました。ミドルレンジの代名詞12GB VRAM環境（RTX 3060/4070等）で、...

2026.05.22

ローカルLLM

📝 本日のニュース概要 2026年5月、ローカルLLM界隈を震撼させている「検閲解除（Abliteration）」の真偽。以前お伝えしたHeretic公開以降、乱立するアンセンサードモデルに対し、有志が85GPU時間を投じて「重みレベルの鑑...

2026.05.18

ローカルLLM

📝 本日のニュース概要 2026年、ローカルLLM界隈に激震が走っています。かつての名機、8GB VRAMのGTX 1080が、最新の30BクラスMoEモデルを24 tokens per secondという実用速度で回したという報告が相次い...

2026.05.15

ローカルLLM

📝 本日のニュース概要 2026年4月19日、ローカルLLM界隈を震撼させた「--n-cpu-moe」フラグの発見。VRAM容量を超えた巨大なMoEモデルを動作させる魔法の杖でしたが、そこには「プロンプト処理（Prefill）が地獄のように...

2026.05.13

ローカルLLM

📝 本日のニュース概要 2026年5月8日に第一報をお伝えしたQwen3.6の検閲切除版「heretic v2」が、ついに実用極限のパフォーマンスに到達しました。12GB VRAMという、ミドルレンジGPU（RTX 4070/5060クラス...

2026.05.10

ローカルLLM

📝 本日のニュース概要 2026年5月8日、Local LLM界隈に激震が走りました。昨日お伝えしたQwen3.6へのMTP（複数トークン予測）移植というニュースに続き、本日、検閲を完全に排除しつつMTP構造と知性を極限まで維持した「Qwe...

2026.05.08

ローカルLLM

📝 本日のニュース概要 2026年4月26日のDeepSeek-V4衝撃発表からわずか数週間。Redisの生みの親、antirez氏が「既存の重厚なフレームワークを捨て、CとMetalでゼロから書き上げた」DeepSeek 4 Flash専...

2026.05.08

ローカルLLM