ローカルLLM

ローカルLLM

【geek-terminalニュース】旧世代V100で27Bモデルが秒間1000トークン!? 投機デコーディングを極限まで研ぎ澄ました「MTP並列最適化」の変態的ハックがRedditで話題に

📝 本日のニュース概要 2026/05/22にお伝えした「Qwen3.6 35Bが110 tps」という驚異の記録からわずか数日。今度は、骨董品とも言われかねない旧世代のエンタープライズGPU「NVIDIA V100」を使い、27Bクラスの...
ローカルLLM

【衝撃】llama.cppに「シェル実行」がネイティブ内蔵されるとの噂!ミドルウェア不要論とインジェクションの恐怖【LocalLLaMA大激論】

📝 本日のニュース概要 ローカルLLM推論エンジンの王者「llama.cpp」のサーバー自体に、『シェル実行(exec_shell)』や『ファイル編集(edit_file)』といったOS操作APIが直接ビルトインされるという、極めて破壊的な...
ローカルLLM

【衝撃】Qwen 3.7-Max降臨!100万文脈×推論エンジンの破壊力。RAG終焉のカウントダウンか?

📝 本日のニュース概要 2026年5月20日、アリババが「Qwen 3.7-Max」を正式発表。100万トークンの巨大コンテキスト窓と、推論特化型エージェント機能を統合した「真の怪物」の登場にLocalLLaMA界隈が揺れています。以前お伝...
ローカルLLM

【衝撃】12GB VRAMで35Bモデルが110 tok/s!?ik_llama.cppが物理限界を突破した「思考の速度」超えベンチマークを徹底解説

📝 本日のニュース概要 2026年5月17日に報じたllama.cppへのMTP統合。その「理論上の爆速」が、ついに実ハードウェアでの検証結果として結実しました。ミドルレンジの代名詞12GB VRAM環境(RTX 3060/4070等)で、...
ローカルLLM

【geek-terminalニュース】Qwen3.6「検閲除外」の狂気。85時間の重み鑑識が暴いた脳外科手術の真実

📝 本日のニュース概要 2026年5月、ローカルLLM界隈を震撼させている「検閲解除(Abliteration)」の真偽。以前お伝えしたHeretic公開以降、乱立するアンセンサードモデルに対し、有志が85GPU時間を投じて「重みレベルの鑑...
ローカルLLM

【衝撃】10年前のGTX 1080が最新30B MoEで24 tok/sを記録!?富豪ハードへの「最適化」という名の反逆

📝 本日のニュース概要 2026年、ローカルLLM界隈に激震が走っています。かつての名機、8GB VRAMのGTX 1080が、最新の30BクラスMoEモデルを24 tokens per secondという実用速度で回したという報告が相次い...
ローカルLLM

【geek-terminal】MoEオフロードの「呪い」が解けた!Prefill加速で巨大LLM常用時代へ

📝 本日のニュース概要 2026年4月19日、ローカルLLM界隈を震撼させた「--n-cpu-moe」フラグの発見。VRAM容量を超えた巨大なMoEモデルを動作させる魔法の杖でしたが、そこには「プロンプト処理(Prefill)が地獄のように...
ローカルLLM

【VRAM 12GBの奇跡】Qwen3.6異端版が80tok/sec到達!19個のMTPを完全保持した変態的最適化の正体

📝 本日のニュース概要 2026年5月8日に第一報をお伝えしたQwen3.6の検閲切除版「heretic v2」が、ついに実用極限のパフォーマンスに到達しました。12GB VRAMという、ミドルレンジGPU(RTX 4070/5060クラス...
ローカルLLM

【衝撃】Qwen3.6 27B検閲解除v2降臨!MTP構造を維持したまま「知性の物理切除」に成功。KLD 0.0021の驚異を徹底解説

📝 本日のニュース概要 2026年5月8日、Local LLM界隈に激震が走りました。昨日お伝えしたQwen3.6へのMTP(複数トークン予測)移植というニュースに続き、本日、検閲を完全に排除しつつMTP構造と知性を極限まで維持した「Qwe...
ローカルLLM

【geek-terminalニュース】Redisの父antirezが放つ、DeepSeek 4 Flash専用「極小・爆速」Metal推論エンジンが革命を起こす

📝 本日のニュース概要 2026年4月26日のDeepSeek-V4衝撃発表からわずか数週間。Redisの生みの親、antirez氏が「既存の重厚なフレームワークを捨て、CとMetalでゼロから書き上げた」DeepSeek 4 Flash専...