推論高速化

ローカルLLM

【geek-terminalニュース】旧世代V100で27Bモデルが秒間1000トークン!? 投機デコーディングを極限まで研ぎ澄ました「MTP並列最適化」の変態的ハックがRedditで話題に

📝 本日のニュース概要 2026/05/22にお伝えした「Qwen3.6 35Bが110 tps」という驚異の記録からわずか数日。今度は、骨董品とも言われかねない旧世代のエンタープライズGPU「NVIDIA V100」を使い、27Bクラスの...
学術研究

【衝撃】NVIDIAが放つ「Tri-mode推論」がヤバすぎる!1回の計算で6トークン並列生成、Qwen3ベースで推論の物理的限界を突破か?

📝 本日のニュース概要 以前お伝えしたTPS(Tokens Per Second)向上議論に、とんでもない続報が入ってきました。NVIDIA AIが、投機的デコーディングに頼らず「モデル単体で1フォワード6トークン」を生成する新アーキテクチ...
学術研究

【衝撃】1200万トークンを52倍速で処理!Transformerを殺す「SubQアーキテクチャ」がAIの歴史を塗り替える

📝 本日のニュース概要 2026年5月20日、AIの歴史に刻まれる構造的革命が起きました。Transformerの宿命であった計算量O(n^2)の壁を突破する「劣二次(Sub-quadratic)」モデルがついに1200万トークンの文脈窓を...
ハードウェア&インフラ

【衝撃】AIが「回路」になった。Karpathy MicroGPTをFPGA化、毎秒5万トークンの異次元推論がGPUを嘲笑う

📝 本日のニュース概要 ついに「AIの物理化」が臨界点を超えました。Andrej Karpathy氏が提唱した最小構成のLLM『MicroGPT』を、PythonやCUDAといったソフトウェア層を一切介さず、FPGA(現場書き換え可能ゲート...
ローカルLLM

【Geek Terminal】RTX 5070 Tiで79t/sを叩き出す変態技術!Qwen3.6 MoEの「VRAM不足」を力技で解決する新フラグの衝撃

📝 本日のニュース概要 2026年4月19日、ローカルLLM界隈に激震。Qwen3.6-35B-A3Bという巨大なMoE(Mixture of Experts)モデルを、ミドルレンジGPUであるRTX 5070 Tiで「爆速」駆動させる禁断...
ローカルLLM

【llama.cpp神アプデ】AIが自身を最速化する『–ai-tune』実装!Qwen3.5-27Bが54%爆速化&128KコンテキストがVRAM数GBで動く時代へ

📝 本日のニュース概要 2026年4月、Local LLM界隈に激震。llama.cppに導入された新フラグ『--ai-tune』は、実行環境に合わせてAI自らが推論設定を自動最適化し、Qwen3.5-27Bで54%もの速度向上を叩き出しま...