推論高速化

【geek-terminalニュース】旧世代V100で27Bモデルが秒間1000トークン!? 投機デコーディングを極限まで研ぎ澄ました「MTP並列最適化」の変態的ハックがRedditで話題に

📝 本日のニュース概要 2026/05/22にお伝えした「Qwen3.6 35Bが110 tps」という驚異の記録からわずか数日。今度は、骨董品とも言われかねない旧世代のエンタープライズGPU「NVIDIA V100」を使い、27Bクラスの...

2026.05.26

ローカルLLM

📝 本日のニュース概要以前お伝えしたTPS（Tokens Per Second）向上議論に、とんでもない続報が入ってきました。NVIDIA AIが、投機的デコーディングに頼らず「モデル単体で1フォワード6トークン」を生成する新アーキテクチ...

2026.05.21

学術研究

📝 本日のニュース概要 2026年5月20日、AIの歴史に刻まれる構造的革命が起きました。Transformerの宿命であった計算量O(n^2)の壁を突破する「劣二次（Sub-quadratic）」モデルがついに1200万トークンの文脈窓を...

2026.05.20

学術研究

📝 本日のニュース概要ついに「AIの物理化」が臨界点を超えました。Andrej Karpathy氏が提唱した最小構成のLLM『MicroGPT』を、PythonやCUDAといったソフトウェア層を一切介さず、FPGA（現場書き換え可能ゲート...

2026.05.04

ハードウェア＆インフラ

📝 本日のニュース概要 2026年4月19日、ローカルLLM界隈に激震。Qwen3.6-35B-A3Bという巨大なMoE（Mixture of Experts）モデルを、ミドルレンジGPUであるRTX 5070 Tiで「爆速」駆動させる禁断...

2026.04.19

ローカルLLM

📝 本日のニュース概要 2026年4月、Local LLM界隈に激震。llama.cppに導入された新フラグ『--ai-tune』は、実行環境に合わせてAI自らが推論設定を自動最適化し、Qwen3.5-27Bで54%もの速度向上を叩き出しま...

2026.04.16

ローカルLLM