vLLM

ハードウェア&インフラ

【200ポンドの狂気】中古の爆安サーバー用GPU「Tesla V100」を3Dプリンタとダクトファンで一般PCへ強引に移植する変態肉体派ハックが話題に!

📝 本日のニュース概要 2026年現在、高騰を極めるコンシューマー向け大容量VRAM GPU。そんな中、数年前のデータセンター向けモンスターGPU「Tesla V100」が中古市場に200ポンド(約4万円)で大量放出されていることに目をつけ...
ローカルLLM

【geek-terminal】MoEオフロードの「呪い」が解けた!Prefill加速で巨大LLM常用時代へ

📝 本日のニュース概要 2026年4月19日、ローカルLLM界隈を震撼させた「--n-cpu-moe」フラグの発見。VRAM容量を超えた巨大なMoEモデルを動作させる魔法の杖でしたが、そこには「プロンプト処理(Prefill)が地獄のように...
ローカルLLM

【DeepSeek-V4】100万トークンの壁を「数学的圧縮」で粉砕!VRAM消費を1/10にする新アーキテクチャCSA/HCAの正体

📝 本日のニュース概要 AI界の効率モンスター、DeepSeekが最新モデル『DeepSeek-V4』を発表しました。特筆すべきは、100万トークン(1M context)という超長文を、従来の10%のKVキャッシュで実現した「Compre...
ローカルLLM

【衝撃】Qwen3.6-35B-A3Bがリリース!RTX 4090で「25万トークン」を飲み込むローカルエージェントの怪物を徹底解剖

📝 本日のニュース概要 2026年4月、Qwenチームから最新モデル「Qwen3.6-35B-A3B」が突如リリースされました。総パラメータ35Bに対し、アクティブパラメータをわずか3Bに抑えたMoE(Mixture of Experts)...
ハードウェア&インフラ

【Geek Terminal】RTX 5090 Blackwell真価発揮!Gemma 4 × NVFP4が叩き出す「爆速」の衝撃と、露呈した4bitの壁

📝 本日のニュース概要 2026年4月、ローカルLLM界隈はRTX 50シリーズ(Blackwell)のネイティブ4bit演算「NVFP4」の実装で沸騰しています。Gemma 4 26BをvLLMやllama.cppで動かした際の圧倒的なス...