クラウドのAIサービスは便利だ。けれど「このデータは外に出せない」という現場では、手元のマシンでLLM(大規模言語モデル)を動かす——いわゆるローカルLLM——という選択肢が現実味を帯びてくる。
そこで最初に選択を迫られるのが、ハードウェアの問題だ。2026年現在、選択肢は「速いGPUを買う」だけではなくなった。専用GPUと、Unified Memory(統合メモリ)という新しいカテゴリの、二つの世界がある。どちらをどう選べばよいのか、整理してみたい。
1. なぜローカルでLLMを動かすのか——機密情報を扱う現場の事情
性能だけ見れば、クラウドのフロンティアモデル(最上位の商用AI)に手元のマシンが勝てるわけではない。ローカルLLMを選ぶ理由は、性能以外のところにある。
第一に、データを外に出せないから。 個人情報、医療記録、法務文書、契約書、未公開の研究データ、社外秘の設計情報——これらをクラウドAPIに送ることは、技術的には「外部送信」そのものだ。規制(個人情報保護、業界ごとのコンプライアンス)、秘密保持契約、研究倫理上の制約のいずれかに抵触する場面は珍しくない。ローカルなら、データは一歩も建物の外に出ない。これは性能のトレードオフではなく、そもそも土俵が違うという話だ。
第二に、提供停止やバージョン変更のリスク。 クラウドのモデルは「使う権利を借りている」状態で、貸し手の都合で止まる。エンドポイントが予告少なく廃止されたり、ある日アクセスが制限されたりする事例は実際に起きている。借り物のうえに業務や研究を積むと、その日に止まる。手元にダウンロードした重み(モデルの中身)は、誰かが遠隔で消すことはできない。
- 「Claude Fable 5」「Mythos 5」全面停止 米政府の指令により Anthropicは早期復旧を宣言 2026年06月13日 10時50分 公開 [山川晶之,ITmedia] 米Anthropicは6月12日(現地時間)、最上位AIモデル「Claude Mythos 5」と、Mythos 5に保護機能を実装した「Claude Fable 5」の提供を全ユーザーで停止すると発表した。米政府が安全保障上の権限に基づき、外国籍者による両モデルへのアクセスを全て停止するよう求める輸出規制指令を出したため。… Fable 5は10日に一般公開されたばかりで、3日での全面停止となる。
- GPUサーバー導入に補助金は使える?主要な補助金と税制優遇を一括解説【2026年版】 NTT PC コミュニケーションズ株式会社 GPUを活用したAI基盤の構築には、主にオンプレミスでGPUサーバーを運用する方法とクラウドGPUを利用する方法の2つがあります。
第三に、再現性。 特に研究では、「半年後に同じ条件でもう一度実行できる」ことが価値を持つ。クラウドのモデルは中身が静かに更新されるため、過去の結果を再現できなくなることがある。ローカルの重みは凍結されていて、何カ月後でも同じ入力に同じ条件で答える。
第四に、コスト構造。 クラウドは従量課金(使った分だけ継続的に払う)、ローカルは初期投資(一括で買って所有する)。叩く量が多く、長く使うほど、ある時点で所有の方が安くなる。月あたりの利用額が一定規模を超えるなら、半年〜1年程度で元が取れるという試算もある。
裏を返せば、ローカルは自分でハードを選び、運用する責任を引き受けるということでもある。
さて、本題に入ろう。
2. 必要なハードウェア選び——GPUか、Unified Memoryか
ローカルLLMのハードは、大きく二つの設計思想に分かれる。
専用GPU(dedicated VRAM)
従来型の「グラフィックボード」だ。GPUの基板上に、超高速の専用メモリ(VRAM、たとえばGDDR7)が載っている。特徴は帯域がとにかく速いこと。一方で、容量は限られ、価格は高い。プロ向けの最上位カードでも、1枚に載るメモリは数十GB〜96GBほどだ。
- NTT PC コミュニケーションズ:RTX PRO 6000 Blackwell Max-Q導入ガイド:他エディションとの違いとマルチGPU構成の選定基準 RTX PRO 6000 Blackwell Max-Qは、最大消費電力を300Wに抑えた設計を採用し、空冷前提のまま1台のワークステーションに最大4枚のGPUを搭載できる点が大きな特徴 … 同じRTX PRO 6000 Blackwellシリーズでも、エディションごとに「電力枠」「冷却」「フォームファクタ」「想定環境」が明確に分かれている点を押さえることが重要です。
- 価格.com NVIDIA NVIDIA RTX PRO 6000 Blackwell Max-Q Workstation Edition 900-5G153-2500-000 [PCIExp 96GB] 価格比較 価格.com 最安価格 1,799,980円 2025年5月 発売 消費電力 300 W メモリGDDR7 96GB
- 価格.com NVIDIA RTX PRO 6000 Blackwell Workstation Edition 900-5G144-2500-000 [PCIExp 96GB] 価格.com 最安価格2,188,000円 2025年5月 発売 消費電力 600 W メモリGDDR7 96GB
- NVIDIA RTX PRO 6000 Blackwell Max-Q Workstation Edition 価格: 1,347,500円(税込・送料込) ブラックドラゴンキャンペーン 2026年3月31日(火)まで
Unified Memory(統合メモリ)
CPUとGPUが、一つの大きなメモリを共有する設計。AppleのMシリーズ(Mac)、AMDのStrix Halo(Ryzen AI Max+ 395)、NVIDIAのGB10(DGX Sparkに搭載)が代表格だ。特徴は逆で、容量が大きく、相対的に安い。128GB、最大512GBといった大容量を、専用GPUよりはるかに低コストで持てる。ただし帯域は遅い。
-
Mac Studio(アップル)M3 UltraチップAppleで最もパワフルなチップ。899,800円から。32コアCPU、80コアGPU。メモリ96GB。総額:1,169,800円。出荷日:13〜14週間
- AMDが本気の“AIパソコン”発表、200B級モデルが動いて3999ドル 2026年05月21日 15時00分更新 文● G.Raymond 編集●ASCII Ryzen AI Haloは128GBのユニファイドメモリを備え、最大2000億パラメータ(200B)級のモデルをローカルで扱うことができる。
- メモリ容量が最大192GBに! AMDが新型モンスターAPU「Ryzen AI Max PRO 400」を発表 2026年05月22日 09時00分 公開 [井上翔,ITmedia] AMDは5月20日(米国太平洋夏時間)、新型のハイエンドAPU(GPU統合型CPU)「Ryzen AI Max PRO 400」を発表した。搭載PCは2026年第3四半期(7~9月)以降にHPやLenovoから発売される予定で、自社開発のミニPC「Ryzen AI Halo」にも搭載する予定だ。… 基本仕様は既存の「Ryzen AI Max 300」シリーズから大きく変わらないが、搭載できるユニファイドメモリの容量を最大128GBから最大192GBとした上で、グラフィックスメモリに割り当てられる容量も最大96GBから最大160GBに引き上げたことが特徴だ。 AMDは本APUを「世界初の3000億パラメーター超のLLM(大規模言語モデル)をローカル実行できるx86プロセッサ」とうたっている。
- AI開発のコストとスピードを両立─NVIDIA DGX Sparkがもたらす新時代のGPU基盤 NTT PCコミュニケーションズ
- DGX Spark(アプライド for University)
- NVIDIA DGX Spark 大規模AIモデル検証 ローカル生成AI開発 AIワークステーション (UNIPOS) DGX Spark は「大規模学習を目的としたクラスター」ではなく、大規模AIモデルを“安全かつ高速に試す”ための検証環境として設計されています。
- Dell Pro Max with GB10 NVIDIA GB10 Grace CPU (10 Cortex-X925 + 10 Cortex-A725 コア)、NVIDIA GB10 Blackwell GPU、128 GB LPDDR5X 1,134,750円 税込・配送料込
ここで一番大事な概念:生成速度は「メモリ帯域」で決まる
直感に反するが、これがすべての判断の土台になる。
LLMがテキストを1トークン(おおよそ1単語の断片)生成するたびに、モデルの重み全体をメモリから一度読み出す。 その読み出し速度(GB/s)が、1秒あたり何トークン出せるか(tokens/sec、以下 t/s)をほぼ決める。計算力(TFLOPS)ではなく、メモリの帯域がボトルネックなのだ。
具体的な帯域を並べると、その差は歴然とする。
| ハードウェア | メモリ容量 | メモリ帯域(目安) |
|---|---|---|
| 専用GPU(プロ向け最上位 Blackwell世代) | 96GB | 約1,792 GB/s |
| Apple Mac Studio(M3 Ultra) | 最大512GB | 約819 GB/s |
| Apple Mac Studio(M4 Max) | 最大128GB級 | 約546 GB/s |
| NVIDIA DGX Spark(GB10) | 128GB | 約273 GB/s |
| AMD Strix Halo(Ryzen AI Max+ 395) | 128GB | 約256 GB/s |
専用GPUの帯域は、統合メモリ機のおよそ3〜7倍ある。だから「同じモデルが両方に載る」場合、生成の速さでは専用GPUが明確に勝つ。
ところが統合メモリには、専用GPUに載りきらない巨大なモデルをそもそも載せられるという強みがある。つまり構図はこうだ——
- 専用GPU:速い。が、容量の壁が低く、高い。
- 統合メモリ:大きいモデルが載る。安い。が、遅い。
「載るか」と「実用的な速さで動くか」は別問題だ、というのがこの章の結論になる。
3. スペック:どれだけのVRAM/メモリが要るか
必要なメモリ量は、モデルのパラメータ数 × 量子化(精度を落として軽くする度合い)でほぼ決まる。ざっくりの早見表が下記だ(推論時、コンテキスト分の余裕は別途必要)。
| モデル規模 | Q4(4bit、軽量) | Q8(8bit) | FP16(フル精度) |
|---|---|---|---|
| 7〜8B | 約5GB | 約9GB | 約16GB |
| 13B | 約8GB | 約14GB | 約26GB |
| 30〜31B | 約20GB | 約34GB | 約62GB |
| 70B | 約40GB | 約70GB | 約140GB |
| 120B級(MoE) | 約60〜70GB | — | — |
| 235B級(MoE) | 約118GB | — | — |
量子化は、画像でいうJPEG圧縮のようなもの。Q4まで落としても実用品質はかなり保たれるため、ローカルでは70BモデルをQ4で約40GB、というのが一つの基準になる。
帯域が決める「体感速度」
同じモデルでも、ハードの帯域で生成速度はこれだけ変わる(70Bクラスの目安)。
- AMD Strix Halo(約256 GB/s):12〜15 t/s
- Apple Mac Studio(546〜819 GB/s):20〜30 t/s
- 専用GPU(約1,792 GB/s):34 t/s以上
- DGX Spark(273 GB/s、重いFP8負荷時):わずか2.7 t/s
人が快適に読める速度はおおよそ10 t/s以上。DGX Sparkの数字が極端に低いのは、誤設定ではなく「約42GBの重みを273 GB/sのパイプで1トークンごとに読む」という物理そのものだ。高価な計算ユニットを積んでいても、メモリが追いつかなければ宝の持ち腐れになる——帯域がボトルネックだと、計算力を足しても無駄という良い実例だ。
MoEというどんでん返し
ここで近年の重要な変化が、MoE(Mixture of Experts、混合エキスパート)モデルだ。MoEは巨大な総パラメータを持ちながら、1トークンごとにその一部(活性パラメータ)だけを読む構造になっている。
たとえば総パラメータ80BでもトークンあたりわずかN B(数B)しか読まないMoEは、同じマシン上で、全パラメータを読む31Bの「密」モデルより数倍速く生成できる。「大きくて賢いのに、軽くて速い」という両取りが起きる。
これは統合メモリにとって追い風だ。低い帯域という弱点を、MoEが構造的に覆い隠してくれる。実際、24GBしかないGPUでMoEのエキスパート部分をシステムRAMに逃がしても、実用的な速度(約20 t/s)で動かせたという報告もある。
ただし万能ではない。MoEは知識・記憶系のタスクでは総パラメータ相応に強いが、推論(論理を積み上げる課題)では同規模の密モデルに劣ることがあると指摘されている。各エキスパートが訓練データの一部しか見ないため、汎化が制約される、という理屈だ。
プロンプト処理(prefill)と生成(decode)は別物
もう一つ、見落とされがちな分割がある。LLMの処理は二段階だ。
- prefill(プロンプト処理):入力文を読み込む段階。計算律速。長い文書やRAG(検索した文脈を大量に与える方式)では、ここが重くなる。
- decode(生成):答えを1トークンずつ吐く段階。帯域律速。
この二つは得意なハードが違う。DGX Sparkは計算が強いのでprefillが非常に速い(120Bモデルで毎秒約1,700トークンを処理)一方、Strix Haloは同じ場面で5倍ほど遅い。逆にdecodeでは、帯域の大きいMacや専用GPUが有利になる。長文を大量に読ませる用途ならprefill性能を、対話的にどんどん生成させたいならdecode性能(=帯域)を重視する、という使い分けになる。
4. GPU/VRAM以外に考慮すべきこと
カードのスペック表に出ない要素が、実は運用の満足度を大きく左右する。
データ転送速度(メモリ帯域、そして多GPU間の接続)
帯域が主役なのは繰り返したとおり。加えて、複数のGPUをつなぐ場合の接続速度も効いてくる。データセンター向けカードはNVLinkという高速リンク(900 GB/s級)でGPU同士を結ぶが、ワークステーション向けカードはこれを持たず、PCIe(128 GB/s級)でつなぐ。1枚に収まるモデルなら無関係だが、2枚以上で1つのモデルを分割して動かす(テンソル並列)と、この接続速度が足を引っ張る。「大きい1枚」と「小さい複数枚」では、前者の方が素直に速いことが多い。
電力・電気代
消費電力は機種で桁が違う。プロ向け最上位GPUは300W〜600W、DGX Sparkは約240W、Mac Studioはアイドル時わずか9W。24時間動かす運用なら、3年単位の電気代(TCO、総保有コスト)に無視できない差が出る。電力は熱に変わり、熱は冷却を要求し、冷却は騒音を生む——すべて連鎖している。
発熱・冷却・騒音
オフィスや研究室の机に置くなら、騒音は死活問題だ。「ジェットエンジンみたいな音がするマシンは、結局使われなくなって机の上で眠る」。静粛性ではMac Studioが頭一つ抜けており、ブロワー型ファンやサーバー向けの受動冷却カードは高負荷時に甲高い音を出しやすい。設置場所と運用時間を、買う前にイメージしておきたい。
ソフトウェアの生態系(地味だが最重要級)
ハードの数字以上に効くのが、対応ソフトの成熟度だ。
- CUDA(NVIDIA):最も成熟。ほぼすべてのAIフレームワークが第一に対応する。学習(fine-tuning)まで含めて鉄板。
- ROCm(AMD):急速に良くなっているが、まだCUDAほどの厚みはない。推論はかなり実用的、本格的な学習はまだ発展途上。
- Metal / MLX(Apple):推論には優秀。一方でCUDA専用のフレームワークは動かず、学習用途には不向き。
「安くて大容量だから」とAMDやAppleを選んだら、使いたいツールが動かなかった——という落とし穴は実在する。何を動かしたいかを先に決めてからハードを選ぶこと。
学習(fine-tuning)まで視野に入れるなら、話は別物
ここまでは「推論(動かすだけ)」の話。モデルを自分のデータで微調整する学習は、必要メモリが推論より桁違いに大きい。軽量なQLoRAという手法でも70Bモデルで約38GBのVRAMを使い、フルの追加学習になると約300GB——もはや個人のマシンではなくクラウドの領域だ。時々しか学習しないなら、その時だけクラウドGPUを数時間借りる方が、機材を抱えるより安いことも多い。
2026年特有の事情:メモリ価格の高騰
2026年はDRAM/LPDDR5Xの供給が逼迫し、メモリ価格が普段より高い。実際、大容量機の値上げや上位構成の廃止といった動きが出ている。買うタイミングが例年以上に効く年なので、急がない買い物なら相場も気にしておきたい。
- GPUスペック表の見方を徹底解説-メモリ・TFLOPSなど性能を決める5つの要素とAI学習・推論など用途別の選定ポイント NTT PCコミュニケーションズ メーカー公表の仕様値(VRAM、TFLOPS等)や汎用的なベンチマークスコアを“数値だけで単純比較”してGPUを選定した結果、想定した性能が出ない、あるいはコストに見合わない構成となってしまう例も見受けられます。特に2026年現在では、従来の「演算性能(TFLOPS)中心」の見方だけでは不十分となり、電力や冷却といったインフラ要件も含めて、VRAM容量やメモリ帯域幅、アーキテクチャ世代など、実運用に直結する指標を踏まえた判断が求められています。
5. ベンダー選び
調達経路は、おおむね4タイプ。それぞれ強みが違う。
① 大手OEM(DELL/HP/Lenovo)
DELLの Precision、HPの Z シリーズ、Lenovoの ThinkStation。プロ向けGPUを正式構成として載せられる。 強み:法人サポートと保証が手厚い。組織の購買ルート(既存契約、相見積もり)に乗せやすく、経理・監査の書類も揃いやすい。「組織として一番通しやすい」のがここ。 弱み:将来拡張の自由度は機種設計に縛られる。「2枚目を後から挿せるか」は型番次第。価格はやや割高だが、保守込みと考えれば妥当。
- DELL
- LENOVO
- ThinkStation PGX は、NVIDIA DGX™ OS と NVIDIA AI ソフトウェア スタックがプリロードされており、AI モデル開発に最適な環境を提供
- ThinkStation P5 Gen 2 NVIDIA RTX PRO™ 5000 Blackwell 72GB GDDR7 (ECC付) オプション +¥1,980,000
- HP
- OMEN MAX 45L Gaming Desktop GT23-0000jp プリエミネントモデル【C1】NVIDIA製グラフィックス、NVIDIA GeForce RTX 50シリーズを搭載。
②カスタム/システムインテグレータ(GDEP、HPCシステムズなど)
AI・HPC向けに最初から多GPU・大電源を前提に組んでくれる専門ベンダー。強み:拡張性の作り込みが一番得意。「2枚目を後から挿せる電源・スロット・冷却」を設計段階で指定できる。研究機関向けの実績やアカデミック価格に強いところも多い。 弱み:一般知名度が低く、組織で「初めての業者」だと手続きがやや増えることがある。
- 株式会社ジーデップアドバンス:¥3,980,000 RTX6000 Blackwell MaxQ:96GBメモリのハイエンドGPU DeepLearningSTATIONII 合計お見積金額 4,458,190円 1x NVIDIA RTX PRO 6000 Blackwell Max-Q Workstation 96GB GDDR7 PCIe5.0 Active Cooling アカデミックプライス
- uniV 大学向けオーダーメイド
- DeepLearingBOXⅢ/Win NVIDIA Blackwell アーキテクチャーGPUであるRTX PRO 6000 Blackwellシリーズを最大3基搭載可能なGPUディープラーニングワークステーションです。
- uniV 大学向けオーダーメイド
- HPC TECH NVIDIA RTX PRO 6000 Blackwell Max-Q Workstation Edition
- HPCT WCX61P-4GP/SP NVIDIA RTX PRO 6000 Blackwell Max-Q Workstation Edition(96GB GDDR7 メモリ)もしくは NVIDIA RTX 6000 Ada(48GB GDDR6 メモリ)を最大 4基まで搭載できるフルタワー型静音ワークステーション
- HPC3000-TR5PR104TS AMD Ryzen™ Threadripper™ プロセッサを1基搭載、 NVIDIA GPUを最大2基搭載可能なDeep Learning向け高性能GPUワークステーション
- HPC3000-XGR108TS インテル® Xeon® 600プロセッサー搭載 NVIDIA GPUを最大2基搭載可能なDeep Learning向けGPUワークステーション
- アプライド for University
- CERVO Deep Type-ALIS25WC-BWx1 Ubuntu 24.04 256GB(64GB x4) [1基] NVIDIA RTX PRO™ 6000 Blackwell Max-Q Workstation Edition – 96GB | GDDR7 – DisplayPort 2.1b:4ポート – PCI Express 5.0(x16)販売価格7,720,000円(税込)
③販売会社・BTO(Mouse Computer/ツクモ/パソコン工房 など)
注文時に構成を選ぶ受注生産(BTO)。 強み:コストパフォーマンス、構成の柔軟さ、納期の速さ。法人窓口も整ってきている。 弱み:エンタープライズ級の手厚い保守は大手OEMほどではない。
- マウスコンピューター
- DAIV FW-X3N60(マルチGPUモデル) FWX3N60B7ACD1W02DEC NVIDIA RTX PRO™ 6000 Blackwell Max-Q Workstation Edition × 2基 8,799,800円(税込)~
- ツクモ
- プロフェッショナルGPUモデル QA7A-T257/XBH AMD Ryzen™ 7 9700X NVIDIA RTX PRO™ 4500 Blackwell 32GB (16GBx2枚) DDR5-5600 1TB SSD (M.2規格 / NVMe Gen4接続) ASUS ProArt X870E-CREATOR WIFI (ATX) Windows 11 Pro 税込 ¥999,800
- TSUKUMO、BTO PC全製品を一時受注停止 AI特需で注文が想定超に PlusWeb3 編集部 2025年12月23日
- パソコン工房/ユニットコム(法人対象)
- AI for Science活用支援モデル 特設ウェブサイト 文部科学省が推進する「AI for Science」を背景に、研究・開発の現場では、生成AI・データ解析・シミュレーションなど高負荷な処理を “自分の環境で”実行したいニーズが高まっています。 ユニットコムでは、NVIDIA® GeForce RTX™5090 Founders Edition搭載PC を、研究開発・AI 利用を想定したローカル実行環境としてご提案します。
- iiyama PC SOLUTION-W110-LCTP9Z-BQQX AMD Ryzen Threadripper PRO 9995WXとNVIDIA RTX PRO 6000 Blackwell Max-Q 4基搭載フルタワービジネスワークステーション ISoDEs-W110-LTP9Z-BQQXB 合計金額 19,800,200 円 (内消費税 1,800,018 円)
- iiyama PC SOLUTION-W101-LCX676-BXX インテル® Xeon® 676X プロセッサーとNVIDIA RTX PRO 6000 Blackwell搭載フルタワービジネスワークステーション ISoDEs-W101-LX676-BXSXB グラフィック機能 NVIDIA RTX PRO 6000 Blackwell Workstation Edition 96GB GDDR7 5,148,000 円~
④ Apple(直販/Apple Store)
統合メモリ路線でmacOS環境を選ぶなら。 強み:静粛性は随一。大容量メモリを比較的手頃に。クリエイティブ作業との兼用機にもなる。 弱み:CUDAが使えない。推論中心ならよいが、CUDA専用ツールや本格的な学習には向かない。
アカデミア(研究機関)におすすめの選び方
研究室・大学の調達なら、次の組み合わせが堅い。
- アカデミック割引/EDU価格を必ず確認する。 GPUメーカーやインテグレータが教育機関向けの特価を用意していることが多く、定価より大幅に安くなる。大学生協経由でも割引が効く場合がある。
- 相見積もりは大手OEM+インテグレータの両方から取る。 多くの機関で複数見積もりが求められるうえ、「通しやすさ(OEM)」と「拡張性・価格(インテグレータ)」を天秤にかけられる。同じ要件票を各社に投げて比較するのが王道だ。
- 保守年数を費用に織り込む。 研究は数年スパン。3年保守の有無で実質コストが変わる。
6. 重要ポイントの補足——落とし穴と勘所
最後に、判断を誤りやすい論点をまとめておく。
(1) 「帯域>計算力」を忘れない。 生成速度はメモリ帯域で決まる。スペック表のTFLOPS(計算力)の大きさに引っ張られて、帯域の遅い大容量機を「速い」と誤解しないこと。
(2) 「載る」と「実用速度で動く」は別。 大容量の統合メモリは巨大モデルを“載せられる”が、密モデルだと生成がひと桁t/sまで落ちて、対話には使いものにならないことがある。容量だけで選ばない。
(3) MoEで計算が変わる。 動かしたいモデルがMoEなら、統合メモリの弱点はかなり隠れる。「どんなモデルを使うか」を先に決めると、ハードの最適解が変わる。
(4) 多GPUより、まず大きい1枚。 NVLinkを持たないワークステーション向けカードを複数枚並べても、接続速度がボトルネックになり、台数ぶんは速くならない。1枚に収まるなら1枚が素直で速い。
(5) 将来拡張は“買う時”にしか安く仕込めない。 後からGPUを足したくなったとき効いてくるのは、電源容量、PCIeスロットの空きと間隔、ケースの冷却。これらを最初のマシンに余裕を持たせておけば、増設はカード追加だけで済む。後から電源やケースを替えるのは、ほぼ買い替えに等しい。「将来2枚」を見据えるなら、1枚目もブロワー型(積層に向く冷却)にしておくと詰まない。
(6) ソフトの成熟度を軽視しない。 安さに釣られて選んだ環境で、使いたいツールが動かないのは最悪の事故。CUDAが鉄板、ROCmは発展途上、Metalは推論向け——この温度感を頭に入れておく。
(7) 故障・陳腐化リスクと、ローカルの強み。 ローカルも無リスクではない。モデルは古くなるし、GPUは壊れる。だが決定的な違いは、ダウンロード済みの重みは消えないこと。提供が止まろうが、ライセンスが将来変わろうが、すでに手元にある重みには誰も手を出せない。ハード故障は交換すれば同じ構成で再現でき、再現性は保たれる。「持っている側」の事故は復旧可能、「借りている側」の停止は復旧不能——この非対称が、ローカルを選ぶ最後の決め手になる。
まとめ:用途から逆算する
万能の正解はない。決め方はいつも同じで、「何を、どのくらいの速さで、どんな環境で動かしたいか」から逆算する。
- 機密データを扱い、対話的な速さが要る → 専用GPU(高帯域、容量が足りる範囲で)
- とにかく巨大なモデルを“載せたい”、多少遅くても可、静かな1台がほしい → 統合メモリ(Mac/DGX Spark/Strix Halo)
- 動かすのがMoE中心 → 統合メモリの費用対効果が一気に上がる
- 学習までやる → CUDA環境(専用GPU)か、その時だけクラウド
スペックの数字より、自分の用途。ハードはそれを満たす道具にすぎない。
(執筆:Claude)
その他の参考サイト
- LLMファインチューニング導入ガイド:RAGとの違いから代表的な手法、GPUの選定ポイントまで解説 NTT PCコミュニケーションズ 実務の現場では、「どこまでがプロンプト調整で対応できるのか」「どの時点でファインチューニングを検討すべきか」「RAGとはどう使い分けるべきか」といった判断が分かりづらく、投資判断に迷うケースも少なくありません。本記事では、LLMのファインチューニングの基本的な考え方を整理したうえで、RAGとの違い、代表的な手法(SFT・DPO・LoRA)、提供形態、そして導入を検討する際のポイントを体系的に解説します。

