如果你手上是 Mac mini M4 / 16GB RAM / 256GB SSD,又剛好對本地模型有興趣,第一個卡住的點通常不是安裝,而是選型。

模型一排排看過去,名字像在開動物園。工具也不只一套,Ollama、LM Studio、MLX 各有擁護者。最容易出現的情況,是還沒開始跑模型,腦袋先被名詞塞滿。

我自己最後沒有走那種「先研究十幾顆模型、再比較五套 runtime」的路。原因很簡單,新手真正需要的不是一張很漂亮的選型表,而是一組能在自己的機器上順利跑起來,而且不太折磨人的起點。

這篇文章記錄的,就是我會推薦給 Mac mini M4 16GB / 256GB 使用者的第一套本地模型配置:

  • Runtime / 工具:Ollama
  • 模型:Llama 3.1 8B
  • 定位:通用聊天、摘要、翻譯、一般寫作、輕量 coding
  • 不追求:超大模型、超長 context、花式 agent toolchain

這不是唯一答案,但它是一個很穩的起點。

Ollama 安裝與 Llama 3.1 8B 下載流程圖

先講我的判斷

16GB Apple Silicon Mac 來說,本地模型最重要的不是「理論上能不能跑」,而是:

它是不是能在你日常還要開瀏覽器、聊天軟體、筆記 app 的情況下,跑得還算舒服。

這句話看起來很普通,但我覺得它比一堆 benchmark 還實際。

很多討論會把問題講成二分法:能跑,或不能跑。
但真實世界不是這樣。你當然可以硬塞更大的模型,甚至讓它勉強載入。問題是,一旦你開始碰到記憶體壓力、swap、context 拉高後延遲暴增,那種「技術上可行」很快就會變成「我懶得再打開它」。

所以我對這台機器的工作判準很簡單:

  1. 先選小到中型模型,不要一開始就碰 24B、32B、70B。
  2. 先選安裝和管理最簡單的工具,不要第一套就把自己送進框架深水區。
  3. 先跑一顆通用 instruct 模型,確認本地工作流真的會進入日常,再談第二顆、第三顆模型。

照這個判準來看,Ollama + Llama 3.1 8B 很合理。

為什麼是 Ollama,不是先上 LM Studio 或 MLX?

這裡沒有誰高誰低,比較像入口不同。

為什麼我會先推 Ollama

Ollama 最舒服的地方,是它把「下載模型、啟動模型、之後給其他工具呼叫」這整件事做得很直白。

你安裝完後,打開 Terminal,跑一條:

ollama run llama3.1:8b

模型就會自己下載、啟動,然後直接開始互動。對第一次碰本地模型的人來說,這種低摩擦很重要。

另外,Ollama 在 macOS Apple Silicon 上直接支援 Metal,不需要你自己額外折騰 GPU 設定。它也有本地 API,之後如果你想接 VS Code、Open WebUI、或其他工具,延伸路很順。

那 LM Studio 跟 MLX 呢?

它們不是不能用。只是如果你的目標是先把本地模型跑起來,我不會叫你第一步就去碰所有選項。

  • LM Studio 很適合想要 GUI、喜歡看模型列表、用滑鼠管理的人。
  • MLX / MLX LM 則比較像 Apple Silicon 深水區。你之後若想玩量化、微調、或更貼近 Apple 生態的工作流,再學它也不遲。

我原本也有點被「MLX 比較快」這類說法吸引,但後來真的整理一輪才發現,對新手來說,先跑起來比追那一點理論效能更重要。
尤其 Ollama 現在在 Apple Silicon 上已經把 Metal 路走得很順,日常使用的落差沒有想像中戲劇化。

為什麼是 Llama 3.1 8B?

因為它剛好踩在一個很實用的位置。

Llama 3.1 家族在 Ollama 上有 8B、70B、405B 幾種尺寸。對你的機器來說,70B 和 405B 直接可以先當作展覽品。真正需要考慮的,是 8B。Ollama 頁面列出的 llama3.1:8b 模型大小約 4.9GB,這代表它不是那種一裝下去就把你的 16GB 統一記憶體逼到牆角的類型。

它的定位也剛好適合多數人的第一顆本地模型:

  • 日常問答
  • 中文或英文寫作草稿
  • 摘要整理
  • 翻譯
  • 一般程度的 coding assistance

如果你是要在本地端做輕量 assistant,8B 很像一台不豪華、但很能跑的日常車。

為什麼不是更小的 3B?

3B 不是不能裝。事實上,如果你很在意速度,Llama 3.2 3B 這類更小的模型也有吸引力。

但我不會把它當第一推薦。原因不是它太小,而是小模型常常在「勉強可用」和「真的順手」之間卡住。聊天兩句還好,一旦開始做稍微長一點的整理、需要多段輸出、要你反覆修改文案,那種差距就很明顯。

所以如果你的機器裝得下 8B,而且你也不是只想拿它玩 5 分鐘,我會優先選 8B。

為什麼不是 24B 或更大?

因為 16GB 統一記憶體 不是給你拿來當大型模型動物園的。

很多留言會把「模型檔大小」和「實際執行的記憶體需求」混在一起。這兩件事不能直接劃等號。
模型本體只是一部分,還有系統本身、runtime 開銷、KV cache、context、你同時開的其他 app。

也就是說,某顆模型如果光下載檔就已經很大,對 16GB Mac 來說通常不是好預兆。問題不是不能跑,而是跑得很不舒服

這台 Mac mini 的現實上限在哪裡?

你的 Mac mini M4 基本配置是:

  • Apple M4
  • 16GB 統一記憶體
  • 256GB SSD
  • 120GB/s 記憶體頻寬

這套硬體不是拿來拚最大模型,而是拿來跑中小型本地模型
如果你的期待值放對,它其實很夠用。

我會這樣看它的甜蜜帶:

類型感受
3B很輕,速度快,但能力容易見頂
8B最實用的日常主力區
14B 左右視模型與量化而定,有些可玩,但開始擠
24B 以上技術上也許能碰某些版本,但我不會推薦當日常主力
70B 以上直接不用想

這張表不是官方分類,是我把官方規格和實務感受拼在一起後的工作判準。它不是宇宙真理,但對 16GB Apple Silicon 很好用。

安裝前先確認兩件事

1. 你的 macOS 版本

Ollama 官方的 macOS 需求是 macOS Sonoma 14 或更新
如果你還在更舊的系統,先更新,不然後面可能一堆怪問題。

2. 你的 SSD 空間

Ollama 官方也提醒,模型會占掉數十 GB 到上百 GB 的儲存空間。
雖然 llama3.1:8b 本身大約是 4.9GB,看起來還好,但你這台是 256GB SSD。如果平常已經裝了一堆 app、照片同步、桌面亂七八糟,先確認有足夠緩衝。

我自己的建議很簡單:
不要把 SSD 用到快滿才開始玩本地模型。 這樣整台機器會先變得不快樂。

完整安裝步驟

下面這套流程,適合第一次安裝的人。

Step 1:下載 Ollama

到 Ollama 官方網站下載 macOS 版。你會拿到一個 ollama.dmg

Step 2:把 Ollama.app 拖進 Applications

這一步很傳統,也很好理解。
打開 dmg,把 Ollama.app 拖進 Applications

Step 3:第一次啟動 Ollama

到 Applications 裡打開 Ollama。

第一次啟動時,它會檢查 ollama CLI 有沒有在 PATH 裡。
如果沒有,它會提示要不要建立 /usr/local/bin 的連結。按允許。

這一步不做,後面你在 Terminal 輸入 ollama 可能會找不到指令。

Step 4:打開 Terminal,確認安裝成功

ollama --version

如果有看到版本號,表示 CLI 已經可以用了。

Step 5:下載並啟動 Llama 3.1 8B

ollama run llama3.1:8b

這條指令會自動做兩件事:

  1. 下載模型
  2. 下載完後直接進入互動模式

第一次跑時會花一點時間,因為要把模型抓下來。之後就不會每次重抓。

Step 6:直接開始聊天

下載完成後,你會看到提示符,可以直接輸入:

你好,請用繁體中文簡單介紹你自己。

按 Enter 之後,它就會回覆。

Step 7:離開互動模式

通常按 Ctrl + D 就能離開。

Step 8:下次再開

之後你只要再輸入:

ollama run llama3.1:8b

就能再次啟動同一顆模型。

幾條很實用的指令

看目前裝了哪些模型

ollama ls

刪掉模型,釋放空間

ollama rm llama3.1:8b

看服務日誌

如果你懷疑 Ollama 有問題,可以看:

cat ~/.ollama/logs/server.log

模型預設放哪裡?

如果你是用 macOS app 跑 Ollama,模型預設會放在:

~/.ollama/models

之後如果你想改模型位置,可以研究 OLLAMA_MODELS 這個環境變數。

跑起來之後,最容易踩的坑

Mac mini 本地模型常見瓶頸圖

坑 1:一開始就把 context 拉很大

這個超常見。

很多人看到模型寫支援長 context,就很興奮地想直接拉高。
但 Ollama 文件講得很清楚,context length 會直接影響記憶體使用。它在 < 24 GiB VRAM 的情況下,預設只給 4k context,不是沒理由的。

對你的 16GB Mac mini 來說,先用預設值反而比較合理。
真的有大 context 需求,再慢慢調,不要第一天就把自己送去 swap 地獄。

坑 2:把「可以載入」誤當成「適合日常使用」

這是本地模型世界最容易讓人誤判的地方。

你可以把某些更大的模型想辦法跑起來,但那不代表它適合你每天開著用。
我原本也覺得「只要能跑起來,慢一點應該還好」,後來才發現不是這樣。延遲一旦高到讓你懶得追問第二句,本地模型就開始失去價值。

坑 3:以為 256GB SSD 很夠

剛開始看,4.9GB 好像還行。
但本地模型的麻煩,不是第一顆,而是第二顆、第三顆、第四顆。你很容易變成模型收藏家,然後 SSD 一邊縮水,一邊開始想「這顆留著好了,說不定哪天會用到」。

我後來對這件事的做法很簡單:
一台 256GB SSD 的機器,只留自己真的會常用的 2 到 4 顆模型。

坑 4:期待它一上來就像雲端頂級模型

這條也很重要。

Llama 3.1 8B 是一顆很實用的本地起點,但它不是魔法。你不能期待它在所有情境下都接近最強雲端模型。它的優勢是:

  • 本地
  • 私有
  • 可控
  • 成本固定
  • 離線可用

不是「用一台小主機就換到雲端旗艦模型的全部能力」。

什麼時候我不會推薦這套組合?

這篇不能只有 happy path,所以我把反例也寫清楚。

不推薦情境 1:你想直接做重度 coding agent

如果你的目標不是一般聊天,而是要它長時間吃大量檔案、跑很長的工具鏈、做重度 agentic workflow,Llama 3.1 8B + 16GB Mac mini 很快就會碰到 context 和延遲限制。

不推薦情境 2:你很依賴 GUI 操作

如果你很討厭 Terminal,也不想碰命令列,那我反而會先叫你用 LM Studio
不是因為它比較強,而是因為你比較願意真的打開它。工具能不能進入日常,比理論上的優雅更重要。

不推薦情境 3:你已經知道自己想玩微調、量化、研究底層格式

那你大概很快就會碰到 MLX / MLX LM、GGUF、量化策略、template 細節。
這種情況下,Ollama 仍然可以是起點,但不一定會是你最後停下來的地方。

我會怎麼建議新手開始

如果你和我一樣,想要的是一套今天裝、今天用、今天就有感的本地模型起點,我會這樣排順序:

  1. 先安裝 Ollama
  2. 先跑 llama3.1:8b
  3. 先拿它做你平常真的會做的事
    • 摘要文章
    • 改寫文案
    • 中英翻譯
    • 幫你整理 notes
    • 問一些簡單的程式問題
  4. 用個兩三天後,再決定要不要裝第二顆模型

不要一開始就陷進模型選型宇宙。
那個坑很深,而且很會吃時間。

結語

如果把本地模型這件事講得很夢幻,會很容易讓人失望。
我反而比較想把它講成一個務實的工程選擇。

Mac mini M4 16GB / 256GB 來說,Ollama + Llama 3.1 8B 不是最狂的配置,但它很像一個剛剛好的起點:

  • 裝起來簡單
  • 模型大小合理
  • 日常用途夠廣
  • 還保有之後繼續擴充的空間

我原本也以為,本地模型這件事要先做一大堆研究才不會踩坑。
後來才發現,真正重要的不是把所有選項都研究完,而是先選一套不會把你自己擋在門外的組合。

對這台機器來說,這套組合就是它。


快速指令清單

# 確認 Ollama CLI 可用
ollama --version

# 下載並啟動模型
ollama run llama3.1:8b

# 查看已安裝模型
ollama ls

# 刪除模型
ollama rm llama3.1:8b

# 查看日誌
cat ~/.ollama/logs/server.log