如果你手上是 Mac mini M4 / 16GB RAM / 256GB SSD,又剛好對本地模型有興趣,第一個卡住的點通常不是安裝,而是選型。
模型一排排看過去,名字像在開動物園。工具也不只一套,Ollama、LM Studio、MLX 各有擁護者。最容易出現的情況,是還沒開始跑模型,腦袋先被名詞塞滿。
我自己最後沒有走那種「先研究十幾顆模型、再比較五套 runtime」的路。原因很簡單,新手真正需要的不是一張很漂亮的選型表,而是一組能在自己的機器上順利跑起來,而且不太折磨人的起點。
這篇文章記錄的,就是我會推薦給 Mac mini M4 16GB / 256GB 使用者的第一套本地模型配置:
- Runtime / 工具:Ollama
- 模型:Llama 3.1 8B
- 定位:通用聊天、摘要、翻譯、一般寫作、輕量 coding
- 不追求:超大模型、超長 context、花式 agent toolchain
這不是唯一答案,但它是一個很穩的起點。
先講我的判斷
對 16GB Apple Silicon Mac 來說,本地模型最重要的不是「理論上能不能跑」,而是:
它是不是能在你日常還要開瀏覽器、聊天軟體、筆記 app 的情況下,跑得還算舒服。
這句話看起來很普通,但我覺得它比一堆 benchmark 還實際。
很多討論會把問題講成二分法:能跑,或不能跑。
但真實世界不是這樣。你當然可以硬塞更大的模型,甚至讓它勉強載入。問題是,一旦你開始碰到記憶體壓力、swap、context 拉高後延遲暴增,那種「技術上可行」很快就會變成「我懶得再打開它」。
所以我對這台機器的工作判準很簡單:
- 先選小到中型模型,不要一開始就碰 24B、32B、70B。
- 先選安裝和管理最簡單的工具,不要第一套就把自己送進框架深水區。
- 先跑一顆通用 instruct 模型,確認本地工作流真的會進入日常,再談第二顆、第三顆模型。
照這個判準來看,Ollama + Llama 3.1 8B 很合理。
為什麼是 Ollama,不是先上 LM Studio 或 MLX?
這裡沒有誰高誰低,比較像入口不同。
為什麼我會先推 Ollama
Ollama 最舒服的地方,是它把「下載模型、啟動模型、之後給其他工具呼叫」這整件事做得很直白。
你安裝完後,打開 Terminal,跑一條:
ollama run llama3.1:8b
模型就會自己下載、啟動,然後直接開始互動。對第一次碰本地模型的人來說,這種低摩擦很重要。
另外,Ollama 在 macOS Apple Silicon 上直接支援 Metal,不需要你自己額外折騰 GPU 設定。它也有本地 API,之後如果你想接 VS Code、Open WebUI、或其他工具,延伸路很順。
那 LM Studio 跟 MLX 呢?
它們不是不能用。只是如果你的目標是先把本地模型跑起來,我不會叫你第一步就去碰所有選項。
- LM Studio 很適合想要 GUI、喜歡看模型列表、用滑鼠管理的人。
- MLX / MLX LM 則比較像 Apple Silicon 深水區。你之後若想玩量化、微調、或更貼近 Apple 生態的工作流,再學它也不遲。
我原本也有點被「MLX 比較快」這類說法吸引,但後來真的整理一輪才發現,對新手來說,先跑起來比追那一點理論效能更重要。
尤其 Ollama 現在在 Apple Silicon 上已經把 Metal 路走得很順,日常使用的落差沒有想像中戲劇化。
為什麼是 Llama 3.1 8B?
因為它剛好踩在一個很實用的位置。
Llama 3.1 家族在 Ollama 上有 8B、70B、405B 幾種尺寸。對你的機器來說,70B 和 405B 直接可以先當作展覽品。真正需要考慮的,是 8B。Ollama 頁面列出的 llama3.1:8b 模型大小約 4.9GB,這代表它不是那種一裝下去就把你的 16GB 統一記憶體逼到牆角的類型。
它的定位也剛好適合多數人的第一顆本地模型:
- 日常問答
- 中文或英文寫作草稿
- 摘要整理
- 翻譯
- 一般程度的 coding assistance
如果你是要在本地端做輕量 assistant,8B 很像一台不豪華、但很能跑的日常車。
為什麼不是更小的 3B?
3B 不是不能裝。事實上,如果你很在意速度,Llama 3.2 3B 這類更小的模型也有吸引力。
但我不會把它當第一推薦。原因不是它太小,而是小模型常常在「勉強可用」和「真的順手」之間卡住。聊天兩句還好,一旦開始做稍微長一點的整理、需要多段輸出、要你反覆修改文案,那種差距就很明顯。
所以如果你的機器裝得下 8B,而且你也不是只想拿它玩 5 分鐘,我會優先選 8B。
為什麼不是 24B 或更大?
因為 16GB 統一記憶體 不是給你拿來當大型模型動物園的。
很多留言會把「模型檔大小」和「實際執行的記憶體需求」混在一起。這兩件事不能直接劃等號。
模型本體只是一部分,還有系統本身、runtime 開銷、KV cache、context、你同時開的其他 app。
也就是說,某顆模型如果光下載檔就已經很大,對 16GB Mac 來說通常不是好預兆。問題不是不能跑,而是跑得很不舒服。
這台 Mac mini 的現實上限在哪裡?
你的 Mac mini M4 基本配置是:
- Apple M4
- 16GB 統一記憶體
- 256GB SSD
- 120GB/s 記憶體頻寬
這套硬體不是拿來拚最大模型,而是拿來跑中小型本地模型。
如果你的期待值放對,它其實很夠用。
我會這樣看它的甜蜜帶:
| 類型 | 感受 |
|---|---|
| 3B | 很輕,速度快,但能力容易見頂 |
| 8B | 最實用的日常主力區 |
| 14B 左右 | 視模型與量化而定,有些可玩,但開始擠 |
| 24B 以上 | 技術上也許能碰某些版本,但我不會推薦當日常主力 |
| 70B 以上 | 直接不用想 |
這張表不是官方分類,是我把官方規格和實務感受拼在一起後的工作判準。它不是宇宙真理,但對 16GB Apple Silicon 很好用。
安裝前先確認兩件事
1. 你的 macOS 版本
Ollama 官方的 macOS 需求是 macOS Sonoma 14 或更新。
如果你還在更舊的系統,先更新,不然後面可能一堆怪問題。
2. 你的 SSD 空間
Ollama 官方也提醒,模型會占掉數十 GB 到上百 GB 的儲存空間。
雖然 llama3.1:8b 本身大約是 4.9GB,看起來還好,但你這台是 256GB SSD。如果平常已經裝了一堆 app、照片同步、桌面亂七八糟,先確認有足夠緩衝。
我自己的建議很簡單:
不要把 SSD 用到快滿才開始玩本地模型。 這樣整台機器會先變得不快樂。
完整安裝步驟
下面這套流程,適合第一次安裝的人。
Step 1:下載 Ollama
到 Ollama 官方網站下載 macOS 版。你會拿到一個 ollama.dmg。
Step 2:把 Ollama.app 拖進 Applications
這一步很傳統,也很好理解。
打開 dmg,把 Ollama.app 拖進 Applications。
Step 3:第一次啟動 Ollama
到 Applications 裡打開 Ollama。
第一次啟動時,它會檢查 ollama CLI 有沒有在 PATH 裡。
如果沒有,它會提示要不要建立 /usr/local/bin 的連結。按允許。
這一步不做,後面你在 Terminal 輸入 ollama 可能會找不到指令。
Step 4:打開 Terminal,確認安裝成功
ollama --version
如果有看到版本號,表示 CLI 已經可以用了。
Step 5:下載並啟動 Llama 3.1 8B
ollama run llama3.1:8b
這條指令會自動做兩件事:
- 下載模型
- 下載完後直接進入互動模式
第一次跑時會花一點時間,因為要把模型抓下來。之後就不會每次重抓。
Step 6:直接開始聊天
下載完成後,你會看到提示符,可以直接輸入:
你好,請用繁體中文簡單介紹你自己。
按 Enter 之後,它就會回覆。
Step 7:離開互動模式
通常按 Ctrl + D 就能離開。
Step 8:下次再開
之後你只要再輸入:
ollama run llama3.1:8b
就能再次啟動同一顆模型。
幾條很實用的指令
看目前裝了哪些模型
ollama ls
刪掉模型,釋放空間
ollama rm llama3.1:8b
看服務日誌
如果你懷疑 Ollama 有問題,可以看:
cat ~/.ollama/logs/server.log
模型預設放哪裡?
如果你是用 macOS app 跑 Ollama,模型預設會放在:
~/.ollama/models
之後如果你想改模型位置,可以研究 OLLAMA_MODELS 這個環境變數。
跑起來之後,最容易踩的坑
坑 1:一開始就把 context 拉很大
這個超常見。
很多人看到模型寫支援長 context,就很興奮地想直接拉高。
但 Ollama 文件講得很清楚,context length 會直接影響記憶體使用。它在 < 24 GiB VRAM 的情況下,預設只給 4k context,不是沒理由的。
對你的 16GB Mac mini 來說,先用預設值反而比較合理。
真的有大 context 需求,再慢慢調,不要第一天就把自己送去 swap 地獄。
坑 2:把「可以載入」誤當成「適合日常使用」
這是本地模型世界最容易讓人誤判的地方。
你可以把某些更大的模型想辦法跑起來,但那不代表它適合你每天開著用。
我原本也覺得「只要能跑起來,慢一點應該還好」,後來才發現不是這樣。延遲一旦高到讓你懶得追問第二句,本地模型就開始失去價值。
坑 3:以為 256GB SSD 很夠
剛開始看,4.9GB 好像還行。
但本地模型的麻煩,不是第一顆,而是第二顆、第三顆、第四顆。你很容易變成模型收藏家,然後 SSD 一邊縮水,一邊開始想「這顆留著好了,說不定哪天會用到」。
我後來對這件事的做法很簡單:
一台 256GB SSD 的機器,只留自己真的會常用的 2 到 4 顆模型。
坑 4:期待它一上來就像雲端頂級模型
這條也很重要。
Llama 3.1 8B 是一顆很實用的本地起點,但它不是魔法。你不能期待它在所有情境下都接近最強雲端模型。它的優勢是:
- 本地
- 私有
- 可控
- 成本固定
- 離線可用
不是「用一台小主機就換到雲端旗艦模型的全部能力」。
什麼時候我不會推薦這套組合?
這篇不能只有 happy path,所以我把反例也寫清楚。
不推薦情境 1:你想直接做重度 coding agent
如果你的目標不是一般聊天,而是要它長時間吃大量檔案、跑很長的工具鏈、做重度 agentic workflow,Llama 3.1 8B + 16GB Mac mini 很快就會碰到 context 和延遲限制。
不推薦情境 2:你很依賴 GUI 操作
如果你很討厭 Terminal,也不想碰命令列,那我反而會先叫你用 LM Studio。
不是因為它比較強,而是因為你比較願意真的打開它。工具能不能進入日常,比理論上的優雅更重要。
不推薦情境 3:你已經知道自己想玩微調、量化、研究底層格式
那你大概很快就會碰到 MLX / MLX LM、GGUF、量化策略、template 細節。
這種情況下,Ollama 仍然可以是起點,但不一定會是你最後停下來的地方。
我會怎麼建議新手開始
如果你和我一樣,想要的是一套今天裝、今天用、今天就有感的本地模型起點,我會這樣排順序:
- 先安裝 Ollama
- 先跑
llama3.1:8b - 先拿它做你平常真的會做的事
- 摘要文章
- 改寫文案
- 中英翻譯
- 幫你整理 notes
- 問一些簡單的程式問題
- 用個兩三天後,再決定要不要裝第二顆模型
不要一開始就陷進模型選型宇宙。
那個坑很深,而且很會吃時間。
結語
如果把本地模型這件事講得很夢幻,會很容易讓人失望。
我反而比較想把它講成一個務實的工程選擇。
對 Mac mini M4 16GB / 256GB 來說,Ollama + Llama 3.1 8B 不是最狂的配置,但它很像一個剛剛好的起點:
- 裝起來簡單
- 模型大小合理
- 日常用途夠廣
- 還保有之後繼續擴充的空間
我原本也以為,本地模型這件事要先做一大堆研究才不會踩坑。
後來才發現,真正重要的不是把所有選項都研究完,而是先選一套不會把你自己擋在門外的組合。
對這台機器來說,這套組合就是它。
快速指令清單
# 確認 Ollama CLI 可用
ollama --version
# 下載並啟動模型
ollama run llama3.1:8b
# 查看已安裝模型
ollama ls
# 刪除模型
ollama rm llama3.1:8b
# 查看日誌
cat ~/.ollama/logs/server.log