Biến Mac Mini Thành Trợ Lý AI Cá Nhân Với DeepSeek R1, Open WebUI và Ollama
Tại Sao Chạy AI Cục Bộ Lại Ngầu?
Sau khi mình “tậu” con Mac Mini M4, điều đầu tiên mình nghĩ không phải là cài IDE hay dọn desktop — mà là thử “quẩy” AI trên máy cho biết.
Và thật ra, chạy AI cục bộ nó “phê” ở mấy chỗ này:
- API “chùa”: Toàn quyền kiểm soát AI của bạn, không lo giới hạn hay hóa đơn từ bên thứ ba.
- Không cần “lên mây”: Dữ liệu riêng tư, xử lý ngay trên máy, không gửi gì ra ngoài.
- Tốc độ bàn thờ: Tận dụng GPU local, không phụ thuộc latency mạng.
- Giao diện như ChatGPT: Open WebUI biến terminal khô khan thành chatbot hiện đại.
- Tùy biến thoải mái: Tinh chỉnh mô hình, tạo tác vụ riêng, muốn làm gì thì làm.
Nói tóm lại: nếu bạn muốn thật sự làm chủ AI — không phụ thuộc server của ai, không lo bị khóa tài khoản — thì đây là hướng đi.
Mac Mini + DeepSeek: Cặp Đôi Hoàn Hảo?
Mình đang dùng Mac Mini M4 (24GB RAM, GPU 10 nhân) cho các tác vụ hàng ngày — viết lách, code dạo, suy luận “hack não”. Máy đủ mạnh để gánh mấy chuyện này không cần GPU rời.
Vấn đề là dùng Ollama qua terminal thôi thì cực kỳ củ chuối. Không có gợi ý, không lưu lịch sử chat, gõ mãi cũng ngán. Mình nhìn cái terminal đó chỉ muốn tắt máy đi ngủ.
Đấy là lúc Docker và Open WebUI nhảy vào cứu. Hai thứ này biến terminal “ghẻ lở” thành giao diện chat mượt mà như ChatGPT — lưu lịch sử, chọn mô hình, dùng nhiều AI cùng lúc được luôn.
Quan trọng: Mình không dùng API của DeepSeek. Toàn bộ là chạy DeepSeek R1 cục bộ qua Ollama, không phụ thuộc bất kỳ server đám mây nào.
DeepSeek R1 Là Gì? Tại Sao Cả Thế Giới Ầm Ĩ?
DeepSeek R1 là mô hình AI do công ty Trung Quốc DeepSeek phát triển, tung ra đầu 2025 và gây chấn động vì một lý do đơn giản: nó ngang ngửa GPT-4o mà chi phí huấn luyện chỉ bằng một phần nhỏ.
Big Tech đã đổ hàng tỷ đô vào GPU và hạ tầng. DeepSeek làm điều tương tự với ngân sách ít hơn nhiều. Đó là lý do cổ phiếu Nvidia rớt thẳng đứng ngay ngày kết quả được công bố.
Điểm hay nhất: DeepSeek R1 là open-source. Bạn tải về và chạy cục bộ hoàn toàn miễn phí. Đó là những gì bài này hướng dẫn.
Chạy DeepSeek Cục Bộ: Chọn “Size” Phù Hợp
DeepSeek R1 có đủ loại “size”, từ nhỏ xíu đến khổng lồ. Mô hình càng to thì càng thông minh, nhưng cũng ngốn RAM nhiều hơn.
| Mô Hình | RAM Cần Thiết | CPU Yêu Cầu | Cần GPU? | Phù Hợp Với |
|---|---|---|---|---|
| 1.5B | 8GB+ | CPU đời mới | ❌ | Viết lách cơ bản, chat nhanh |
| 8B | 16GB+ | 4+ nhân (Intel i5/Ryzen 5/M1) | ❌ | Suy luận chung, viết dài, code dạo |
| 14B | 24GB+ | 6+ nhân (Intel i7/Ryzen 7/M2) | ❌ | Suy luận sâu, code khó, nghiên cứu |
| 32B | 32-64GB+ | 8+ nhân (M3 Pro, Ryzen 9, i9) | ✔️ | Giải quyết vấn đề phức tạp, code AI |
| 70B | 64GB+ | 12+ nhân (M4 Pro, Threadripper) | ✔️ | Tác vụ AI nặng đô, nghiên cứu chuyên sâu |
| 70B Vision | 64GB+ | 12+ nhân (M4 Pro, Threadripper) | ✔️ | Phân tích ảnh, đa phương tiện |
| 671B | 512GB+ | 128+ nhân (Chỉ dành cho server) | Phải có nhiều GPU | Chiến với siêu máy tính |
Với Mac Mini M4 24GB RAM, mình chạy 14B là ngon nhất — nhanh, thông minh vừa đủ, không ngốn hết RAM.
Cài Nhanh: Chạy DeepSeek Trong 3 Bước
Muốn test nhanh trong terminal? Đây là cách đơn giản nhất.
Bước 1: Cài Ollama
/bin/bash -c "$(curl -fsSL https://ollama.com/download)"
Kiểm tra cài xong chưa:
ollama --version
Bước 2: Tải Model DeepSeek R1
Chọn “size” tùy theo máy bạn:
ollama pull deepseek-r1:8b # Nhẹ, chạy nhanh
ollama pull deepseek-r1:14b # Cân bằng tốt — khuyên dùng
ollama pull deepseek-r1:32b # Nặng hơn, cần RAM lớn
ollama pull deepseek-r1:70b # Chỉ cho máy "khủng"
Bước 3: Chạy Thử Trong Terminal
ollama run deepseek-r1:14b
Chạy được đấy — nhưng dùng thế này thì như ChatGPT đời đầu. Không lưu history, không giao diện, gõ lệnh thuần túy. Tạm được nhưng hơi buồn.
Giờ mình sẽ “độ” cho nó lên một tầm khác.
Thêm Giao Diện ChatGPT Bằng Docker + Open WebUI
Bước 1: Cài Docker
Docker là nền để chạy Open WebUI. Nếu chưa có:
- Vào https://www.docker.com/get-started
- Tải Docker Desktop cho macOS
- Mở Docker lên (chạy ngầm là được)
Bước 2: Khởi Động Open WebUI
docker run -d --rm -p 3000:8080 --add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data --name open-webui \
ghcr.io/open-webui/open-webui:main
Lệnh này làm mấy thứ cùng lúc:
- Cài và khởi động Open WebUI
- Mở server tại
http://localhost:3000 - Chạy ngầm, không chiếm terminal
- Tự xóa container khi tắt
Bước 3: Mở Browser
Vào http://localhost:3000 — xong. Bạn đã có AI cá nhân chạy cục bộ với giao diện y chang ChatGPT.

Khi không cần dùng nữa, tắt container:
docker stop open-webui
Kết
Cái hay của setup này không phải ở chỗ “ngầu” hay “pro” gì — mà là bạn thật sự làm chủ được AI của mình. Không lo bill API tăng vọt, không lo dữ liệu cá nhân bay lên server người khác, không phụ thuộc vào bất kỳ service nào.
Con Mac Mini M4 “cùi bắp” của mình giờ chạy AI ổn hơn mình nghĩ. 14B đủ dùng cho 90% tác vụ hàng ngày rồi.