Tích Hợp n8n Với Ollama: Chạy AI Tự Động Hóa Hoàn Toàn Cục Bộ, Không Tốn Một Xu API

Hồi mới bắt đầu build workflow AI trên n8n, mình hay dùng OpenAI node cho tiện. Tháng đầu thì ổn. Tháng thứ hai nhìn bill thì hơi giật. Tháng thứ ba thì thật sự ngồi nghĩ lại.

Vấn đề không chỉ là tiền. Mỗi lần workflow chạy, toàn bộ dữ liệu — nội dung email, log hệ thống, thông tin khách hàng — đều bay thẳng lên server của OpenAI. Bạn chấp nhận điều khoản của họ, tin tưởng hạ tầng của họ, và nếu họ thay đổi giá hay giới hạn rate thì bạn không có quyền lựa chọn gì hơn.

Cho đến khi mình thử kết nối n8n với Ollama. Và nhận ra rằng: cái stack này là tự do thật sự.

1. Vấn Đề Với AI “Trên Mây”

Mình không phủ nhận sức mạnh của GPT-4 hay Claude. Nhưng nếu bạn đang dùng AI để tự động hóa workflow nội bộ, thì model của OpenAI có mấy vấn đề:

Tốn tiền không dừng được: Mỗi lần workflow chạy là một lần trả tiền. Workflow chạy hàng trăm lần mỗi ngày thì bill cộng nhanh lắm.
Dữ liệu rời khỏi máy bạn: Bạn tóm tắt báo cáo nội bộ, phân tích dữ liệu khách hàng, xử lý email công ty — tất cả đều đi qua API của bên thứ ba.
Rate limit: Gọi quá nhiều là bị throttle. Workflow dừng giữa chừng, phải xử lý retry, đau đầu.
Vendor lock-in: OpenAI đổi giá, thay đổi API, deprecate model — bạn chạy theo không kịp.

Giải pháp? Chạy model AI ngay trên máy của bạn, rồi nối thẳng vào n8n.

2. Ollama Là Gì? n8n Là Gì?

Nếu bạn đã đọc tới đây thì có thể đã biết n8n rồi — nền tảng tự động hóa workflow dạng kéo thả, tự host được, miễn phí. Nếu chưa biết thì xem bài Hướng dẫn cài đặt n8n trước đã.

Còn Ollama là gì? Nói đơn giản nhất: Ollama là một phần mềm giúp bạn chạy các model AI lớn (LLM) ngay trên máy tính cá nhân. Bạn ollama pull llama3 là model tải về máy. Bạn ollama run llama3 là model chạy ngay, không cần internet, không cần cloud, không cần API key.

Ollama hoạt động như một server nhỏ chạy ngầm ở http://localhost:11434. n8n có thể gọi vào địa chỉ đó y chang gọi OpenAI API — chỉ khác là không có bill nào hết.

Kết hợp hai thứ này lại:

n8n lo phần tự động hóa: trigger, điều kiện, kết nối với các app khác
Ollama lo phần AI: tóm tắt, phân tích, sinh văn bản, trả lời câu hỏi

Toàn bộ stack chạy trên máy bạn. Dữ liệu không đi đâu cả.

3. Chuẩn Bị Trước Khi Bắt Đầu

Bạn cần có hai thứ đang chạy trên máy:

Thứ nhất: Ollama

Cài Ollama nếu chưa có:

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Kiểm tra đã cài xong chưa
ollama --version

Sau đó tải một model về. Mình khuyên dùng qwen3-coder cho tác vụ kỹ thuật hoặc llama3 cho tác vụ chung:

ollama pull qwen3-coder   # Model code + reasoning, nhẹ, nhanh
ollama pull llama3        # Model đa dụng, cân bằng tốt
ollama pull deepseek-r1:8b  # Suy luận sâu hơn, cần RAM ~16GB

Kiểm tra Ollama đang chạy chưa bằng cách mở trình duyệt vào http://localhost:11434. Nếu thấy dòng chữ Ollama is running thì ổn.

Thứ hai: n8n

Nếu chưa có n8n, xem bài Hướng dẫn cài đặt n8n. Bài đó hướng dẫn cả cách dùng n8n Cloud lẫn tự cài bằng Docker.

Lưu ý quan trọng nếu bạn chạy n8n bằng Docker: n8n trong container không thể kết nối tới localhost của máy host theo cách thông thường. Bạn phải dùng địa chỉ http://host.docker.internal:11434 thay vì http://localhost:11434.

Trên Linux, địa chỉ host.docker.internal không tự có. Bạn cần thêm vào lệnh docker run:
--add-host=host.docker.internal:host-gateway
Hoặc nếu dùng docker-compose.yml:
extra_hosts:
  - "host.docker.internal:host-gateway"

4. Kết Nối Ollama Vào n8n (Từng Bước)

Bước 1: Tạo Credential cho Ollama

Vào n8n, góc trên phải có nút dropdown, bấm vào chọn Create Credential.

Trong danh sách credential hiện ra, tìm và chọn Ollama.

Bạn sẽ thấy form yêu cầu điền Base URL. Điền như sau tùy theo cách bạn chạy n8n:

Cách chạy n8n	Base URL cần điền
n8n local (không Docker)	`http://localhost:11434`
n8n trong Docker (macOS/Windows)	`http://host.docker.internal:11434`
n8n trong Docker (Linux)	`http://host.docker.internal:11434` (cần thêm `extra_hosts` như trên)

Bấm Save. Nếu thấy dòng Connection tested successfully là xong bước này.

Bước 2: Thêm Ollama Node Vào Workflow

Tạo workflow mới, bấm Add a first step, tìm kiếm Ollama trong danh sách node.

n8n có một số Ollama node khác nhau tùy mục đích:

Ollama Chat Model — dùng trong AI Agent hoặc Chain để nhắn tin hỏi đáp
Ollama Model — dùng để chạy text completion đơn giản

Chọn node phù hợp với workflow của bạn.

Bước 3: Chọn Model

Trong node vừa thêm, bấm vào dropdown Model và chọn model bạn đã tải về bằng ollama pull. Ví dụ: qwen3-coder, llama3, deepseek-r1:8b.

Xong. Phần setup hoàn tất. Giờ đến phần thú vị hơn.

5. Ví Dụ Thực Tế: Workflow Tóm Tắt Văn Bản Tự Động

Mình sẽ demo một workflow đơn giản: nhận văn bản đầu vào, dùng Ollama tóm tắt, trả kết quả về.

Workflow này có thể dùng để tóm tắt email dài, báo cáo, log hệ thống — bất cứ thứ gì bạn không muốn đọc hết từ đầu đến cuối.

Workflow tóm tắt văn bản với Ollama

Các node trong workflow:

Manual Trigger (hoặc Webhook) — điểm khởi đầu, nhận dữ liệu đầu vào
Basic LLM Chain — node xử lý AI, kết nối với Ollama
Ollama Chat Model — sub-node được gắn vào Basic LLM Chain, chọn model cụ thể

Cấu hình Basic LLM Chain:

Trong phần Prompt, điền:

Tóm tắt nội dung sau trong 3-5 câu ngắn gọn, giữ lại những điểm quan trọng nhất:

{{ $json.text }}

Kết nối Ollama Chat Model vào trường Chat Model của Basic LLM Chain. Chọn credential Ollama vừa tạo và model muốn dùng.

Kết quả: Mỗi lần workflow chạy, Ollama xử lý văn bản ngay trên máy bạn và trả kết quả về trong vài giây. Không có request nào rời khỏi máy.

6. Tại Sao Cách Này Thực Sự Khác Biệt

Sau khi dùng setup này một thời gian, mình thấy rõ mấy điểm khác biệt:

Chi phí = $0

Không có giá per-token. Không có subscription. Không có bill cuối tháng. Model đã tải về là tài sản của bạn, dùng bao nhiêu cũng được.

Dữ liệu không đi đâu cả

Đây là điểm mình coi trọng nhất. Workflow xử lý hợp đồng, thông tin nhân viên, dữ liệu khách hàng — tất cả ở lại trên máy bạn. Không có bên thứ ba nào được phép nhìn thấy.

Không có rate limit

Gọi model 1000 lần một giờ cũng không ai phạt. Workflow chạy parallel cũng ổn. Tốc độ chỉ bị giới hạn bởi phần cứng máy bạn, không bị giới hạn bởi quota của cloud provider.

Tự chọn model phù hợp

Mỗi tác vụ có thể dùng model khác nhau. Tóm tắt văn bản? llama3 đủ dùng, nhanh. Phân tích code? qwen3-coder tốt hơn. Cần suy luận nhiều bước? deepseek-r1. Bạn kiểm soát hoàn toàn.

Kết

Mình bắt đầu tích hợp Ollama vào n8n ban đầu chỉ để tiết kiệm chi phí. Nhưng sau một thời gian dùng, mình nhận ra nó còn hơn thế.

Đây là cách duy nhất để thật sự làm chủ stack AI của mình — không phụ thuộc internet, không lo chính sách thay đổi, không lo dữ liệu bị rò rỉ. Chạy trên máy bạn, theo điều kiện của bạn.

Nếu bạn đang dùng n8n để tự động hóa và chưa thử Ollama, mình nghĩ đây là thứ đáng thử nhất trong năm nay. Setup chỉ mất tầm 15 phút, nhưng nó thay đổi cách bạn nghĩ về AI workflow hoàn toàn.