Ollama / On-Premise AI

ติดตั้ง Ollama รัน AI บน Server องค์กร — คู่มือสำหรับ IT ไทย

Run LLM locally — ไม่ต้องส่งข้อมูลออก cloud · รองรับ gemma3, qwen, llama3 · ใช้ได้ทั้ง CPU และ GPU

📅 22 เมษายน 2026 ⏱ อ่าน 11 นาที ✍️ IT Training Team

Ollama คือ open-source tool ที่ทำให้รัน LLM (เช่น gemma3, qwen, llama3) บน server ของเราเองได้ง่ายเหมือนรัน Docker — ไม่ต้องส่ง prompt ออก OpenAI/Claude cloud

บทความนี้จะสอนคุณ ติดตั้ง Ollama บน Ubuntu Server · เลือก model ที่เหมาะ · optimize สำหรับ CPU / GPU · และเชื่อมต่อกับ application

1. ทำไมต้อง Ollama (ไม่ใช้ OpenAI API)

2. Hardware Requirement

ขึ้นกับขนาด model ที่เลือก:

แนะนำ: เริ่มที่ gemma3:4b บน CPU ก่อนเพื่อทดสอบ · พอมั่นใจค่อยอัพ hardware

3. ติดตั้ง Ollama บน Ubuntu 22.04/24.04

# Install (one-liner)
curl -fsSL https://ollama.com/install.sh | sh

# Start service
sudo systemctl enable ollama
sudo systemctl start ollama

# Verify
ollama --version
curl http://localhost:11434/api/tags

โดย default Ollama ฟัง 127.0.0.1:11434 — ถ้าต้องการให้ server อื่นเรียกใช้ ต้องแก้ config

4. เปิดให้ LAN เรียกใช้ (optional)

sudo systemctl edit ollama

เพิ่ม:

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
sudo systemctl daemon-reload
sudo systemctl restart ollama
sudo ufw allow from 10.0.0.0/8 to any port 11434
⚠️ อย่าเปิดออก public internet · ให้ limit เฉพาะ LAN/VPN เท่านั้น

5. Download Model

# เหมาะกับ CPU / ทดสอบ
ollama pull qwen3:4b
ollama pull gemma3:4b

# เหมาะกับ GPU
ollama pull gemma3:12b
ollama pull llama3.1:8b

# ดู models ที่มี
ollama list

Model จะ cache ที่ ~/.ollama/models/ — ใช้พื้นที่ 2-15GB/model

6. ทดสอบ Chat

ollama run gemma3:4b
>>> สวัสดี ช่วยเขียน bash script เช็ค disk space ให้หน่อย

หรือผ่าน API:

curl http://localhost:11434/api/generate -d '{
  "model": "gemma3:4b",
  "prompt": "เช็ค disk เครื่อง Linux ใช้คำสั่งอะไร",
  "stream": false
}'

7. เลือก Model ไหนดีสำหรับ Sysadmin

จากประสบการณ์จริงใน ServerAI Manager:

8. Integrate กับ Application

Ollama เข้ากันกับ OpenAI SDK — ใช้ code เดิมได้:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # ใส่อะไรก็ได้
)

response = client.chat.completions.create(
    model="gemma3:12b",
    messages=[{"role": "user", "content": "Hello"}]
)

9. Performance Tuning

10. Monitoring

# GPU usage
nvidia-smi

# Ollama logs
sudo journalctl -u ollama -f

# Active requests
curl http://localhost:11434/api/ps

สรุป

Ollama เปิดประตูให้องค์กรไทยใช้ AI แบบ on-premise ได้จริง โดยไม่ต้องกังวล PDPA หรือ vendor lock-in

ServerAI Manager ใช้ Ollama เป็น backbone — รัน gemma3:12b บน GPU + qwen3:4b fallback บน CPU — ทำให้ทีมจัดการ server ด้วยภาษาไทย โดยข้อมูลไม่เคยออกจาก data center

คำถามที่พบบ่อย

Ollama ฟรีจริงไหม?
ฟรี 100% — เป็น open source (MIT license) ไม่มี commercial tier · จ่ายแค่ค่า hardware
Ollama เหมาะกับ production ไหม?
เหมาะ — มีหลายองค์กรใช้งานจริง · แต่ต้อง tune config (parallel, keep-alive, memory) ตาม workload
ใช้ Ollama แทน OpenAI API ได้เลยไหม?
ได้ — Ollama รองรับ OpenAI-compatible API · เปลี่ยน base_url อย่างเดียว · ไม่ต้องแก้ code SDK
Model ตัวไหน support ภาษาไทยดีสุด?
gemma3:12b (Google) และ qwen3 (Alibaba) support ไทยดี · llama3 ภาษาไทยพอใช้ · แนะนำ gemma3 สำหรับ production

ทดลอง ServerAI Manager ในองค์กรคุณ

จัดการ Server ด้วย AI ภาษาไทย · ติดตั้งใน data center ของคุณ · ข้อมูลไม่ออกไปไหน

ติดต่อเรา →