ใช้ OpenClaw มา 3 เดือน — 4 กับดักที่เจอ และวิธีแก้ที่ลดค่า API ครึ่งหนึ่ง
เรื่องราวของการปรับจูน AI Agent Team จาก "ใช้งานได้" ให้กลายเป็น "ใช้งานดี จริงๆ" ด้วย Multi-Model Routing, Anti-Loop Protection, Memory Hygiene และ Auto-Verify Pipeline

ระบบ AI Agent Team ที่ใช้ OpenClaw + Lark + n8n ทำงานได้ดีมาตลอด 3 เดือน — Bot 10 ตัว, Workflow 53 ตัว, Skills 25 ตัว ครอบคลุมทุกแผนก แต่พอมานั่ง audit ระบบทั้งหมด กลับพบ 4 กับดักที่ซ่อนอยู่ ซึ่งทำให้จ่ายค่า API แพงเกินไป, มีความเสี่ยง crash loop, และมีข้อผิดพลาดที่ป้องกันได้
หลังแก้ทั้ง 4 จุด — ค่า API ลดลง ~50%, ตอบเร็วขึ้น ~35%, ข้อผิดพลาดลดลงครึ่งหนึ่ง และป้องกัน crash loop ได้ 100%
4 กับดักที่ซ่อนอยู่ในระบบ คืออะไร?
ระบบที่ "ทำงานได้" ไม่ได้แปลว่า "ทำงานดี" — เหมือนรถที่วิ่งได้ทุกวันแต่ไม่เคยเข้าเช็คระยะ พอ audit จริงจัง พบปัญหาซ่อนอยู่ 4 จุดที่ถ้าปล่อยไว้จะแย่ลงเรื่อยๆ
กับดัก #1 — Model เดียวทำทุกงาน 💸
ใช้ Claude Sonnet 4 (ราคา $3/ล้าน token) กับทุก 25 skills — ไม่ว่าจะเป็นงานง่ายอย่าง "แจ้งเตือนลาสาย" หรืองานยากอย่าง "วิเคราะห์ Sales Pipeline" เท่ากับจ่ายแพงเกินไป 30 เท่า สำหรับ 76% ของงาน routine
กับดัก #2 — Loop นรก (Container Crash Loop) 🔄
ทุก container ตั้ง restart: unless-stopped — ถ้า service crash จะ restart วนลูปไม่จำกัด ทุกรอบ restart = เรียก API ใหม่ = เสียเงินไม่รู้ตัว กิน CPU/RAM ทำให้ระบบอื่นช้าตามไปด้วย
กับดัก #3 — Context บวม (Memory ไม่เคยทำความสะอาด) 🧠
ระบบ memory มี 22 ไฟล์ / 705 บรรทัดสะสมมา 3 เดือน ไม่เคยย่อหรือลบ ทุกครั้งที่ Bot เริ่มงาน → โหลด memory ทั้งหมดมาอ่าน — ยิ่ง memory เยอะ ยิ่งตอบช้า ยิ่ง token แพง
กับดัก #4 — มั่นใจจอมปลอม (ไม่ตรวจก่อนส่ง) ✅❌
มี script ตรวจสอบ (card_validator, verify-deployment) แต่ต้อง run มือทุกครั้ง มีโอกาสลืม → Bot บอก "เสร็จแล้ว" แต่ card format ผิด ทีมต้องแก้แล้วส่งใหม่ เสียเวลา rework
ปัญหาทั้ง 4 จุดนี้มีจุดร่วมเดียวกัน คือ "ตั้งค่าครั้งเดียวแล้วไม่เคยกลับมาดู" — ซึ่งเป็นกับดักทั่วไปของทุกระบบ AI ที่ขยายตัวเร็ว
ภาพรวมระบบเปลี่ยนไปอย่างไร?
Diagram ด้านล่างแสดง flow ก่อนและหลังปรับปรุง — hover ที่แต่ละ node เพื่อดูรายละเอียด
แก้ปัญหาทั้ง 4 จุด ทำอย่างไร?
ทุกการแก้ไขเน้นหลักการเดียวกัน — ป้องกันก่อนเกิด ดีกว่ามาแก้ทีหลัง เพราะพอปัญหาเกิดแล้ว ค่า API พุ่งไปแล้ว แก้ไม่ทัน
01 Multi-Model Routing
เพิ่ม routing rules ใน openclaw.json แยก model ตามประเภทงาน — 6 skills ใช้ Sonnet 4 (วิเคราะห์, report ซับซ้อน) | 15 skills ใช้ Gemini Flash (แจ้งเตือน, สรุป, routine) งาน routine 76% ใช้ model ที่ถูกกว่า 30 เท่า
02 Anti-Loop Protection
เปลี่ยน Docker restart policy จาก unless-stopped → on-failure:5 พร้อมเพิ่มกฎใน CLAUDE.md — "task fail 2 ครั้งติดกัน → หยุดทำทันที + แจ้ง Admin" ป้องกัน bill พุ่งจาก loop ซ้ำไม่จบ
03 Memory Hygiene Rules
กำหนดกฎ — Memory > 100 บรรทัด ต้องย่อ, เก่ากว่า 30 วัน ต้อง review, Index ห้ามเกิน 50 บรรทัด + ห้ามสร้าง memory ซ้ำ → ป้องกัน context บวม ลด token ที่ส่งทุกครั้ง
04 Auto-Verify Pipeline
เพิ่ม 5-point checklist บังคับก่อนส่งงานทุกครั้ง — card_validator.py ผ่าน → JSON/YAML syntax → ตัวเลขมี comma → ข้อความไม่ซ้ำ → link ทำงานได้ → ลดข้อผิดพลาดก่อนถึงทีม
พักสายตาสักครู่ — การ optimize ระบบ AI Agent เหมือนการดูแลรีสอร์ทหรู ทุกส่วนต้องทำงานลงตัว ตั้งแต่ infrastructure ไปจนถึง cost management
Multi-Model Routing ทำงานยังไง?
หัวใจของการลดค่าใช้จ่าย คือส่งงานไป model ที่เหมาะสม ไม่ใช่ model ที่แพงสุดเสมอ — Router ดู skill type และ keyword ในข้อความ แล้วตัดสินใจอัตโนมัติ
$3.00 / M tokens sales-pipeline, pm-task, exec-brief + คำว่า "วิเคราะห์" "strategy" — 6 skills (24%)
$0.10 / M tokens hr-attendance, admin-task, dev-task + คำว่า "สรุป" "แจ้งเตือน" — 15 skills (76%)
| Model | ราคา / M tokens | ใช้กับงาน | จำนวน Skills | สัดส่วน |
|---|---|---|---|---|
| Claude Sonnet 4 | $3.00 Premium | วิเคราะห์ Pipeline, Delivery, Exec Brief | 6 | 24% |
| Gemini Flash | $0.10 Budget | แจ้งเตือน, สรุป, health check, routine | 15 | 76% |
ไม่ใช่ทุกงานต้องใช้ model แพง — 76% ของงานในระบบเป็น routine ที่ Gemini Flash ราคา $0.10 ก็ทำได้ดีเท่ากัน
Before vs After — อะไรเปลี่ยนไปบ้าง?
ตารางด้านล่างเปรียบเทียบทุกด้านที่เปลี่ยน — ดูแค่คอลัมน์ "ดีขึ้น" ก็เห็นภาพรวมได้ทันที
| ด้าน | ❌ ก่อนแก้ | ✅ หลังแก้ | ดีขึ้น |
|---|---|---|---|
| Model ที่ใช้ | Sonnet 4 ทุกงาน (25 skills) $3/M ทุก skill | Sonnet 4 → 6 skills, Flash → 15 skills $0.10/M 76% | ลดค่า API 40-60% |
| Restart Policy | unless-stopped ทุก container restart ไม่จำกัด |
on-failure:5 สำหรับ API services หยุดหลัง 5 ครั้ง |
ป้องกัน crash loop |
| Anti-Loop Rules | ไม่มีกฎ fail-stop ทำซ้ำไม่จำกัด | Task fail 2 ครั้ง → หยุด + แจ้ง Admin circuit breaker | ลด bill ช่วง error |
| Memory | 22 ไฟล์ / 705 บรรทัด ไม่เคยย่อ บวมขึ้นเรื่อยๆ | กฎ: > 100 บรรทัด → ย่อ, > 30 วัน → review ดูแลอัตโนมัติ | ลด token 15-25% |
| Session Pruning | ไม่มี — context สะสมไม่จำกัด prompt ยาวขึ้นเรื่อยๆ | ตัด context หลัง 30 turns, จำกัด 20 tool results prompt กระชับ | ลด token 20-30% |
| การตรวจสอบ | มี script แต่ต้อง run มือ มีโอกาสลืม | 5-point checklist บังคับก่อนส่ง auto-verify | ลด error 40-60% |
| Auto-start | ไม่มี — reboot ต้องสั่ง manual downtime | crontab @reboot → docker compose up auto 30 วินาที | zero-touch reboot |
ผลลัพธ์ที่วัดได้จริง
ตัวเลขด้านล่างคือผลลัพธ์รวมจากการแก้ทั้ง 4 จุด — Multi-Model Routing มี impact มากที่สุดเพราะลดค่าใช้จ่ายโดยตรง
สถานะ Container หลัง Deploy
| Container | Status | Restart Policy | ก่อน | เหตุผล |
|---|---|---|---|---|
| 🤖 openclaw | ✅ healthy | on-failure:5 | unless-stopped | ใช้ API → ต้องจำกัด restart |
| 🔗 lark-mcp | ✅ healthy | on-failure:5 | unless-stopped | เชื่อม Lark API → ต้องจำกัด |
| ⚙️ n8n | ✅ healthy | on-failure:5 | unless-stopped | รัน workflow → ต้องจำกัด |
| 🏛️ egp-solver | ✅ healthy | on-failure:3 | unless-stopped | ใช้ Chromium หนัก → จำกัดเข้มกว่า |
| 📊 dashboard | ✅ Up | unless-stopped | unless-stopped | nginx เบา ไม่ใช้ API → คงเดิม |
| 💾 duplicati | ✅ Up | unless-stopped | unless-stopped | backup service → คงเดิม |
Auto-Verify Pipeline ทำงานยังไง?
4 บทเรียนสำหรับทีม
สิ่งที่ได้เรียนรู้จากการ audit ครั้งนี้ — ใช้ได้กับทุกระบบ AI ไม่เฉพาะ OpenClaw
ไม่ใช่ทุกงานต้องใช้ model แพง
76% ของงานในระบบเป็น routine — แจ้งเตือน, สรุป, health check ใช้ Gemini Flash ราคา $0.10 ก็ทำได้ดีเท่ากัน ไม่จำเป็นต้องจ่าย $3.00 ทุกครั้ง การเลือก model ที่ "พอดี" กับงาน สำคัญกว่าการเลือก model ที่ "ดีที่สุด"
ระบบที่ "ทำงานได้" ≠ ระบบที่ "ดี"
Bot ทำงานได้ทุกวัน แต่มีค่าใช้จ่ายซ่อน, ความเสี่ยงซ่อน, ความช้าซ่อน ต้องนั่ง audit เป็นระยะ เหมือนเข้าเช็คระยะรถ — ถ้ารอจนพัง ค่าซ่อมจะแพงกว่ามาก
Prevention ดีกว่า Correction
Anti-Loop + Auto-Verify = ป้องกันปัญหาก่อนเกิด ดีกว่ามานั่งแก้ทีหลัง เพราะพอเกิดแล้ว ค่า API พุ่งไปแล้ว ทีมเสียเวลา rework ไปแล้ว แก้ไม่ทัน
Memory ต้องดูแลเหมือนบ้าน
ถ้าไม่ทำความสะอาด memory เป็นระยะ มันจะบวมเหมือนบ้านที่ไม่เคยจัดของ — ยิ่งนาน ยิ่งช้า ยิ่งแพง ยิ่งหาข้อมูลที่ต้องการไม่เจอ
การทำ AI Agent Team ให้ดี ไม่ใช่แค่ "สร้าง Bot เยอะๆ" แต่คือการจัดการ context, cost, และ workflow ให้ทำงานร่วมกันอย่างลงตัว — เหมือนทีมคนจริงๆ ที่ต้องมีกฎ มีการตรวจสอบ และใช้คนให้ถูกกับงาน
ไฟล์ที่แก้ไข
| ไฟล์ | สิ่งที่เปลี่ยน | จุดประสงค์ |
|---|---|---|
config/openclaw.json | เพิ่ม routing rules (2 rules) + session pruning config | Multi-Model Routing + ตัด context |
docker-compose.yml | เปลี่ยน restart policy 4 containers + ลบ duplicate volume | Anti-Loop + แก้ bug |
CLAUDE.md | เพิ่ม section 9 (Anti-Loop), 10 (Memory), 11 (Auto-Verify) | กฎป้องกันปัญหาทั้ง 4 |
แผนต่อไป ทำอะไรอีก?
3 สิ่งที่วางแผนจะทำเพิ่มเพื่อยกระดับระบบให้ดีขึ้นอีก
| ลำดับ | สิ่งที่จะทำ | ความยาก | Impact |
|---|---|---|---|
| 1 | Summarizer Agent — n8n workflow ย่อ memory อัตโนมัติทุกคืน | ปานกลาง | ลด token 15-25% |
| 2 | Auto-Test Pipeline — n8n workflow ทดสอบ card ก่อนส่งจริง | ปานกลาง | zero-defect delivery |
| 3 | Sub-Agent Spawning — ให้ Agent ทำงานหลายอย่างพร้อมกัน | ยาก | เพิ่ม throughput 30-50% |
คำถามที่พบบ่อย
ทำไมถึงเลือก Gemini Flash แทน Haiku หรือ model อื่น?
Gemini Flash ราคา $0.10/M tokens ถูกที่สุดในตลาดสำหรับ quality ระดับนี้ ตอบเร็ว latency ต่ำ เหมาะกับงาน routine อย่างแจ้งเตือนและสรุปข้อมูล ที่ไม่ต้องการ reasoning ซับซ้อน ถ้า quality ไม่ถึงค่อยส่งไป Sonnet 4 แทน
เปลี่ยน restart policy แล้ว container หยุดทำงานบ่อยขึ้นไหม?
ไม่ — on-failure:5 หมายความว่า restart ได้สูงสุด 5 ครั้งเฉพาะเมื่อ fail ถ้า container ทำงานปกติจะไม่มีผลกระทบใดๆ จะหยุดก็ต่อเมื่อ fail ติดต่อกัน 5 ครั้ง ซึ่งแปลว่ามี bug จริงๆ ที่ต้องแก้
Memory 705 บรรทัดมากไปจริงหรือ?
มากเกินไป — ทุกครั้งที่ Bot เริ่มงาน ต้องโหลด memory ทั้งหมดเข้า context window (กินประมาณ 2,000-3,000 tokens) ถ้าย่อเหลือ 200 บรรทัด ก็ยังจำข้อมูลสำคัญได้เหมือนเดิม แต่ใช้ token น้อยกว่า 3 เท่า
ค่า API ลด 50% คำนวณยังไง?
76% ของ skill (15 จาก 25) เปลี่ยนจาก Sonnet 4 ($3.00/M) → Flash ($0.10/M) = ถูกลง 30 เท่าสำหรับส่วนนี้ เฉลี่ยรวมทั้งระบบ (รวม 24% ที่ยังใช้ Sonnet 4) ลดลงประมาณ 40-60% ขึ้นอยู่กับปริมาณ request ในแต่ละ skill
ชอบบทความนี้ใช่ไหม?
สมัครสมาชิก Idea2Level เพื่อเข้าถึง Content, Template และ Community คุณภาพสูง
สมัครสมาชิกบทความที่เกี่ยวข้อง

ScanlyIQ — คู่มือฉบับสมบูรณ์ AI ที่อ่านสลิปจากภาพจริง ไม่ต้องมี QR Code
รู้จัก ScanlyIQ แพลตฟอร์ม Vision AI ที่อ่านสลิป ใบเสร็จ ใบแจ้งหนี้จากภาพจริง ครอบคลุม 24 features ตั้งแต่ OCR Pipeline สถาปัตยกรรม ราคา ไปจนถึงแผนการตลาด 6 เดือน

Master SaaS, Web App Template on Cursor ที่มี OpenClaw, GitLab, CI/CD, QC-QA 143 ข้อ + Hi-end Tech Stack + Automation Routine ทุกระบบในหนึ่งเดียว
ออกแบบระบบ Quality Gate 360° สำหรับ Cursor — 8 Phases, 143 Checklist Items, 17 Scripts, Lark Alert พร้อม Dashboard ที่สร้าง AI Prompt ให้อัตโนมัติ ทุกอย่างพร้อมรันจาก 1 คำสั่ง ใช้ซ้ำได้ทุก project

ตรวจเว็บ 208 ข้อด้วย AI ฟรี — เจอ 236 ปัญหาที่ซ่อนอยู่ แก้ได้ 167 จุดไม่ต้องเขียน Code
ใช้ AI ตรวจเว็บ 208 รายการ ใน 8 หมวด เจอ 236 ปัญหาซ่อนอยู่ — ตั้งแต่ API key หลุด, N+1 queries, contrast อ่านไม่ออก ไปจนถึง canonical URL หาย AI แก้ให้ 167 จุด เหลือ 69 จุดที่ต้องทำเอง ทั้งหมดด้วยต้นทุน 0 บาท