การทำงานของ Dynamic Resource Scheduling หรือ DRS บน HCI – บริษัท ซังฟอร์ เทคโนโลยี (ประเทศไทย) จำกัด

บทนำ

บทความนี้อธิบายการทำงานของ Dynamic Resource Scheduling (DRS) บน Sangfor HCI ซึ่งเป็นเทคโนโลยีสำหรับปรับสมดุลและจัดสรรทรัพยากรต่างๆ (เช่น CPU และ Memory) ภายใน Cluster โดยอัตโนมัติ เพื่อให้ Virtual Machine (VM) มีเสถียรภาพและประสิทธิภาพสูงสุด

DRS 2.0 คืออะไร

Sangfor HCI DRS 2.0 เป็นเวอร์ชันที่พัฒนาขึ้นไปอีกขั้น โดยใช้ AI ในการวิเคราะห์และคาดการณ์ภาระงาน (Load) ของ Cluster ในอีก 2 ชั่วโมงข้างหน้า โดยอิงจากข้อมูลประวัติการใช้งานย้อนหลัง 5 วัน จากนั้นจะทำการจัดสรรทรัพยากรอย่างชาญฉลาดโดยการย้าย VM จากโฮสต์ (Node) ที่มีภาระงานสูงไปยังโฮสต์ที่มีภาระงานต่ำกว่า

โหมดการทำงาน

DRS 2.0 มี 2 โหมดหลักให้เลือกตามความต้องการ:

Better Performance (เพื่อประสิทธิภาพสูงสุด)

เป้าหมาย: ปรับสมดุลภาระงานของแต่ละโฮสต์ใน Cluster ให้ใกล้เคียงกันที่สุด
การทำงาน: ระบบจะย้าย VM จากโฮสต์ที่มีภาระงานสูงไปยังโฮสต์ที่มีภาระงานต่ำ เพื่อเพิ่มประสิทธิภาพโดยรวม

Less Cost (เพื่อการประหยัด)

เป้าหมาย: รวบรวม VM ให้ทำงานอยู่บนโฮสต์จำนวนน้อยที่สุดเท่าที่จะทำได้ เพื่อประหยัดทรัพยากร
การทำงาน: ระบบจะย้าย VM จากโฮสต์ที่มีภาระงานน้อย ไปรวมกับโฮสต์ที่มีภาระงานสูงกว่า เพื่อให้โฮสต์บางตัวว่างและสามารถเข้าสู่โหมดประหยัดพลังงานได้

ระดับ Automation Level

สามารถตั้งค่าระดับการทำงานอัตโนมัติได้ 3 แบบ:

Automated: ระบบจะย้าย VM โดยอัตโนมัติตามผลการประเมิน
Manual: ระบบจะให้คำแนะนำในการย้าย แต่ผู้ดูแลระบบต้องเป็นผู้อนุมัติเอง
Disabled: ปิดการทำงานของ DRS

ความหมายของ Score

Score คือดัชนีชี้วัด "ความสมบูรณ์" โดยรวมของ Cluster ซึ่งประเมินจาก 2 ปัจจัยหลัก:

Performance Score: คะแนนประสิทธิภาพการทำงาน
Reliability Score: คะแนนความน่าเชื่อถือของระบบ

เมื่อ DRS 2.0 ให้คำแนะนำในการย้าย (Migrate) VM จะแสดงให้เห็นว่า "Score After" (คะแนนหลังการย้าย) จะสูงขึ้น หมายความว่าการย้าย VM ตามคำแนะนำจะทำให้ Cluster มีสุขภาพโดยรวมที่ดีขึ้น ทั้งในแง่ประสิทธิภาพและการกระจาย Load ที่สมดุล

ความหมายของ Level ในหน้า Resource Rating

Level ในหน้านี้หมายถึง "ระดับความน่าเชื่อถือของข้อมูล" ที่ระบบใช้ในการคำนวณ Score:

Level 3: ระบบยังไม่มีข้อมูลย้อนหลังเพียงพอสำหรับบางเมตริกในการประเมิน ค่า Score ที่แสดงอาจยังไม่แม่นยำ 100%
Level 1-2: ระบบได้เก็บรวบรวมข้อมูลย้อนหลังมาเป็นระยะเวลาเพียงพอแล้ว ทำให้การคำนวณ Score และการให้คำแนะนำมีความแม่นยำและน่าเชื่อถือมากขึ้น

ตัวอย่างเช่น การตรวจจับความล้มเหลวของดิสก์ (Disk Failure Detection) จะยังไม่สามารถใช้งานได้ในช่วง 10 วันแรกหลังจากการติดตั้ง และการตรวจจับความล้มเหลวของหน่วยความจำ (Memory Failure Detection) ต้องใช้ข้อมูลย้อนหลัง 30 วัน

สรุป: Level บอกถึง "ความสมบูรณ์ของข้อมูลที่ใช้คำนวณ" (ยิ่งสูงยิ่งดี) ในขณะที่ Score บอกถึง "สุขภาพของ Cluster" (ยิ่งสูงยิ่งดี)

บทความที่เกี่ยวข้อง: การตรวจสอบ Reliability Score

เกี่ยวข้องกับ