Troubleshooting Must-Read สำหรับ VDI – บริษัท ซังฟอร์ เทคโนโลยี (ประเทศไทย) จำกัด

ภาพรวม Troubleshooting Methodology

เมื่อพบปัญหาบนระบบ VDI การ Troubleshoot อย่างเป็นระบบจะช่วยให้แก้ไขปัญหาได้รวดเร็วและตรงจุด บทความนี้รวบรวม Methodology สำหรับ Troubleshooting ที่ Admin ควรรู้และใช้เป็นแนวทางทุกครั้งที่พบปัญหา

Step 1: ระบุอาการ (Identify Symptoms)

สิ่งแรกที่ต้องทำคือเก็บข้อมูลอาการให้ครบถ้วน:

- สอบถาม User ว่าพบปัญหาอะไร เกิดเมื่อไหร่ ทำอะไรอยู่ตอนที่เกิดปัญหา

- ปัญหาเกิดกับ User คนเดียวหรือหลายคน ถ้าหลายคน เกิดพร้อมกันหรือไม่

- ขอ Screenshot ของ Error Message หรือหน้าจอที่แสดงปัญหา

- ลอง Reproduce ปัญหาด้วยตัวเอง (ถ้าทำได้)

- บันทึก Timeline ของเหตุการณ์

Step 2: ตรวจสอบ VDC Operations Center

เข้าสู่ VDC Console ไปที่ Operations Center:

- ตรวจสอบ Dashboard ว่ามี Alert ใหม่หรือไม่

- ดู Alert Logs ในช่วงเวลาที่เกิดปัญหา

- ดู Service Logs สำหรับ User ที่รายงานปัญหา (Login/Logout Events, Error Messages)

- ดู Operation Logs ว่ามี Admin ทำการเปลี่ยนแปลงอะไรในช่วงเวลานั้นหรือไม่

Step 3: ตรวจสอบ HCI Cluster Status

ไปที่ HCI Console ตรวจสอบ:

- Node Status: ทุก Node Online หรือไม่

- Storage Health: Storage Pool มีปัญหาหรือไม่ มี Disk Failure หรือไม่

- Resource Usage: CPU/Memory/Storage ของ Cluster อยู่ในระดับปกติหรือไม่

- Network: Heartbeat และ Replication ทำงานปกติหรือไม่

Step 4: ตรวจสอบ VM Status

ไปที่ Assets > Virtual Machines ตรวจสอบ VM ที่เกี่ยวข้อง:

- VM Power Status: Running, Stopped หรือ Error

- Agent Status: Connected หรือ Disconnected

- Resource Usage: CPU/Memory ของ VM สูงผิดปกติหรือไม่

- ลอง Access VM ผ่าน Web Console เพื่อดูว่า VM ยังทำงานได้หรือไม่

Step 5: ตรวจสอบ Network Connectivity

ตรวจสอบการเชื่อมต่อ Network ระหว่าง Components:

- Ping จาก Client ไปยัง VDC IP

- Ping จาก VDC ไปยัง HCI Node

- Ping จาก VDC ไปยัง AD Server

- ตรวจสอบ Port Connectivity (telnet VDC_IP 443, telnet VDC_IP 7000)

- ใช้ Traceroute เพื่อตรวจสอบ Network Path

Step 6: เก็บ Diagnostic Information

หากยังไม่สามารถระบุสาเหตุได้ ให้เก็บข้อมูลสำหรับการวิเคราะห์เพิ่มเติม:

- Export VDC Logs จาก Operations Center

- Export HCI Logs จาก HCI Console

- เก็บ Client Logs (ตำแหน่งขึ้นอยู่กับ OS ของ Client)

- ใช้ Packet Capture บน VDC หากสงสัยปัญหา Network

- Screenshot ของ Error Messages ทั้งหมด

Step 7: Common Quick Fixes

ก่อน Escalate ลองทำ Quick Fix เหล่านี้:

Restart VDI Agent บน VM:

- Windows: เปิด Services.msc > หา "Sangfor VDI Agent" > Restart

- Linux: systemctl restart sangfor-vdi-agent

Restart VDC Services:

- ไปที่ VDC Console > System > Service Management > Restart Service ที่มีปัญหา

Clear Browser Cache:

- หาก User ใช้ Web Client ให้ลอง Clear Browser Cache แล้ว Login ใหม่

Restart VM:

- หาก VM ค้างหรือ Agent Disconnected ลอง Force Restart VM จาก VDC Console

เมื่อใดควร Escalate ไปยัง Sangfor TAC

- ปัญหาเกิดกับ User ทุกคนและไม่สามารถแก้ไขด้วย Quick Fix ได้

- HCI Cluster มีปัญหาร้ายแรง เช่น Node Offline, Storage Failure

- พบ Error ที่ไม่เคยเห็นมาก่อนและไม่พบใน KB

- ปัญหาเกิดซ้ำบ่อยแม้แก้ไขแล้ว

- ต้องการ Firmware Update หรือ Patch จาก Sangfor

- เมื่อ Escalate ให้เตรียมข้อมูลจาก Step 6 ให้ครบถ้วนเพื่อให้ TAC สามารถวิเคราะห์ได้รวดเร็ว