
อ่างน้ำร้อนที่เราเห็นตามโรงแรม มักมีอุณหภูมิประมาณ 38–40 องศาเซลเซียส แค่นี้ก็ร้อนจนคนส่วนใหญ่แช่ได้ไม่นาน ประมาณ 15 นาที ก็ต้องลุกแล้ว
แต่เซิร์ฟเวอร์ AI รุ่นใหม่ของ NVIDIA กลับออกแบบให้น้ำยาหล่อเย็นในระบบร้อนได้สูงกว่านั้นอีก คือประมาณ 45 องศาเซลเซียส หรือราว 113 องศาฟาเรนไฮต์
ฟังดูเหมือนยิ่งร้อนยิ่งแย่ แต่จริง ๆ แล้วนี่คือจุดที่ทำให้ระบบประหยัดพลังงานขึ้น เพราะเมื่อเครื่องทนความร้อนได้มากขึ้น ระบบทำความเย็นก็ไม่ต้องเร่งทำงานหนักตลอดเวลา ใช้พลังงานน้อยลง และช่วยลดต้นทุนไฟฟ้าในดาต้าเซ็นเตอร์ได้มากขึ้นด้วย
ก่อนจะเข้าใจว่าทำไมของเหลว 45 องศาเซลเซียส ถึงสำคัญ เราต้องกลับมาดูต้นทุนของ Data Center ก่อน
รายงานของ McKinsey ระบุว่า ระบบหล่อเย็นเคยกินไฟได้มากถึง 40% ของการใช้ไฟทั้งหมดใน Data Center ตัวเลขนี้สำคัญมาก เพราะเมื่อโลกเข้าสู่ยุค AI ความต้องการ GPU และเซิร์ฟเวอร์ประสิทธิภาพสูงเพิ่มขึ้นอย่างรวดเร็ว ค่าใช้จ่ายที่ตามมาครอบคลุมทั้งตัวชิป ค่าไฟของการประมวลผล และพลังงานที่ต้องใช้เพื่อไล่ความร้อนออกจากอาคาร
Data Center แบบเดิมใช้หลักการง่าย ๆ คือเป่าอากาศเย็นเข้าไปผ่านชั้นวางเซิร์ฟเวอร์ แล้วระบายอากาศร้อนออก ระบบจึงต้องมีทั้งพัดลม แถวลมเย็น แถวลมร้อน เครื่องทำความเย็น และในหลายกรณีต้องใช้น้ำเพื่อช่วยระบายความร้อนผ่านหอหล่อเย็น
ปัญหาคือ AI Server รุ่นใหม่ไม่ได้ร้อนแบบกระจายเท่ากันทั้งเครื่อง ความร้อนหลักเกิดขึ้นที่ชิปประมวลผลและชิ้นส่วนสำคัญบนบอร์ด การพยายามทำให้อากาศทั้งห้องเย็นพอจะกดอุณหภูมิชิปเหล่านี้จึงเริ่มสิ้นเปลืองกว่าที่ควรจะเป็น
Liquid Cooling แก้โจทย์นี้ด้วยการดึงความร้อนออกจากต้นทางโดยตรง ของเหลวจะไหลผ่าน Cold Plate หรือแผ่นนำความร้อนที่สัมผัสกับชิป คล้ายการเอาหม้อน้ำไปแนบกับจุดที่ร้อนที่สุด แล้วพาความร้อนออกไปยังระบบระบายความร้อนด้านนอกอาคาร
เมื่อจับความร้อนใกล้ต้นทางได้ดีพอ Data Center ก็ไม่จำเป็นต้องทำอากาศทั้งห้องให้เย็นจัดเหมือนเดิม
ถ้าน้ำหล่อเย็นต้องเย็นมาก Data Center ต้องใช้เครื่องทำความเย็นหนักขึ้นเพื่อกดอุณหภูมิลง แต่ถ้าระบบถูกออกแบบให้ชิปทำงานได้ปกติแม้น้ำหล่อเย็นที่ไหลเข้าจะอยู่ที่ 45 องศา ภาระของเครื่องทำความเย็นจะลดลงมาก
ข้อมูลจาก Energy Star ระบุว่า การเพิ่มอุณหภูมิของระบบ Chiller Plant เพียง 1 องศา สามารถลดต้นทุนพลังงานด้านความเย็นได้ประมาณ 4% ดังนั้นเมื่อ Data Center ขนาดใหญ่ขยับอุณหภูมิการทำงานขึ้นได้หลายองศา ผลประหยัดจึงขยายตัวตามขนาดของโครงสร้างพื้นฐานทันที
NVIDIA ระบุว่า Data Center ขนาด 50 เมกะวัตต์ สามารถประหยัดค่าไฟและค่าน้ำที่เกี่ยวกับการหล่อเย็นได้มากกว่า 4 ล้านดอลลาร์ต่อปี หากเปลี่ยนไปใช้โครงสร้างพื้นฐานแบบ Liquid Cooling และในภูมิอากาศที่เหมาะสม ระบบ 45 องศาเซลเซียสอาจลดการใช้น้ำเพื่อหล่อเย็นจากประมาณ 2.6 ล้านแกลลอนต่อเมกะวัตต์ต่อปี ลงใกล้ศูนย์
กุญแจสำคัญคือ Dry Cooler หรือระบบระบายความร้อนด้วยอากาศภายนอกที่ทำงานคล้ายหม้อน้ำขนาดใหญ่ เมื่อน้ำหล่อเย็นกลับออกมาจากเซิร์ฟเวอร์ในอุณหภูมิสูงพอ ระบบสามารถปล่อยความร้อนสู่อากาศภายนอกได้โดยไม่ต้องเปิดเครื่องทำความเย็นตลอดเวลา
พูดให้เห็นภาพคือ Data Center กำลังขยับจากการต่อสู้เพื่อทำให้ทุกอย่างเย็นที่สุด ไปสู่การออกแบบให้ระบบทั้งชุดทนความร้อนได้มากขึ้น และระบายความร้อนออกไปด้วยพลังงานน้อยลง
ในอดีต เซิร์ฟเวอร์ Liquid Cooling หลายรุ่นยังเป็นระบบผสม GPU และ CPU อาจได้ Cold Plate แต่ชิ้นส่วนอื่นยังต้องพึ่งพัดลมและฮีตซิงก์เพื่อถ่ายเทความร้อนสู่อากาศ
Rubin เปลี่ยนโจทย์นี้ด้วยการออกแบบให้เป็น 100% Liquid Cooled Infrastructure ทุกชิ้นส่วนสำคัญตั้งแต่ชิปประมวลผลไปจนถึงระบบเครือข่ายใช้ของเหลวหล่อเย็นในวงจรเดียวกัน NVIDIA ระบุว่าแนวทางนี้อยู่ใน NVIDIA DSX ซึ่งเป็นแบบอ้างอิงสำหรับการสร้าง AI Factory หรือ Data Center ที่ถูกออกแบบมาเพื่อฝึกและรัน AI ขนาดใหญ่โดยเฉพาะ
พอหันมาใช้ระบบหล่อเย็นด้วยของเหลว ทำให้ดีไซน์เปลี่ยนไปด้วย เซิร์ฟเวอร์แบบระบายความร้อนด้วยอากาศมักมีช่องหน้าเครื่องเป็นรูพรุนเพื่อให้ลมไหลผ่าน แต่เซิร์ฟเวอร์ Liquid Cooling เต็มระบบสามารถมีแผงหน้าปิดเรียบ เพราะความร้อนไม่ได้ถูกจัดการด้วยอากาศอีกต่อไป
สิ่งที่ตามมาคือความหนาแน่นของ Rack สูงขึ้น NVIDIA ระบุว่าระบบที่เคยต้องใช้พื้นที่ 6 Rack Units สามารถย่อเหลือ 2 Rack Units ได้ในสถาปัตยกรรมใหม่ ซึ่งเหมาะมากในยุคที่ NVIDIA ต้องการสร้างสิ่งที่เรียกว่า AI Factory เพราะพื้นที่ใน Data Center มีราคาแพง และการเพิ่ม Compute ต่อพื้นที่หนึ่งหน่วยคือหนึ่งในโจทย์สำคัญที่สุดของผู้ให้บริการ Cloud และผู้สร้างโมเดล AI
อีกด้านหนึ่ง การตัดพัดลมออกยังลดเสียงรบกวนใน Data Center แบบเดิมที่ระดับเสียงจากพัดลมอาจสูงเกิน 85 เดซิเบล จนต้องใช้อุปกรณ์ป้องกันหูสำหรับคนทำงานหน้างาน
การแข่งขันของ Data Center กำลังขยายจากเรื่องกำลังไฟและที่ดิน ไปสู่คำถามว่าการดึง Data Center เข้ามาลงทุนจะกระทบโครงสร้างพื้นฐานพลังงานและน้ำอย่างไร
ในโมเดลเดิม Data Center จำนวนมากใช้ระบบหล่อเย็นที่มีการระเหยของน้ำเพื่อดึงความร้อนออกจากอาคาร วิธีนี้มีประสิทธิภาพ แต่สร้างภาระด้านน้ำ โดยเฉพาะในพื้นที่ที่มีอากาศร้อนหรือมีข้อจำกัดด้านทรัพยากรน้ำ
ซึ่งสิ่งที่ NVIDIA กำลังพยายามทำอยู่คือลดการใช้น้ำให้ได้มากที่สุด โดยระบบปิดที่เติมของเหลวแล้วหมุนเวียนใช้งานต่อ ไม่ได้ใช้น้ำระเหยเพื่อหล่อเย็นเป็นประจำ หากอยู่ในภูมิอากาศที่เหมาะสม ระบบสามารถส่งความร้อนออกผ่าน Dry Cooler โดยไม่ต้องพึ่งหอหล่อเย็นแบบเดิม
ในช่วง 2 ปีที่ผ่านมา เรามักเห็นข่าว AI ผ่านโมเดลใหม่ Benchmark ใหม่ หรือชิปใหม่ แต่เบื้องหลังโมเดลเหล่านั้นคือโครงสร้างพื้นฐานขนาดใหญ่ที่ต้องใช้ไฟ ใช้น้ำ ใช้พื้นที่ และต้องดูแลตลอด 24 ชั่วโมง
Rubin และระบบ Liquid Cooling 45 องศาของ NVIDIA จึงสะท้อนภาพใหญ่ของอุตสาหกรรม AI ในระยะต่อไป ชัยชนะของบริษัทเทคจะวัดจากความสามารถในการทำให้ GPU ทำงานได้หนาแน่นกว่า ประหยัดกว่า และสเกลต่อได้โดยไม่ชนเพดานด้านพลังงาน และทรัพยากรเร็วเกินไป
อธิบายให้เห็นภาพมากขึ้นคือ AI Workload จะไม่เบาลง โมเดลจะใหญ่ขึ้น การใช้งานจะถี่ขึ้น และ Data Center จะกลายเป็นโครงสร้างพื้นฐานหลักของเศรษฐกิจดิจิทัลมากขึ้นเรื่อย ๆ คำถามของยุค AI จึงเริ่มขยับจาก 'ใครมีโมเดลเก่งที่สุด' ไปสู่ 'ใครสร้างโรงงาน AI ที่เดินเครื่องได้คุ้มที่สุด'
อ้างอิง : NVIDIA
ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด