
ในยุคที่การแข่งขัน AI ดุเดือดยิ่งกว่าสงครามใดๆ การมี "สมองกล" ที่ทรงพลังที่สุดคือหัวใจสำคัญ ล่าสุด Oracle ประกาศเปิดตัวส่ง “OCI Zettascale10” ที่พวกเขาอ้างว่าคือ AI Supercomputer บนคลาวด์ที่ "ใหญ่ที่สุดในโลก" ออกมาท้าทายตลาด
สเปกที่ Oracle ประกาศออกมานั้นสะเทือนวงการ ด้วยตัวเลขประสิทธิภาพสูงสุด (Peak Performance) ที่สูงถึง 16 zettaFLOPS ขับเคลื่อนด้วยขุมพลังจากชิป Nvidia GPUs จำนวนมหาศาลถึง 800,000 ตัว
คำว่า "ZettaFLOPS" หลายคนอาจจะยังไม่คุ้นหู แต่มันหมายถึงหน่วยวัดพลังการประมวลผลที่ใหญ่โตมหาศาล (1 ZettaFLOPS คือ 10 ตามด้วยเลข 0 อีก 21 ตัว)
เมื่อลองหารตัวเลขง่ายๆ เอา 16 zettaFLOPS มาหารด้วย GPU 800,000 ตัว จะตกอยู่ที่ประมาณ 20 petaflops ต่อ GPU ซึ่งเป็นตัวเลขที่เทียบเคียงได้กับประสิทธิภาพของชิปตัวท็อปอย่าง Grace Blackwell GB300 Ultra ที่ใช้ในระบบ AI ระดับไฮเอนด์ นั่นหมายความว่า Oracle กำลังนำชิปที่แรงที่สุดในตลาดมาประกอบรวมกันในสเกลที่แทบจินตนาการไม่ออก
ความท้าทายของการสร้าง Supercomputer ครั้งนี้ ไม่ได้อยู่ที่การเอา GPU มารวมกันเยอะๆ แต่อยู่ที่ "การเชื่อมต่อ" เข้าด้วยกันอย่างไร้รอยต่อ ซึ่งเป็นสิ่งที่ Oracle ตั้งใจนำเสนอ นั่นคือสถาปัตยกรรมเครือข่าย Oracle Acceleron RoCE (RDMA over Converged Ethernet)
ในระบบทั่วไป GPU มักจะเกิดปัญหา "คอขวด" (Latency) เมื่อเชื่อมต่อกันมากๆ แต่ Oracle อ้างว่าระบบของพวกเขาออกแบบมาเพื่อแก้ปัญหานี้โดยเฉพาะ โดยใช้ Network Interface Cards (NICs) ทำหน้าที่เหมือน "สวิตช์ขนาดเล็ก" สร้างระนาบเครือข่าย (Network Planes) หลายชั้นที่แยกออกจากกัน
ข้อดีของการออแบบนี้ ได้แก่:
การประกาศครั้งนี้ มีลูกค้ายักษ์ใหญ่มาการันตี ซึ่ง Oracle ยืนยันว่าแพลตฟอร์ม Zettascale10 นี้คือรากฐานสำคัญของ "Stargate" คลัสเตอร์ AI ขนาดยักษ์ของ OpenAI (ผู้สร้าง ChatGPT) ที่ตั้งอยู่ในรัฐเทกซัส
Peter Hoeschele รองประธานฝ่ายโครงสร้างพื้นฐานของ OpenAI กล่าวชมว่า "การออกแบบ RoCE แบบกำหนดเองที่ขยายขนาดได้สูงนี้ ช่วยเพิ่มประสิทธิภาพของเครือข่ายทั้งระบบในระดับ Gigawatt ในขณะที่ยังคงรักษาพลังงานส่วนใหญ่ไว้สำหรับการประมวลผล"
ด้าน Nvidia ก็ออกมายืนยัน โดย Ian Buck รองประธานฝ่าย Hyperscale ของ Nvidia กล่าวว่า "OCI Zettascale10 เป็นโครงสร้างการประมวลผลที่จำเป็นในการขับเคลื่อนการวิจัย AI ที่ล้ำสมัย"
แม้ว่าตัวเลข 16 zettaFLOPS จะฟังดูน่าทึ่ง แต่บทความจาก TechRadar ก็ตั้งข้อสังเกตไว้อย่างเป็นกลางว่า Oracle ยังไม่ได้ให้ข้อมูลการตรวจสอบยืนยันจากหน่วยงานอิสระ (Independent Verification) ซึ่งในวงการคลาวด์ ตัวชี้วัดประสิทธิภาพมักจะแตกต่างกันไป ขึ้นอยู่กับวิธีคำนวณ และตัวเลขที่ Oracle ประกาศนั้น อาจเป็น "ประสิทธิภาพสูงสุดทางทฤษฎี" (Theoretical Peaks) มากกว่าจะเป็น "อัตราการใช้งานจริงแบบต่อเนื่อง" (Sustained Rates)
โดยประสิทธิภาพในโลกแห่งความเป็นจริงจะขึ้นอยู่กับการออกแบบเครือข่ายและการปรับแต่งซอฟต์แวร์เป็นอย่างมาก เนื่องจากตัวเลขที่เปิดเผยมานั้น ดูเหมือนจะเป็นผลรวมของ GPU ตัวท็อป 800,000 ตัวมารวมกัน
การเปิดตัว Zettascale10 คือการที่ Oracle พยายามวางตำแหน่งตัวเองในฐานะผู้เล่นหลัก เคียงข้างยักษ์ใหญ่คลาวด์รายอื่นๆ ที่กำลังเร่งสร้างคลัสเตอร์ GPU ขนาดใหญ่ของตนเองเช่นกัน
Oracle ชูจุดเด่นเรื่องความยืดหยุ่นในการปฏิบัติงาน เช่น การบำรุงรักษาระบบในระดับ Plane ที่แยกจากกัน ทำให้สามารถอัปเดตระบบได้โดยมี Downtime น้อยลง และยังรองรับการใช้งานในสภาพแวดล้อมแบบ Distributed Cloud ที่คำนึงถึงอธิปไตยทางข้อมูล (Data Sovereignty)
Mahesh Thiagarajan รองประธานบริหารของ Oracle Cloud Infrastructure กล่าวว่า "ลูกค้าสามารถสร้าง ฝึกฝน และใช้งานโมเดล AI ที่ใหญ่ที่สุดของพวกเขาโดยใช้พลังงานน้อยลง"
อย่างไรก็ตาม ระบบนี้มีกำหนดจะเปิดตัวอย่างเป็นทางการในปีหน้า ซึ่งถึงตอนนั้นเราจะได้เห็นกันว่า สถาปัตยกรรม Zettascale10 นี้ จะสามารถตอบสนองความต้องการการประมวลผล AI ที่ทั้งทรงพลัง มีประสิทธิภาพ และเชื่อถือได้จริงตามที่อ้างไว้หรือไม่
ที่มา: techradar
ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด