Google เปิดตัว DiffusionGemma โมเดล AI แบบเปิด สร้างข้อความเร็วขึ้น 4 เท่า ด้วยเทคนิค Text Diffusion

Google DeepMind เพิ่งปล่อยโมเดลที่ทำความเร็วได้ทะลุ 1,000 โทเค็นต่อวินาทีบนชิป NVIDIA H100 เพียงตัวเดียว เร็วกว่าโมเดลภาษาทั่วไปถึง 4 เท่า และที่สำคัญคือเปิดให้ทุกคนดาวน์โหลดไปใช้ฟรีภายใต้สัญญาอนุญาต Apache 2.0

โมเดลตัวนี้ชื่อว่า DiffusionGemma โมเดลทดลอง (Experimental Model) ขนาด 26,000 ล้านพารามิเตอร์ ที่ฉีกแนวทางการสร้างข้อความแบบเดิมของ Large Language Model (LLM) ทิ้งไปเลย แทนที่จะพ่นข้อความออกมาทีละคำจากซ้ายไปขวาเหมือนโมเดลทั่วไป DiffusionGemma เลือกสร้างข้อความออกมาทั้งบล็อกพร้อมกันในคราวเดียว ด้วยเทคนิคการแพร่กระจาย (Diffusion) แบบเดียวกับที่ AI สร้างภาพใช้กัน โดยต่อยอดมาจากสถาปัตยกรรม Gemma 4 และงานวิจัย Gemini Diffusion ของ Google เอง

จากเครื่องพิมพ์ดีดสู่แท่นพิมพ์ เปลี่ยนวิธีคิดเรื่องการสร้างข้อความ

โมเดลภาษาส่วนใหญ่ทำงานเหมือนเครื่องพิมพ์ดีด คือเคาะข้อความออกมาทีละโทเค็นเรียงตามลำดับ ซึ่งวิธีนี้เรียกว่าการสร้างแบบถดถอยอัตโนมัติ (Autoregressive) ถ้ารันบนคลาวด์ที่รวมคำขอจากผู้ใช้หลายพันคนมาประมวลผลพร้อมกัน วิธีนี้ถือว่าคุ้มค่าเครื่อง แต่พอเอามารันในเครื่องส่วนตัวสำหรับผู้ใช้คนเดียว หน่วยประมวลผลกราฟิก (GPU) กลับต้องนั่งรอการเคาะแต่ละครั้งโดยแทบไม่ได้ใช้พลังที่มีอยู่เลย

DiffusionGemma พลิกสมการนี้ด้วยการร่างข้อความทั้งย่อหน้าขนาด 256 โทเค็นออกมาพร้อมกันในการประมวลผลรอบเดียว เปรียบเหมือนเปลี่ยนจากเครื่องพิมพ์ดีดเป็นแท่นพิมพ์ที่ปั๊มข้อความทั้งบล็อกออกมาทีเดียว การโยนงานก้อนใหญ่ให้ชิปทำในคราวเดียวแบบนี้ทำให้คอขวดของการประมวลผลย้ายจากแบนด์วิดท์หน่วยความจำ (Memory Bandwidth) มาเป็นพลังการคำนวณ (Compute) แทน ซึ่งเป็นจุดที่ GPU ถนัดที่สุดพอดี

กลไกเบื้องหลัง เริ่มจากความว่างเปล่าแล้วค่อยๆ เกลาจนคม

หลักการทำงานของ DiffusionGemma คล้ายกับ AI สร้างภาพที่เริ่มจากภาพซ่าๆ เต็มไปด้วยสัญญาณรบกวน แล้วค่อยๆ เกลาจนกลายเป็นภาพคมชัด เพียงแต่เปลี่ยนมาใช้กับข้อความ โมเดลจะเริ่มจากผืนผ้าใบ (Canvas) ที่เต็มไปด้วยโทเค็นสุ่ม จากนั้นไล่ขัดเกลาหลายรอบ รอบไหนที่โทเค็นตัวใดถูกต้องแล้วก็จะล็อกไว้ แล้วใช้โทเค็นเหล่านั้นเป็นเบาะแสบริบทช่วยเกลาส่วนที่เหลือ จนข้อความทั้งบล็อกลงตัวเป็นผลลัพธ์คุณภาพสูง โดยเอกสารทางเทคนิคของ Google ระบุว่าแต่ละรอบการประมวลผลจะมีโทเค็นที่ถูกล็อกราว 15 ถึง 20 ตัว

จุดที่ทำให้สถาปัตยกรรมนี้น่าสนใจเป็นพิเศษคือกลไกความสนใจแบบสองทิศทาง (Bi-directional Attention) เพราะการสร้าง 256 โทเค็นพร้อมกันทำให้ทุกโทเค็นมองเห็นกันและกันได้หมด ต่างจากโมเดลแบบเดิมที่แต่ละคำมองเห็นได้แค่คำที่มาก่อนหน้า ความสามารถนี้เปิดทางให้โมเดลแก้ไขข้อผิดพลาดของตัวเองแบบเรียลไทม์ มองข้อความทั้งบล็อกแล้วเกลาจุดที่ผิดได้ทันที และยังเหมาะกับงานที่ไม่ได้ไหลเป็นเส้นตรง เช่น การแก้ไขข้อความแทรกกลางประโยค (In-line Editing) การเติมโค้ดตรงกลางไฟล์ (Code Infilling) ลำดับกรดอะมิโน ไปจนถึงกราฟทางคณิตศาสตร์

ตัวอย่างที่เห็นภาพชัดที่สุดมาจากทีม Unsloth ที่นำ DiffusionGemma ไปปรับจูน (Fine-tune) ให้เล่นเกมซูโดกุ ซึ่งเป็นงานที่โมเดลแบบถดถอยอัตโนมัติทำได้ยากมากเพราะแต่ละช่องต้องรู้คำตอบของช่องที่อยู่ถัดไปด้วย ผลคือโมเดลพื้นฐานที่แก้โจทย์ไม่ได้เลยสักข้อ พุ่งขึ้นมาแก้ถูกถึง 80% หลังการปรับจูน

สเปกจัดเต็มแต่กินทรัพยากรเบา การ์ดจอเกมมิ่งก็รันได้

DiffusionGemma เป็นโมเดลแบบผสมผสานผู้เชี่ยวชาญ (Mixture of Experts หรือ MoE) ขนาดรวม 26,000 ล้านพารามิเตอร์ แต่เปิดใช้งานจริงแค่ 3,800 ล้านพารามิเตอร์ต่อการประมวลผลแต่ละครั้ง ทำให้เมื่อบีบอัดโมเดล (Quantize) แล้วสามารถรันได้ในหน่วยความจำการ์ดจอ (VRAM) ไม่เกิน 18GB ซึ่งอยู่ในวิสัยของการ์ดจอเกมมิ่งระดับสูงทั่วไป ตัวโมเดลรองรับอินพุตหลายรูปแบบ (Multimodal) ทั้งข้อความ ภาพ และวิดีโอ มีหน้าต่างบริบท (Context Window) ขนาด 256K โทเค็น และรองรับมากกว่า 140 ภาษา

ด้านความเร็ว Google ทำงานร่วมกับ NVIDIA เพื่อรีดประสิทธิภาพทั่วทั้งไลน์ฮาร์ดแวร์ ตั้งแต่การ์ดจอผู้บริโภคอย่าง GeForce RTX 5090 และ 4090 ไปจนถึงระบบระดับองค์กรตระกูล Hopper และ Blackwell โดยตัวเลขที่ทำได้คือมากกว่า 1,000 โทเค็นต่อวินาทีบน H100 หนึ่งตัว มากกว่า 700 โทเค็นต่อวินาทีบน RTX 5090 และข้อมูลจากบล็อกของ NVIDIA เผยว่าบนเครื่อง DGX Station ทำได้สูงสุดถึง 2,000 โทเค็นต่อวินาที ส่วนเครื่อง DGX Spark ขนาดตั้งโต๊ะทำได้ราว 150 โทเค็นต่อวินาที กุญแจสำคัญอีกดอกคือการรองรับรูปแบบตัวเลขทศนิยม 4 บิต (NVFP4) แบบเนทีฟ ที่ช่วยเร่งการคำนวณให้เร็วขึ้นโดยความแม่นยำแทบไม่ตกเลย

เร็วแลกคุณภาพ ข้อจำกัดที่ Google บอกตรงๆ

Google ไม่ได้อ้อมค้อมเรื่องจุดอ่อนของโมเดลตัวนี้ เพราะการออกแบบที่เทน้ำหนักไปทางความเร็วและการสร้างข้อความแบบขนาน ทำให้คุณภาพผลลัพธ์โดยรวมของ DiffusionGemma ต่ำกว่า Gemma 4 มาตรฐานในทุกการวัดผล (Benchmark) ที่เผยแพร่ออกมา สำหรับงานที่ต้องการคุณภาพสูงสุด Google จึงแนะนำให้ใช้ Gemma 4 ตามเดิม ส่วน DiffusionGemma วางตัวเป็นโมเดลสำหรับนักวิจัยและนักพัฒนาที่ต้องการสำรวจงานที่ความเร็วคือหัวใจ เช่น การแก้ไขข้อความแบบโต้ตอบทันที หรือการทดลองซ้ำเร็วๆ ในเครื่องตัวเอง

อีกเรื่องที่ต้องรู้ก่อนใช้คือความได้เปรียบด้านความเร็วนี้ออกแบบมาสำหรับการรันในเครื่องส่วนตัวหรืองานที่มีผู้ใช้พร้อมกันน้อยเท่านั้น เพราะในการให้บริการคลาวด์ที่มีคำขอถาโถมเข้ามาพร้อมกันจำนวนมาก โมเดลแบบถดถอยอัตโนมัติสามารถจัดสรรการประมวลผลได้คุ้มกว่า การถอดรหัสแบบขนานของ DiffusionGemma จะให้ผลตอบแทนที่ลดลงและอาจทำให้ต้นทุนการให้บริการสูงขึ้นด้วยซ้ำ

เปิดให้โหลดแล้ววันนี้ พร้อมเครื่องมือรองรับครบ

ตอนนี้นักพัฒนาสามารถดาวน์โหลด Model Weights ได้แล้วบน Hugging Face ภายใต้ชื่อ google/diffusiongemma-26B-A4B-it รวมถึงบน Kaggle และ Vertex AI โดยมีระบบนิเวศเครื่องมือรองรับตั้งแต่วันแรก ทั้ง MLX สำหรับเครื่อง Mac, vLLM ที่ได้แรงสนับสนุนจาก Red Hat, Hugging Face Transformers รวมถึงการปรับจูนผ่าน Unsloth และ NVIDIA NeMo ส่วนใครที่รอ llama.cpp ทาง Google ยืนยันว่าการรองรับอย่างเป็นทางการกำลังจะตามมาเร็วๆ นี้ นอกจากนี้ยังมี Hackable Diffusion กล่องเครื่องมือ JAX แบบโมดูลาร์พร้อมบทเรียนการปรับจูนสำหรับสายทดลอง และสำหรับฝั่งองค์กรก็เรียกใช้ผ่านคลาวด์ได้ทั้ง Gemini Enterprise Agent Platform Model Garden และ NVIDIA NIM

ที่มา: Google Blog, MarkTechPost, NVIDIA Blog, Google AI for Developers

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

Visa จับมือ OpenAI เปิดทางให้ AI Agent จ่ายเงินแทนผู้ใช้ได้อย่างปลอดภัย ปูทางสู่ยุค Agentic Commerce

Visa ประกาศความร่วมมือเชิงกลยุทธ์กับ OpenAI เปิดทางให้เอเจนต์ AI ชำระเงินผ่านเครือข่าย Visa แทนผู้ใช้ได้อย่างปลอดภัย ด้วยระบบโทเค็น การอนุมัติแบบเรียลไทม์ และการควบคุมวงเงินที่ผู้ใ...

Responsive image

Dario Amodei ออกโรงเตือนโลกเข้าใกล้ยุค Powerful AI รัฐบาลต้องตาม AI ให้ทันก่อนสาย หมดยุคออกนโยบายกำกับแบบดูไปก่อน

ในเวลาเพียง 4 ปี โมเดล AI ขยับจากการเขียนโค้ดได้เพียงไม่กี่บรรทัด ไปสู่จุดที่ AI เขียนโค้ดส่วนใหญ่ในบริษัท AI ชั้นนำได้แล้ว ประโยคนี้เป็นแกนเปิดของบทความยาวของ Dario Amodei, CEO...

Responsive image

Google เปิดตัว Gemini 3.5 Live Translate แปลเสียงพูดสดกว่า 70 ภาษา

Google เปิดตัว Gemini 3.5 Live Translate โมเดล AI แปลเสียงพูดแบบเกือบเรียลไทม์กว่า 70 ภาษา แปลต่อเนื่องไม่ต้องรอพูดจบ เก็บน้ำเสียงผู้พูดไว้ครบ ใช้ได้ทั้ง Google Meet, Google Transl...