
Google หยิบเอาโมเดลภาษาขนาดใหญ่ (Large Language Model) ที่ปกติต้องพึ่งการ์ดจอระดับเซิร์ฟเวอร์ มาบีบให้เล็กลงจนรันได้บนแล็ปท็อปที่มีหน่วยความจำแค่ 16GB แล้วยังยัดความสามารถด้านการมองเห็นและการฟังเข้าไปในตัวโมเดลโดยตรง โดยไม่ต้องพึ่ง Encoder แยกต่างหากเหมือนที่เคยทำกันมา
นี่คือ Gemma 4 12B โมเดลตัวล่าสุดในตระกูล Gemma ที่ Google ออกแบบมาเพื่อนำความสามารถด้านมัลติโมดัล (Multimodal) และการทำงานแบบ Agent มาไว้บนเครื่องของผู้ใช้โดยตรง ตัวโมเดลวางตำแหน่งคั่นกลางระหว่างรุ่นเล็กสำหรับอุปกรณ์ Edge อย่าง E4B กับรุ่นใหญ่ที่ทรงพลังกว่าอย่าง 26B ที่ใช้สถาปัตยกรรม Mixture of Experts (MoE) จุดเด่นคือยัดความสามารถระดับสูงไว้ในขนาดหน่วยความจำที่เล็กลง และยังเป็นโมเดลขนาดกลางตัวแรกของตระกูลที่รับอินพุตเสียงได้แบบ Native
ที่น่าสนใจคือตระกูล Gemma 4 ทะลุยอดดาวน์โหลด 150 ล้านครั้งไปแล้ว โดยชุมชนนักพัฒนาเอาไปสร้างทุกอย่างตั้งแต่แขนกลสวมใส่เพื่อช่วยเหลือทางกายภาพ ไปจนถึงระบบรักษาความปลอดภัยด้วย AI ระดับองค์กร
หัวใจที่ทำให้ Gemma 4 12B ต่างจากเดิมคือสถาปัตยกรรมแบบรวมศูนย์ (Unified Architecture) ที่ตัด Encoder สำหรับภาพและเสียงออกไปทั้งหมด ปกติแล้วโมเดลมัลติโมดัลจะต้องมีตัวแปลงภาพและเสียงแยกต่างหากก่อนป้อนเข้าโมเดลหลัก แต่ Gemma 4 12B ปล่อยให้อินพุตทั้งภาพและเสียงไหลตรงเข้าสู่แกนหลักของ LLM เลย
ในฝั่งภาพ Google เปลี่ยนจาก Vision Encoder ขนาด 550 ล้านพารามิเตอร์ มาใช้ตัว Embedder ขนาดจิ๋วราว 35 ล้านพารามิเตอร์ ที่ทำหน้าที่ฉายภาพเข้าไปด้วยการคูณเมทริกซ์แค่ครั้งเดียว แล้วโยนภาระการคิดวิเคราะห์ภาพหนัก ๆ ไปให้ตัว Transformer หลักจัดการ ส่วนฝั่งเสียงก็ทำงานโดยไม่ต้องมี Conformer Encoder เสียงที่ 16 kHz จะถูกหั่นเป็นเฟรมละ 40 มิลลิวินาที แล้วฉายเข้าไปในปริภูมิเดียวกับ Text Token โดยตรง ทำให้โมเดลถอดเสียงเป็นข้อความได้เองโดยไม่ต้องพึ่งระบบรู้จำเสียงพูดอัตโนมัติ (Automatic Speech Recognition หรือ ASR) จากภายนอก รองรับคลิปเสียงได้ยาวสุด 30 วินาที
แม้ขนาดจะเล็กลง แต่ Gemma 4 12B ทำคะแนนบนเบนช์มาร์กมาตรฐานได้ใกล้เคียงกับรุ่น 26B MoE ที่ใหญ่กว่า ทั้งที่ใช้หน่วยความจำรวมไม่ถึงครึ่งของรุ่นพี่ ในแง่ตัวเลข รุ่น Instruction-tuned ทำได้ 77.2% บน MMLU Pro, 78.8% บน GPQA Diamond, 72.0% บน LiveCodeBench v6 และ 69.1% บน MMMU Pro ฝั่งงานด้านภาพ ซึ่งดันให้โมเดลขนาด 12B ตัวนี้ไปสู้กับระบบที่ใหญ่กว่ามากได้
อีกจุดที่ช่วยเรื่องความเร็วคือ Gemma 4 12B มาพร้อมตัว Drafter แบบ Multi-Token Prediction (MTP) ซึ่งเป็นโมเดลร่างสำหรับเทคนิค Speculative Decoding ที่ช่วยดันจำนวนโทเคนต่อวินาทีให้สูงขึ้นโดยไม่กระทบคุณภาพของผลลัพธ์ ทำให้ลดความหน่วงในการตอบลงได้ และตัวโมเดลยังรองรับ Context Window ยาวถึง 256K Token
ความตั้งใจหลักของ Gemma 4 12B คือการพาความสามารถระดับสูงมาไว้บนฮาร์ดแวร์ที่คนทั่วไปใช้กันอยู่แล้ว ตัวโมเดลเล็กพอที่จะรันบนเครื่องได้ด้วยหน่วยความจำกราฟิก (Video RAM หรือ VRAM) หรือ Unified Memory เพียง 16GB เท่านั้น เปิดทางให้ประสบการณ์มัลติโมดัลและการทำงานแบบ Agent เกิดขึ้นบนเครื่องของผู้ใช้เองได้ทันที โดยไม่ต้องส่งข้อมูลขึ้นคลาวด์
ในแง่การเข้าถึง Google ปล่อย Gemma 4 12B ภายใต้ License แบบ Apache 2.0 พร้อมรองรับทั่วทั้งระบบนิเวศนักพัฒนา โดยดาวน์โหลด Checkpoint ได้ผ่าน Hugging Face และ Kaggle ใช้งานได้กับเครื่องมือยอดนิยมอย่าง LM Studio, Ollama, Google AI Edge Gallery รวมถึงเฟรมเวิร์กอย่าง Transformers, llama.cpp, MLX, SGLang และ vLLM ส่วนการนำไปใช้ระดับ Production ก็รองรับทั้ง Agent Platform ของ Google Cloud, Cloud Run และ GKE อีกทั้งยังรองรับ Function Calling สำหรับงานแบบ Agentic ด้วย
Gemma 4 12B เปิดให้นักพัฒนาดาวน์โหลดและใช้งานได้แล้ววันนี้ผ่าน Hugging Face และ Kaggle ภายใต้ License แบบ Apache 2.0 ซึ่งเปิดให้นำไปใช้และต่อยอดได้อย่างอิสระ
ที่มา: Google Blog, MarkTechPost
ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด