Google เปิดตัว Gemma 4 12B AI มัลติโมดัลแบบไร้ Encoder แรงใกล้รุ่นพี่ 26B แต่รันบนแล็ปท็อป 16GB ได้

Google หยิบเอาโมเดลภาษาขนาดใหญ่ (Large Language Model) ที่ปกติต้องพึ่งการ์ดจอระดับเซิร์ฟเวอร์ มาบีบให้เล็กลงจนรันได้บนแล็ปท็อปที่มีหน่วยความจำแค่ 16GB แล้วยังยัดความสามารถด้านการมองเห็นและการฟังเข้าไปในตัวโมเดลโดยตรง โดยไม่ต้องพึ่ง Encoder แยกต่างหากเหมือนที่เคยทำกันมา

นี่คือ Gemma 4 12B โมเดลตัวล่าสุดในตระกูล Gemma ที่ Google ออกแบบมาเพื่อนำความสามารถด้านมัลติโมดัล (Multimodal) และการทำงานแบบ Agent มาไว้บนเครื่องของผู้ใช้โดยตรง ตัวโมเดลวางตำแหน่งคั่นกลางระหว่างรุ่นเล็กสำหรับอุปกรณ์ Edge อย่าง E4B กับรุ่นใหญ่ที่ทรงพลังกว่าอย่าง 26B ที่ใช้สถาปัตยกรรม Mixture of Experts (MoE) จุดเด่นคือยัดความสามารถระดับสูงไว้ในขนาดหน่วยความจำที่เล็กลง และยังเป็นโมเดลขนาดกลางตัวแรกของตระกูลที่รับอินพุตเสียงได้แบบ Native

ที่น่าสนใจคือตระกูล Gemma 4 ทะลุยอดดาวน์โหลด 150 ล้านครั้งไปแล้ว โดยชุมชนนักพัฒนาเอาไปสร้างทุกอย่างตั้งแต่แขนกลสวมใส่เพื่อช่วยเหลือทางกายภาพ ไปจนถึงระบบรักษาความปลอดภัยด้วย AI ระดับองค์กร

สถาปัตยกรรมแบบรวมศูนย์ ที่ทิ้ง Encoder ทั้งหมด

หัวใจที่ทำให้ Gemma 4 12B ต่างจากเดิมคือสถาปัตยกรรมแบบรวมศูนย์ (Unified Architecture) ที่ตัด Encoder สำหรับภาพและเสียงออกไปทั้งหมด ปกติแล้วโมเดลมัลติโมดัลจะต้องมีตัวแปลงภาพและเสียงแยกต่างหากก่อนป้อนเข้าโมเดลหลัก แต่ Gemma 4 12B ปล่อยให้อินพุตทั้งภาพและเสียงไหลตรงเข้าสู่แกนหลักของ LLM เลย

ในฝั่งภาพ Google เปลี่ยนจาก Vision Encoder ขนาด 550 ล้านพารามิเตอร์ มาใช้ตัว Embedder ขนาดจิ๋วราว 35 ล้านพารามิเตอร์ ที่ทำหน้าที่ฉายภาพเข้าไปด้วยการคูณเมทริกซ์แค่ครั้งเดียว แล้วโยนภาระการคิดวิเคราะห์ภาพหนัก ๆ ไปให้ตัว Transformer หลักจัดการ ส่วนฝั่งเสียงก็ทำงานโดยไม่ต้องมี Conformer Encoder เสียงที่ 16 kHz จะถูกหั่นเป็นเฟรมละ 40 มิลลิวินาที แล้วฉายเข้าไปในปริภูมิเดียวกับ Text Token โดยตรง ทำให้โมเดลถอดเสียงเป็นข้อความได้เองโดยไม่ต้องพึ่งระบบรู้จำเสียงพูดอัตโนมัติ (Automatic Speech Recognition หรือ ASR) จากภายนอก รองรับคลิปเสียงได้ยาวสุด 30 วินาที

ประสิทธิภาพใกล้รุ่นพี่ 26B แต่กินหน่วยความจำไม่ถึงครึ่ง

แม้ขนาดจะเล็กลง แต่ Gemma 4 12B ทำคะแนนบนเบนช์มาร์กมาตรฐานได้ใกล้เคียงกับรุ่น 26B MoE ที่ใหญ่กว่า ทั้งที่ใช้หน่วยความจำรวมไม่ถึงครึ่งของรุ่นพี่ ในแง่ตัวเลข รุ่น Instruction-tuned ทำได้ 77.2% บน MMLU Pro, 78.8% บน GPQA Diamond, 72.0% บน LiveCodeBench v6 และ 69.1% บน MMMU Pro ฝั่งงานด้านภาพ ซึ่งดันให้โมเดลขนาด 12B ตัวนี้ไปสู้กับระบบที่ใหญ่กว่ามากได้

อีกจุดที่ช่วยเรื่องความเร็วคือ Gemma 4 12B มาพร้อมตัว Drafter แบบ Multi-Token Prediction (MTP) ซึ่งเป็นโมเดลร่างสำหรับเทคนิค Speculative Decoding ที่ช่วยดันจำนวนโทเคนต่อวินาทีให้สูงขึ้นโดยไม่กระทบคุณภาพของผลลัพธ์ ทำให้ลดความหน่วงในการตอบลงได้ และตัวโมเดลยังรองรับ Context Window ยาวถึง 256K Token

เล็กพอจะรันบนแล็ปท็อปทั่วไป และเปิดให้ใช้ฟรี

ความตั้งใจหลักของ Gemma 4 12B คือการพาความสามารถระดับสูงมาไว้บนฮาร์ดแวร์ที่คนทั่วไปใช้กันอยู่แล้ว ตัวโมเดลเล็กพอที่จะรันบนเครื่องได้ด้วยหน่วยความจำกราฟิก (Video RAM หรือ VRAM) หรือ Unified Memory เพียง 16GB เท่านั้น เปิดทางให้ประสบการณ์มัลติโมดัลและการทำงานแบบ Agent เกิดขึ้นบนเครื่องของผู้ใช้เองได้ทันที โดยไม่ต้องส่งข้อมูลขึ้นคลาวด์

ในแง่การเข้าถึง Google ปล่อย Gemma 4 12B ภายใต้ License แบบ Apache 2.0 พร้อมรองรับทั่วทั้งระบบนิเวศนักพัฒนา โดยดาวน์โหลด Checkpoint ได้ผ่าน Hugging Face และ Kaggle ใช้งานได้กับเครื่องมือยอดนิยมอย่าง LM Studio, Ollama, Google AI Edge Gallery รวมถึงเฟรมเวิร์กอย่าง Transformers, llama.cpp, MLX, SGLang และ vLLM ส่วนการนำไปใช้ระดับ Production ก็รองรับทั้ง Agent Platform ของ Google Cloud, Cloud Run และ GKE อีกทั้งยังรองรับ Function Calling สำหรับงานแบบ Agentic ด้วย

Gemma 4 12B เปิดให้นักพัฒนาดาวน์โหลดและใช้งานได้แล้ววันนี้ผ่าน Hugging Face และ Kaggle ภายใต้ License แบบ Apache 2.0 ซึ่งเปิดให้นำไปใช้และต่อยอดได้อย่างอิสระ

ที่มา: Google Blog, MarkTechPost

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

Anthropic เตือนทั่วโลกต้องหยุดพัฒนา AI เสนอต้นแบบการควบคุมอาวุธนิวเคลียร์

Anthropic เสนอไอเดียสุดโต่งชวนค่ายยักษ์ใหญ่ทั่วโลกจับมือ ‘กดปุ่ม Pause’ ชะลอพัฒนา AI ชั่วคราว เตือนเสี่ยงเกินต้านหากปล่อยให้ AI อัปเกรดตัวเองจนเกินควบคุม!...

Responsive image

Google เปิดตัว Dreambeans แอป AI ปั้นเรื่องราวประจำวัน จาก Gmail, Calendar, Photos

Google Labs เปิดตัว Dreambeans แอปทดลองที่ใช้ Personal Intelligence และ Nano Banana 2 ดึงข้อมูลจาก Gmail, Calendar, Photos มาปั้นเป็นเรื่องราวประจำวันเฉพาะบุคคล ออกแบบให้อ่านจบได้ ...

Responsive image

10 คอร์สเรียน AI ฟรี! จากบริษัทเทคฯ ระดับโลก เรียนได้แม้ไม่มีพื้นฐาน

ใครที่อยากเรียน AI แต่ไม่รู้จะเริ่มจากตรงไหน ตอนนี้บริษัทเทคฯ ชั้นนำหลายแห่งเปิดคอร์สให้เรียนฟรีตั้งแต่พื้นฐาน ไม่ว่าจะเป็น OpenAI, Google, Microsoft, NVIDIA, Anthropic, AWS และ Me...