Google เปิดตัว Gemma 4 12B AI มัลติโมดัลแบบไร้ Encoder แรงใกล้รุ่นพี่ 26B แต่รันบนแล็ปท็อป 16GB ได้

มิถุนายน 5, 2026 | By Techsauce Team

Google หยิบเอาโมเดลภาษาขนาดใหญ่ (Large Language Model) ที่ปกติต้องพึ่งการ์ดจอระดับเซิร์ฟเวอร์ มาบีบให้เล็กลงจนรันได้บนแล็ปท็อปที่มีหน่วยความจำแค่ 16GB แล้วยังยัดความสามารถด้านการมองเห็นและการฟังเข้าไปในตัวโมเดลโดยตรง โดยไม่ต้องพึ่ง Encoder แยกต่างหากเหมือนที่เคยทำกันมา

นี่คือ Gemma 4 12B โมเดลตัวล่าสุดในตระกูล Gemma ที่ Google ออกแบบมาเพื่อนำความสามารถด้านมัลติโมดัล (Multimodal) และการทำงานแบบ Agent มาไว้บนเครื่องของผู้ใช้โดยตรง ตัวโมเดลวางตำแหน่งคั่นกลางระหว่างรุ่นเล็กสำหรับอุปกรณ์ Edge อย่าง E4B กับรุ่นใหญ่ที่ทรงพลังกว่าอย่าง 26B ที่ใช้สถาปัตยกรรม Mixture of Experts (MoE) จุดเด่นคือยัดความสามารถระดับสูงไว้ในขนาดหน่วยความจำที่เล็กลง และยังเป็นโมเดลขนาดกลางตัวแรกของตระกูลที่รับอินพุตเสียงได้แบบ Native

ที่น่าสนใจคือตระกูล Gemma 4 ทะลุยอดดาวน์โหลด 150 ล้านครั้งไปแล้ว โดยชุมชนนักพัฒนาเอาไปสร้างทุกอย่างตั้งแต่แขนกลสวมใส่เพื่อช่วยเหลือทางกายภาพ ไปจนถึงระบบรักษาความปลอดภัยด้วย AI ระดับองค์กร

สถาปัตยกรรมแบบรวมศูนย์ ที่ทิ้ง Encoder ทั้งหมด

หัวใจที่ทำให้ Gemma 4 12B ต่างจากเดิมคือสถาปัตยกรรมแบบรวมศูนย์ (Unified Architecture) ที่ตัด Encoder สำหรับภาพและเสียงออกไปทั้งหมด ปกติแล้วโมเดลมัลติโมดัลจะต้องมีตัวแปลงภาพและเสียงแยกต่างหากก่อนป้อนเข้าโมเดลหลัก แต่ Gemma 4 12B ปล่อยให้อินพุตทั้งภาพและเสียงไหลตรงเข้าสู่แกนหลักของ LLM เลย

ในฝั่งภาพ Google เปลี่ยนจาก Vision Encoder ขนาด 550 ล้านพารามิเตอร์ มาใช้ตัว Embedder ขนาดจิ๋วราว 35 ล้านพารามิเตอร์ ที่ทำหน้าที่ฉายภาพเข้าไปด้วยการคูณเมทริกซ์แค่ครั้งเดียว แล้วโยนภาระการคิดวิเคราะห์ภาพหนัก ๆ ไปให้ตัว Transformer หลักจัดการ ส่วนฝั่งเสียงก็ทำงานโดยไม่ต้องมี Conformer Encoder เสียงที่ 16 kHz จะถูกหั่นเป็นเฟรมละ 40 มิลลิวินาที แล้วฉายเข้าไปในปริภูมิเดียวกับ Text Token โดยตรง ทำให้โมเดลถอดเสียงเป็นข้อความได้เองโดยไม่ต้องพึ่งระบบรู้จำเสียงพูดอัตโนมัติ (Automatic Speech Recognition หรือ ASR) จากภายนอก รองรับคลิปเสียงได้ยาวสุด 30 วินาที

ประสิทธิภาพใกล้รุ่นพี่ 26B แต่กินหน่วยความจำไม่ถึงครึ่ง

แม้ขนาดจะเล็กลง แต่ Gemma 4 12B ทำคะแนนบนเบนช์มาร์กมาตรฐานได้ใกล้เคียงกับรุ่น 26B MoE ที่ใหญ่กว่า ทั้งที่ใช้หน่วยความจำรวมไม่ถึงครึ่งของรุ่นพี่ ในแง่ตัวเลข รุ่น Instruction-tuned ทำได้ 77.2% บน MMLU Pro, 78.8% บน GPQA Diamond, 72.0% บน LiveCodeBench v6 และ 69.1% บน MMMU Pro ฝั่งงานด้านภาพ ซึ่งดันให้โมเดลขนาด 12B ตัวนี้ไปสู้กับระบบที่ใหญ่กว่ามากได้

อีกจุดที่ช่วยเรื่องความเร็วคือ Gemma 4 12B มาพร้อมตัว Drafter แบบ Multi-Token Prediction (MTP) ซึ่งเป็นโมเดลร่างสำหรับเทคนิค Speculative Decoding ที่ช่วยดันจำนวนโทเคนต่อวินาทีให้สูงขึ้นโดยไม่กระทบคุณภาพของผลลัพธ์ ทำให้ลดความหน่วงในการตอบลงได้ และตัวโมเดลยังรองรับ Context Window ยาวถึง 256K Token

เล็กพอจะรันบนแล็ปท็อปทั่วไป และเปิดให้ใช้ฟรี

ความตั้งใจหลักของ Gemma 4 12B คือการพาความสามารถระดับสูงมาไว้บนฮาร์ดแวร์ที่คนทั่วไปใช้กันอยู่แล้ว ตัวโมเดลเล็กพอที่จะรันบนเครื่องได้ด้วยหน่วยความจำกราฟิก (Video RAM หรือ VRAM) หรือ Unified Memory เพียง 16GB เท่านั้น เปิดทางให้ประสบการณ์มัลติโมดัลและการทำงานแบบ Agent เกิดขึ้นบนเครื่องของผู้ใช้เองได้ทันที โดยไม่ต้องส่งข้อมูลขึ้นคลาวด์

ในแง่การเข้าถึง Google ปล่อย Gemma 4 12B ภายใต้ License แบบ Apache 2.0 พร้อมรองรับทั่วทั้งระบบนิเวศนักพัฒนา โดยดาวน์โหลด Checkpoint ได้ผ่าน Hugging Face และ Kaggle ใช้งานได้กับเครื่องมือยอดนิยมอย่าง LM Studio, Ollama, Google AI Edge Gallery รวมถึงเฟรมเวิร์กอย่าง Transformers, llama.cpp, MLX, SGLang และ vLLM ส่วนการนำไปใช้ระดับ Production ก็รองรับทั้ง Agent Platform ของ Google Cloud, Cloud Run และ GKE อีกทั้งยังรองรับ Function Calling สำหรับงานแบบ Agentic ด้วย

Gemma 4 12B เปิดให้นักพัฒนาดาวน์โหลดและใช้งานได้แล้ววันนี้ผ่าน Hugging Face และ Kaggle ภายใต้ License แบบ Apache 2.0 ซึ่งเปิดให้นำไปใช้และต่อยอดได้อย่างอิสระ

ที่มา: Google Blog, MarkTechPost

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

เข้าสู่ระบบ
ลงทะเบียน

ลืมรหัสผ่าน?

มีบัญชีแล้วหรือยัง ?

มีบัญชีอยู่แล้ว ?

No comment

คนไทยใช้ AI เป็น 'เพื่อนสนิท' ส่องอินไซต์การใช้ AI ของคนไทย จาก Gemini Report 2026

จากรายงาน The Gemini Report: Southeast Asia 2026 ที่เจาะลึกพฤติกรรมใน 6 ประเทศอาเซียน ทั้งไทย อินโดนีเซีย มาเลเซีย สิงคโปร์ ฟิลิปปินส์ และเวียดนาม ยืนยันว่าผู้คนในภูมิภาคนี้ก้าวข้า...

กรกฎาคม 16, 2026 | By Techsauce Team

คนไทย

gemini

ประเทศไทย

รู้จักโมเดล AI ‘Inkling’ จาก Thinking Machines Lab โมเดลที่เปิดให้องค์กรปรับแต่งเองได้ ท้าชนแนวคิด AI สำเร็จรูปจากค่ายใหญ่

Thinking Machines Lab ของ Mira Murati เปิดตัว Inkling โมเดล AI แบบ Open-weight ตัวแรก ขนาด 975B พารามิเตอร์ ฝึกด้วยข้อมูล 45 ล้านล้านโทเคน วางเดิมพันว่า AI ที่องค์กรปรับแต่งเองผ่าน...

กรกฎาคม 16, 2026 | By Techsauce Team

Nvidia

Inkling

Fine-tuning

OpenAI เปิดตัว Codex Micro แผงควบคุม AI Agents เกือบ 8,000 บาท มาพร้อมจอยสติ๊กและปุ่มลัด

OpenAI เปิดตัว Codex Micro คีย์บอร์ดสุดล้ำราคา 8,000 บาท มาพร้อมปุ่มหมุนปรับระดับการคิดของ AI ปุ่มไฟเช็กสถานะบอท และจอยสติ๊กสั่งการ...

กรกฎาคม 16, 2026 | By Techsauce Team

OpenAI

ai-agents

Codex Micro