NVIDIA เปิดตัว Nemotron 3 Nano Omni โมเดล AI รวมภาพ เสียง และภาษาในระบบเดียว เร่งความเร็ว AI Agent ได้สูงสุด 9 เท่า

NVIDIA เปิดตัว Nemotron 3 Nano Omni โมเดล AI รุ่นใหม่ที่ออกแบบมาเพื่อรองรับยุค AI agent โดยเฉพาะ โดยเป็นโมเดลแบบ “Omni-modal” ที่สามารถประมวลผลข้อมูลได้หลายรูปแบบในระบบเดียว ทั้งข้อความ รูปภาพ เสียง วิดีโอ เอกสาร ตาราง ไปจนถึงหน้าจอคอมพิวเตอร์ ภายในระบบเดียว โดยตั้งเป้ายกระดับการทำงานของ AI agent ให้มีความรวดเร็ว แม่นยำ และมีประสิทธิภาพมากขึ้นในระดับองค์กร

รวมทุกความสามารถไว้ในโมเดลเดียว

โมเดลนี้ถูกออกแบบมาเพื่อแก้ปัญหาสำคัญของระบบ AI agent ในปัจจุบัน ที่ต้องใช้หลายโมเดลแยกกันสำหรับภาพ เสียง และภาษา ทำให้ต้องส่งข้อมูลไปมาหลายรอบ ส่งผลให้เกิดความล่าช้า ต้นทุนสูง และข้อมูลขาดความต่อเนื่อง แต่ Nemotron 3 Nano Omni รวมความสามารถทั้งหมดไว้ในโมเดลเดียว ช่วยลดขั้นตอนและเพิ่มความสามารถในการเข้าใจบริบทแบบครบวงจร

ในด้านประสิทธิภาพ NVIDIA ระบุว่าโมเดลนี้สามารถประมวลผลได้เร็วขึ้นถึง 9 เท่า เมื่อเทียบกับโมเดล Open omni-modal อื่น ๆ ในระดับเดียวกัน โดยยังคงความแม่นยำสูง โดยเฉพาะในงานที่ซับซ้อน เช่น การทำ การวิเคราะห์เอกสารหลายรูปแบบพร้อมกัน, การวิเคราะห์วิดีโอ และการประมวลผลเสียง

โครงสร้างระดับสูง

ด้านเทคนิค โมเดลใช้สถาปัตยกรรม 30B-A3B แบบ  Hybrid Mixture-of-Experts (MoE) ที่สามารถเลือกใช้ “ผู้เชี่ยวชาญย่อย” ให้เหมาะกับแต่ละงาน ช่วยเพิ่มทั้งความเร็วและความแม่นยำ พร้อมรองรับ Context ยาวถึง 256K tokens ทำให้สามารถเข้าใจข้อมูลจำนวนมากในครั้งเดียวได้อย่างมีประสิทธิภาพ

นอกจากนี้ โมเดลยังเสริมความสามารถด้านภาพและวิดีโอด้วยเทคโนโลยีสำคัญ ได้แก่ EVS (Efficient Video Sampling) ที่ช่วยคัดเลือกเฉพาะเฟรมสำคัญเพื่อลดภาระการประมวลผลโดยยังคงบริบทหลักของวิดีโอ และ C-RADIOv4 ซึ่งเป็น Vision encoder สำหรับภาพและวิดีโอ ที่ช่วยให้โมเดลเข้าใจโครงสร้างภาพ วัตถุ และความสัมพันธ์เชิงพื้นที่ได้แม่นยำยิ่งขึ้น

Nemotron 3 Nano Omni ยังถูกวางให้เป็น “Eyes and ears” ของระบบ AI agent หรือชั้นการรับรู้ (perception layer) ที่ทำหน้าที่อ่านภาพ ฟังเสียง และเข้าใจหน้าจอ ก่อนส่งต่อข้อมูลให้โมเดลอื่นในระบบไปวิเคราะห์ วางแผน หรือสั่งงานต่อ โดยสามารถทำงานร่วมกับโมเดลอื่นในตระกูล Nemotron หรือโมเดลของผู้ให้บริการรายอื่นได้อย่างยืดหยุ่น

ตัวอย่างการใช้งานสำคัญ ได้แก่ 

  • Computer-use agents ที่สามารถอ่านและใช้งานหน้าจอคอมพิวเตอร์ได้แบบเรียลไทม์
  • Document intelligence สำหรับวิเคราะห์เอกสารซับซ้อนที่มีทั้งภาพ ตาราง และข้อความ
  • Audio & video reasoning ที่สามารถเชื่อมโยงสิ่งที่พูด สิ่งที่เห็น และบริบททั้งหมดในสตรีมเดียว

อีกจุดสำคัญคือ NVIDIA เปิดโมเดลนี้ในรูปแบบ Open weights พร้อม Dataset และเทคนิคการฝึก ทำให้องค์กรสามารถนำไปปรับแต่งและติดตั้งได้เอง ทั้งในระบบ Cloud, Data center และ On-premise เพื่อรองรับข้อกำหนดด้านความปลอดภัยและ Data sovereignty ขององค์กร

ปัจจุบัน NVIDIA ได้ร่วมมือกับ Palantir รวมถึงบริษัทกลุ่มแรกอื่น ๆ (Early adopters) ในการทดลองและประเมินการใช้งานโมเดลนี้ในระบบจริง โดยเปิดให้ใช้งานผ่านแพลตฟอร์มอย่าง Hugging Face และ OpenRouter ตั้งแต่วันที่ 28 เมษายน 2026

อ้างอิง: NVIDIA

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

สตาร์ทอัพออสเตรเลีย ทดลองใช้ 'เซลล์สมองมนุษย์' ประมวลผลแทนชิปใน Data Center หวังช่วยลดพลังงาน AI

สตาร์ทอัปจากออสเตรเลียกำลังสร้างสิ่งที่อาจจะกลายเป็น ‘ศูนย์ข้อมูลทางชีวภาพ’ แห่งแรกๆ ของโลก โดยการทดลองนำเซลล์ประสาทของมนุษย์ที่เพาะเลี้ยงในห้องแล็บมาทำงานร่วมกับชิปคอมพิวเตอร์...

Responsive image

Ineffable Intelligence มาแล้ว AI Startup คนระดับตำนาน David Silver ผู้สร้าง AlphaGo

David Silver นักวิทยาศาสตร์ผู้อยู่เบื้องหลัง AlphaGo และ AlphaZero ออกจาก DeepMind เพื่อก่อตั้ง Ineffable Intelligence startup ที่ต้องการสร้าง AI ที่เรียนรู้ได้เองโดยไม่ต้องพึ่งข้อ...

Responsive image

สัญญาณอันตราย ไทยหายจากแผนที่ Asia AI Super-highway เมื่อยักษ์ใหญ่ SKT เลือกเวียดนาม

แผนที่ AI จาก Ryu Young-sang CEO ของ SK Telecom ทำไมไทยถึงหายไปจากแผนที่ Asia AI Super-highway และ 3 ยุทธศาสตร์ทางรอดที่ไทยต้องเร่งหาจุดยืนก่อนตกขบวน AI โลก...