NVIDIA เปิดตัว Nemotron 3 Nano Omni โมเดล AI รวมภาพ เสียง และภาษาในระบบเดียว เร่งความเร็ว AI Agent ได้สูงสุด 9 เท่า

NVIDIA เปิดตัว Nemotron 3 Nano Omni โมเดล AI รุ่นใหม่ที่ออกแบบมาเพื่อรองรับยุค AI agent โดยเฉพาะ โดยเป็นโมเดลแบบ “Omni-modal” ที่สามารถประมวลผลข้อมูลได้หลายรูปแบบในระบบเดียว ทั้งข้อความ รูปภาพ เสียง วิดีโอ เอกสาร ตาราง ไปจนถึงหน้าจอคอมพิวเตอร์ ภายในระบบเดียว โดยตั้งเป้ายกระดับการทำงานของ AI agent ให้มีความรวดเร็ว แม่นยำ และมีประสิทธิภาพมากขึ้นในระดับองค์กร

รวมทุกความสามารถไว้ในโมเดลเดียว

โมเดลนี้ถูกออกแบบมาเพื่อแก้ปัญหาสำคัญของระบบ AI agent ในปัจจุบัน ที่ต้องใช้หลายโมเดลแยกกันสำหรับภาพ เสียง และภาษา ทำให้ต้องส่งข้อมูลไปมาหลายรอบ ส่งผลให้เกิดความล่าช้า ต้นทุนสูง และข้อมูลขาดความต่อเนื่อง แต่ Nemotron 3 Nano Omni รวมความสามารถทั้งหมดไว้ในโมเดลเดียว ช่วยลดขั้นตอนและเพิ่มความสามารถในการเข้าใจบริบทแบบครบวงจร

ในด้านประสิทธิภาพ NVIDIA ระบุว่าโมเดลนี้สามารถประมวลผลได้เร็วขึ้นถึง 9 เท่า เมื่อเทียบกับโมเดล Open omni-modal อื่น ๆ ในระดับเดียวกัน โดยยังคงความแม่นยำสูง โดยเฉพาะในงานที่ซับซ้อน เช่น การทำ การวิเคราะห์เอกสารหลายรูปแบบพร้อมกัน, การวิเคราะห์วิดีโอ และการประมวลผลเสียง

โครงสร้างระดับสูง

ด้านเทคนิค โมเดลใช้สถาปัตยกรรม 30B-A3B แบบ  Hybrid Mixture-of-Experts (MoE) ที่สามารถเลือกใช้ “ผู้เชี่ยวชาญย่อย” ให้เหมาะกับแต่ละงาน ช่วยเพิ่มทั้งความเร็วและความแม่นยำ พร้อมรองรับ Context ยาวถึง 256K tokens ทำให้สามารถเข้าใจข้อมูลจำนวนมากในครั้งเดียวได้อย่างมีประสิทธิภาพ

นอกจากนี้ โมเดลยังเสริมความสามารถด้านภาพและวิดีโอด้วยเทคโนโลยีสำคัญ ได้แก่ EVS (Efficient Video Sampling) ที่ช่วยคัดเลือกเฉพาะเฟรมสำคัญเพื่อลดภาระการประมวลผลโดยยังคงบริบทหลักของวิดีโอ และ C-RADIOv4 ซึ่งเป็น Vision encoder สำหรับภาพและวิดีโอ ที่ช่วยให้โมเดลเข้าใจโครงสร้างภาพ วัตถุ และความสัมพันธ์เชิงพื้นที่ได้แม่นยำยิ่งขึ้น

Nemotron 3 Nano Omni ยังถูกวางให้เป็น “Eyes and ears” ของระบบ AI agent หรือชั้นการรับรู้ (perception layer) ที่ทำหน้าที่อ่านภาพ ฟังเสียง และเข้าใจหน้าจอ ก่อนส่งต่อข้อมูลให้โมเดลอื่นในระบบไปวิเคราะห์ วางแผน หรือสั่งงานต่อ โดยสามารถทำงานร่วมกับโมเดลอื่นในตระกูล Nemotron หรือโมเดลของผู้ให้บริการรายอื่นได้อย่างยืดหยุ่น

ตัวอย่างการใช้งานสำคัญ ได้แก่ 

  • Computer-use agents ที่สามารถอ่านและใช้งานหน้าจอคอมพิวเตอร์ได้แบบเรียลไทม์
  • Document intelligence สำหรับวิเคราะห์เอกสารซับซ้อนที่มีทั้งภาพ ตาราง และข้อความ
  • Audio & video reasoning ที่สามารถเชื่อมโยงสิ่งที่พูด สิ่งที่เห็น และบริบททั้งหมดในสตรีมเดียว

อีกจุดสำคัญคือ NVIDIA เปิดโมเดลนี้ในรูปแบบ Open weights พร้อม Dataset และเทคนิคการฝึก ทำให้องค์กรสามารถนำไปปรับแต่งและติดตั้งได้เอง ทั้งในระบบ Cloud, Data center และ On-premise เพื่อรองรับข้อกำหนดด้านความปลอดภัยและ Data sovereignty ขององค์กร

ปัจจุบัน NVIDIA ได้ร่วมมือกับ Palantir รวมถึงบริษัทกลุ่มแรกอื่น ๆ (Early adopters) ในการทดลองและประเมินการใช้งานโมเดลนี้ในระบบจริง โดยเปิดให้ใช้งานผ่านแพลตฟอร์มอย่าง Hugging Face และ OpenRouter ตั้งแต่วันที่ 28 เมษายน 2026

อ้างอิง: NVIDIA

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

เมื่อ AI แย่งความสนุกในการแก้ปัญหา! Staff Engineer Google ลาออก แฉยุคที่วิศวกรกลายเป็นแค่ "คนป้อน Prompt"

เมื่อ Staff Engineer ตัวท็อปของ Google โบกมือลา! เปิดจดหมายแฉยับ เบื่อระบบรวนเพราะ AI แย่งทรัพยากร จนงานวิศวกรรมหมดความสนุก และต้องยอมทิ้งเงินล้านเพื่อกลับไปเป็นพ่อที่ได้กอดลูกโดยไ...

Responsive image

ฟีเจอร์ใหม่ NotebookLM ‘Interactive Mode’ แทรกถาม AI Host ได้กลางพอดแคสต์

NotebookLM เปิด Interactive Mode บน Audio Overview ให้ผู้ใช้กด Join แทรกถาม AI host กลางพอดแคสต์ได้ พร้อมตอบจาก source ใน NotebookLM...

Responsive image

OpenAI เปิดตัว ‘Daybreak’ ใช้ AI วิเคราะห์โค้ด ปิดช่องโหว่ และป้องกันก่อนถูกโจมตีจริง รุกเกม Cybersecurity เต็มรูปแบบ

OpenAI เปิดตัว ‘Daybreak’ โปรเจกต์ Cybersecurity ใหม่ที่ใช้ AI ช่วยค้นหาช่องโหว่ วิเคราะห์โค้ด และป้องกัน Cyberattack ก่อนถูกโจมตีจริง พร้อมรุกตลาด AI Security เต็มรูปแบบ...