Microsoft เปิดตัว ‘MAI’ 3 AI โมเดลใหม่ Transcribe-1, Voice-1, Image-2 แปลงเสียง-สร้างวิดีโอสุดล้ำ ราคาถูกกว่าคู่แข่ง

Microsoft AI ห้องวิจัยของยักษ์ใหญ่เทคโนโลยี ประกาศเปิดตัว foundational AI model ใหม่ 3 ตัวที่ครอบคลุมทั้งการแปลงเสียงเป็นข้อความ การสร้างเสียง และการสร้างภาพ สะท้อนให้เห็นว่า Microsoft กำลังเดินหน้าสร้าง multimodal AI stack ของตัวเองอย่างจริงจัง แม้จะยังคงผูกพันกับ OpenAI ในฐานะพาร์ตเนอร์หลักอยู่ก็ตาม

โมเดลทั้ง 3 ตัวพัฒนาโดยทีม MAI Superintelligence ซึ่งนำโดย Mustafa Suleyman ซีอีโอของ Microsoft AI ที่เพิ่งก่อตั้งขึ้นเมื่อเดือนพฤศจิกายน 2025 ประกอบด้วย

MAI-Transcribe-1 โมเดลแปลงเสียงพูดเป็นข้อความที่รองรับ 25 ภาษา โดย Microsoft อ้างว่าเร็วกว่า Azure Fast Transcription ถึง 2.5 เท่า เริ่มต้นที่ 0.36 ดอลลาร์ต่อชั่วโมง

MAI-Voice-1 โมเดลสร้างเสียงที่สามารถ generate เสียงได้ 60 วินาทีภายในเวลาเพียง 1 วินาที พร้อมรองรับการสร้าง custom voice เริ่มต้นที่ 22 ดอลลาร์ต่อ 1 ล้านตัวอักษร

MAI-Image-2 โมเดลสร้างภาพที่เปิดให้ทดลองใช้บน MAI Playground ตั้งแต่วันที่ 19 มีนาคมที่ผ่านมา เริ่มต้นที่ 5 ดอลลาร์ต่อ 1 ล้าน token สำหรับ text input และ 33 ดอลลาร์ต่อ 1 ล้าน token สำหรับ image output

ปัจจุบันโมเดลทั้งหมดเปิดให้บริการบน Microsoft Foundry แล้ว ขณะที่โมเดลแปลงเสียงและสร้างเสียงยังใช้ได้บน MAI Playground ด้วย

จุดขายคือ 'ราคา' ที่ถูกกว่าคู่แข่ง

ในตลาด LLM ที่แข่งขันดุเดือดขึ้นเรื่อย ๆ Microsoft วางตำแหน่งโมเดลชุดนี้ด้วยจุดขายเรื่องราคาที่ถูกกว่าทั้ง Google และ OpenAI ซึ่งถือเป็นกลยุทธ์ที่น่าสนใจ เพราะในขณะที่ผู้เล่นรายอื่นเน้นแข่งกันเรื่องประสิทธิภาพ Microsoft เลือกโจมตีที่ต้นทุนการใช้งาน

Suleyman เขียนไว้ในบล็อกโพสต์ว่า 'ที่ Microsoft AI เรากำลังสร้าง Humanist AI เรามีมุมมองที่แตกต่างในการพัฒนาโมเดล AI นั่นคือการเอาคนเป็นศูนย์กลาง optimize ตามวิธีที่คนสื่อสารจริง ๆ และ train เพื่อการใช้งานจริง'

ยังไม่ทิ้ง OpenAI

แม้จะเดินหน้าพัฒนาโมเดลของตัวเอง แต่ Suleyman ยืนยันในบทสัมภาษณ์กับ VentureBeat ว่า Microsoft ยังคงมุ่งมั่นกับ partnership กับ OpenAI ที่ลงทุนไปแล้วกว่า 13,000 ล้านดอลลาร์ เพียงแต่การเจรจาข้อตกลงใหม่เปิดทางให้ Microsoft สามารถทำวิจัยด้าน superintelligence ได้อย่างเต็มที่มากขึ้น

กลยุทธ์นี้คล้ายกับแนวทางที่ Microsoft ใช้กับชิป คือทั้งพัฒนาเองและซื้อจากผู้เล่นรายอื่นไปพร้อม ๆ กัน ซึ่งสะท้อนว่า Microsoft ไม่ต้องการพึ่งพาใครเพียงรายเดียวในสงคราม AI ที่กำลังร้อนแรง

ที่มา: TechCrunch

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

Reed Hastings ผู้ก่อตั้ง Netflix เตรียมลงจากตำแหน่งกลางปีนี้ ปิดตำนาน 27 ปี ผู้เปลี่ยนโลกการดูหนัง

Reed Hastings ผู้ร่วมก่อตั้งและประธานบอร์ดของ Netflix กำลังจะก้าวลงจากตำแหน่งกรรมการบริษัทที่เขาสร้างขึ้นมาตั้งแต่ต้น หลังจากอยู่กับองค์กรมาอย่างยาวนานกว่า 27 ปี โดยการเปลี่ยนแปลงน...

Responsive image

สวีเดนสั่งยกเลิกหน้าจอในห้องเรียน กลับไปใช้หนังสือและปากกา

สวีเดนประกาศเลิกใช้หน้าจอในเด็กเล็ก กลับไปเน้นอ่านเขียนบนกระดาษเพื่อกู้คะแนน PISA เกิดอะไรขึ้นกับระบบการศึกษาที่เคยดีที่สุดในโลก?...

Responsive image

Opus 4.7 สรุปความเก่งของโมเดลล่าสุดจาก Anthropic คิดเองได้ว่าโค้ดผิดตรงไหน เถียงผู้ใช้ได้ ทำงานลากยาวได้โดยไม่ต้องคอยคุม

ลองนึกภาพว่าถ้าคุณเป็น Developer ที่ต้องเขียนเขียนระบบแปลงข้อความเป็นเสียงพูด (Text-to-Speech) ด้วยภาษา Rust โดยต้องเขียนตั้งแต่ Neural Model, การจัดการประมวลผลระดับฮาร์ดเแวร์, ทำ ...