สร้างวิดีโอสมจริง ใช้แค่รูปนิ่งกับคลิปเสียง รู้จักโมเดล VASA-1 ที่ Microsoft กำลังวิจัย

แค่ใช้รูปถ่ายกับคลิปเสียง ก็สามารถสร้างวิดีโอของเราได้แบบสมจริง ด้วยโมเดล VASA-1 ตัวใหม่จาก Microsoft ที่ต้องบอกว่าทั้งน่าทึ่ง น่าประทับใจ และน่ากลัวด้วย

รู้จัก VASA-1 โมเดลช่วยสร้างวิดีโอจากรูปถ่ายและคลิปเสียง 

VASA-1 คือโมเดลสร้างวิดีโอที่ Microsoft กำลังวิจัย สามารถสร้างวิดีโอหน้าคนที่กำลังพูด ด้วยการใช้แค่รูปนิ่งกับคลิปเสียงของคนนั้นได้อย่างสมจริง

ทั้งการขยับปากที่ไปพร้อมกับเสียงพูดอย่างแนบเนียน ผสานกับการแสดงออกทางสีหน้าและการเคลื่อนไหวศีรษะอย่างเป็นธรรมชาติ ทื่ทำให้เรารู้สึกถึงความมีชีวิตชีวาและความสมจริง ด้วยการใช้เทคโนโลยี Holistic facial dynamics และโมเดลการสร้างการเคลื่อนไหวของศีรษะ ซึ่ง Microsoft เคลมว่ามีประสิทธิภาพเหนือกว่าโมเดลตัวอื่นในตลาด

ขณะนี้โมเดล VASA-1 อยู่ภายใต้การวิจัยของ Microsoft โดยบริษัทให้ข้อมูลว่าจะใช้เพื่อสร้าง Virtual Character หรือ ตัวละครเสมือนโดยเฉพาะ โดยภาพบุคคลที่ Microsoft นำมาเผยแพร่การวิจัยนั้น ไม่ได้มีตัวตนอยู่บนโลกจริงๆ เป็นการใช้โมเดล DALL·E-3 ในการสร้างใบหน้าคนขึ้นมา ตัวโมเดลยังสามารถรองรับการสร้างวิดีโอแบบออนไลน์ขนาด 512x512 ที่สูงถึง 40 FPS ใช้เวลาเพียง 2 นาทีโดยประมาณ

ด้วยความกังวลว่าเทคโนโลยีนี้จะถูกนำไปใช้แบบผิดๆ เช่น สร้างข้อมูลเท็จ หลอกลวงฉ้อฉล ทาง Microsoft จึงยังไม่มีแผนใดๆ ที่จะเผยแพร่โมเดล VASA-1 สู่สาธารณะ จนกว่าจะแน่ใจว่าเทคโนโลยีจะถูกนำไปใช้อย่างรับผิดชอบและมีกฎระเบียบที่เหมาะสมมาควบคุม 

อ้างอิง : microsoft, tomsguide 

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

Reed Hastings ผู้ก่อตั้ง Netflix เตรียมลงจากตำแหน่งกลางปีนี้ ปิดตำนาน 27 ปี ผู้เปลี่ยนโลกการดูหนัง

Reed Hastings ผู้ร่วมก่อตั้งและประธานบอร์ดของ Netflix กำลังจะก้าวลงจากตำแหน่งกรรมการบริษัทที่เขาสร้างขึ้นมาตั้งแต่ต้น หลังจากอยู่กับองค์กรมาอย่างยาวนานกว่า 27 ปี โดยการเปลี่ยนแปลงน...

Responsive image

สวีเดนสั่งยกเลิกหน้าจอในห้องเรียน กลับไปใช้หนังสือและปากกา

สวีเดนประกาศเลิกใช้หน้าจอในเด็กเล็ก กลับไปเน้นอ่านเขียนบนกระดาษเพื่อกู้คะแนน PISA เกิดอะไรขึ้นกับระบบการศึกษาที่เคยดีที่สุดในโลก?...

Responsive image

Opus 4.7 สรุปความเก่งของโมเดลล่าสุดจาก Anthropic คิดเองได้ว่าโค้ดผิดตรงไหน เถียงผู้ใช้ได้ ทำงานลากยาวได้โดยไม่ต้องคอยคุม

ลองนึกภาพว่าถ้าคุณเป็น Developer ที่ต้องเขียนเขียนระบบแปลงข้อความเป็นเสียงพูด (Text-to-Speech) ด้วยภาษา Rust โดยต้องเขียนตั้งแต่ Neural Model, การจัดการประมวลผลระดับฮาร์ดเแวร์, ทำ ...