แค่ใช้รูปถ่ายกับคลิปเสียง ก็สามารถสร้างวิดีโอของเราได้แบบสมจริง ด้วยโมเดล VASA-1 ตัวใหม่จาก Microsoft ที่ต้องบอกว่าทั้งน่าทึ่ง น่าประทับใจ และน่ากลัวด้วย
VASA-1 คือโมเดลสร้างวิดีโอที่ Microsoft กำลังวิจัย สามารถสร้างวิดีโอหน้าคนที่กำลังพูด ด้วยการใช้แค่รูปนิ่งกับคลิปเสียงของคนนั้นได้อย่างสมจริง
ทั้งการขยับปากที่ไปพร้อมกับเสียงพูดอย่างแนบเนียน ผสานกับการแสดงออกทางสีหน้าและการเคลื่อนไหวศีรษะอย่างเป็นธรรมชาติ ทื่ทำให้เรารู้สึกถึงความมีชีวิตชีวาและความสมจริง ด้วยการใช้เทคโนโลยี Holistic facial dynamics และโมเดลการสร้างการเคลื่อนไหวของศีรษะ ซึ่ง Microsoft เคลมว่ามีประสิทธิภาพเหนือกว่าโมเดลตัวอื่นในตลาด
ขณะนี้โมเดล VASA-1 อยู่ภายใต้การวิจัยของ Microsoft โดยบริษัทให้ข้อมูลว่าจะใช้เพื่อสร้าง Virtual Character หรือ ตัวละครเสมือนโดยเฉพาะ โดยภาพบุคคลที่ Microsoft นำมาเผยแพร่การวิจัยนั้น ไม่ได้มีตัวตนอยู่บนโลกจริงๆ เป็นการใช้โมเดล DALL·E-3 ในการสร้างใบหน้าคนขึ้นมา ตัวโมเดลยังสามารถรองรับการสร้างวิดีโอแบบออนไลน์ขนาด 512x512 ที่สูงถึง 40 FPS ใช้เวลาเพียง 2 นาทีโดยประมาณ
ด้วยความกังวลว่าเทคโนโลยีนี้จะถูกนำไปใช้แบบผิดๆ เช่น สร้างข้อมูลเท็จ หลอกลวงฉ้อฉล ทาง Microsoft จึงยังไม่มีแผนใดๆ ที่จะเผยแพร่โมเดล VASA-1 สู่สาธารณะ จนกว่าจะแน่ใจว่าเทคโนโลยีจะถูกนำไปใช้อย่างรับผิดชอบและมีกฎระเบียบที่เหมาะสมมาควบคุม
ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด