Nvidia ลงสนามเครื่องมือสร้างเสียงด้วย AI เปิดตัว Fugatto โมเดล AI ที่สามารถสร้างสรรค์และปรับแต่งเสียงได้อย่างเหนือชั้น เพียงแค่เขียน prompt พร้อมปฏิวัติอุตสาหกรรมหลากหลาย ตั้งแต่วงการดนตรี ภาพยนตร์ วิดีโอเกม ไปจนถึงบริการแปลภาษา
Fugatto หรือชื่อเต็มว่า Foundational Generative Audio Transformer Opus 1 โดดเด่นด้วยความสามารถที่ทำได้หลากหลายในโมเดลเดียว ครอบคลุมตั้งแต่การสังเคราะห์เสียงพูด สร้างเอฟเฟกต์เสียง และสร้างดนตรี จนถึงแปลงเสียงดนตรีเป็นให้เป็นเสียงคน เปลี่ยนอารมณ์และสำเนียงของเสียงพูด หรือแม้แต่การแปลจากภาษาหนึ่งไปอีกภาษาหนึ่งโดยคงเสียงเดิมของผู้พูดไว้ Fugatto จึงเป็นเสมือนส่วนเติมเต็มที่สมบูรณ์แบบให้กับโมเดลสร้างภาพและวิดีโออย่าง Stable Video Diffusion และ Sora
Bryan Catanzaro รองประธานฝ่ายวิจัย applied deep learning ของ Nvidia กล่าวว่า สิ่งที่น่าตื่นเต้นเกี่ยวกับ Fugatto ความสามารถสั่งให้สร้างเสียงในรูปแบบต่างๆ ได้จากการเขียน prompt ซึ่งเป็นการเปิดโอกาสใหม่ๆ ในการสร้างสรรค์เสียงที่ไม่เคยมีมาก่อนได้อย่างง่ายได้
แม้ Catanzaro จะมอง Fugatto ว่าจะเป็นเครื่องมือสำหรับยุคใหม่สำหรับศิลปินในการสร้างสรรค์ผลงาน และอาจนำไปสู่รูปแบบดนตรีใหม่ๆ เช่นเดียวกับที่กีตาร์และเครื่องเล่นแผ่นเสียงเคยทำได้ อย่างไรก็ตาม Nvidia ยังไม่มีแผนเปิดตัว Fugatto สู่สาธารณะในเร็วๆ นี้ เนื่องจากความสัมพันธ์ที่ซับซ้อนระหว่าง AI กับวงการเพลง โดยเฉพาะความกังวลเกี่ยวกับผลกระทบต่อศิลปิน sound engineer และตำแหน่งงานอื่นๆ ที่เกี่ยวข้อง รวมถึงข้อพิพาทเรื่องลิขสิทธิ์ที่ยังคงเป็นประเด็นสำคัญ
Nvidia ตระหนักถึงศักยภาพของ Fugatto ในการสร้างประสบการณ์ทางเสียงในรูปแบบใหม่ๆ แต่ยังคงย้ำถึงความจำเป็นในการพัฒนาและใช้งานอย่างมีความรับผิดชอบ ขณะนี้อยู่ในขั้นตอนการวิจัยและประเมินเพื่อลดความเสี่ยงก่อนการเปิดตัวอย่างเป็นทางการ
ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด