เปิดความสามารถ Voice Engine ปัญญาประดิษฐ์ด้านเสียงที่ OpenAI กำลังพัฒนา

รู้จัก ‘Voice Engine’ AI โคลนนิ่งเสียงจาก OpenAI ที่ใช้เวลาเรียนรู้เสียงมนุษย์เพียง 15 วินาที ก็พูดตามได้เหมือนเป็นคนเดียวกัน 

เปิดความสามารถ Voice Engine จาก OpenAI

Voice Engine คือโมเดล AI โคลนเสียงตัวล่าสุดที่ OpenAI พัฒนามาตั้งแต่ปลายปี 2022 และเป็นโมเดลเดียวกับที่ใช้ในฟีเจอร์ ‘Read Aloud’ หรือการอ่านออกเสียงของ ChatGPTและเมื่อวันเสาร์ที่ผ่านมา (30/03/2024) บริษัทได้ออกมาเปิดข้อมูลและความสามารถของปัญญาประดิษฐ์ตัวนี้ผ่านบล็อกบนเว็บไซต์ 

โดยเผยว่า Voice Engine สามารถแปลงข้อความเป็นเสียงพูดได้โดยใช้ ‘ตัวอย่างเสียง’ และเรียนรู้จากต้นฉบับเพียงแค่ 15 วินาทีเท่านั้น หลังจากนั้นก็จะสามารถเลียนเสียงพูดต้นฉบับและแปลง text-to-voice ตามคำสั่งผู้ใช้ได้เลย ฟังตัวอย่างจาก OpenAI

แม้ AI จะได้รับเสียงต้นฉบับเพียงแค่สั้นๆ แต่ก็ยังสามารถสร้างเสียงที่ฟังดูสมจริงและสื่ออารมณ์ได้ใกล้เคียงกับต้นฉบับมากๆ  ซึ่งนับเป็นเป็นก้าวสำคัญในเทคโนโลยี AI แต่ความก้าวหน้าในครั้งนี้ก็อาจนำมาสู่ความเสี่ยงที่จะถูกนำไปใช้ในทางที่ผิดได้เช่นเดียวกัน

Jeff Harris สมาชิกของทีมผู้พัฒนา Voice Engine ให้สัมภาษณ์กับ TechCrunch ว่าโมเดลดังกล่าวได้รับการฝึกอบรมจากข้อมูล 2 ประเภท ได้แก่ Licensed Data ข้อมูลที่บริษัทได้รับสิทธิ์ในการใช้งานจากเจ้าของข้อมูล และ Publicly Available Data ข้อมูลที่ทุกคนเข้าถึงได้ ดังนั้น โมเดลนี้ OpenAI จึงจะเปิดให้นักพัฒนาประมาณ 10 คนได้ใช้งานเท่านั้น

นอกจากนี้ เพื่อป้องกันความเสี่ยงที่อาจเกิด OpenAI ได้ทดลองให้กลุ่มพันธมิตรของบริษัทใช้งาน Voice Engine ได้แก่ Age of Learning บริษัทเทคโนโลยีการศึกษา, HeyGen แพลตฟอร์มสร้างวิดีโอด้วย AI , Dimagi  ผู้ผลิตซอฟต์แวร์ด้านสุขภาพแนวหน้า, และ Lifespan ผู้สร้างแอปLivox และระบบสุขภาพ เป็นต้น 

การทดลองในครั้งนี้จะถูกนำมาเป็นแม่แบบกำหนดแนวทางการใช้ Voice Engine เมื่อปล่อยสู่สาธารณชนในอนาคต (บริษัทยังไม่แน่ใจว่าควรเปิดให้ใช้หรือไม่) และทำให้บริษัททราบว่า AI จะเกิดประโยชน์ต่ออุตสาหกรรมต่างๆ ได้อย่างไร

กฎเกณฑ์สำคัญที่ OpenAI ตกลงกับพันธมิตรที่ได้ใช้งาน Voice Engine

OpenAI ให้ความสำคัญอย่างมากกับความปลอดภัย บริษัทได้เพิ่ม ‘ลายน้ำ’ ให้กับเสียงที่ AI สร้างขึ้นมา ซึ่งทำให้สามารถติดตามที่มาของเสียงและวิธีการนำเสียงเหล่านั้นไปใช้งาน ว่ามันถูกนำไปใช้ทำอะไรบ้าง รวมถึงยังมีการสร้างข้อตกลงกับพันธมิตร เพื่อป้องกันความเสี่ยงเพิ่มเติม ดังนี้

  1. ไม่ใช้ในการแอบอ้างเป็นบุคคลอื่น เจ้าของเสียงต้นฉบับต้อง ‘ยินยอม’ ก่อนนำเสียงมาใช้ทุกครั้ง
  2. หากใช้ Voice Engine ต้องระบุว่าเสียงนี้ทำขึ้นโดย AI (AI-generated )

การเปิดตัวในครั้งนี้เป็นเพียงแค่การแสดงศักยภาพของ AI และบริษัทจะยังไม่เผยแพร่เทคโนโลยีนี้ให้ใช้งานในวงกว้างจนกว่าจะแน่ใจว่ามันปลอดภัยและไม่ก่อให้เกิดปัญหารุนแรงใดๆ ในอนาคต

อ้างอิง: openai, theverge 

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

เจาะลึก IMD 2026 ไทยขยับขึ้นอันดับ 26 แล้วทำไม 'เวียดนาม' เป็นม้ามืดหน้าใหม่ ที่หายใจรดต้นคอไทย?

สรุปผลการจัดอันดับประเทศไทย ใน IMD World Competitiveness 2026 ไทยขยับขึ้นอันดับ 26 แต่ทำไม 'เวียดนาม' ถึงจี้ติดในอันดับ 27 จากการพูดคุยกับ คุณธีรนันท์ ศรีหงส์ ประธานสมาคมการจัดการธ...

Responsive image

ทำไมการเปลี่ยนผ่านพลังงานโลกถึงชะงัก แม้ลงทุนสูงสุดเป็นประวัติการณ์ WEF เผยรายงาน Energy Transition Index 2026 พร้อมชี้ 3 สิ่งที่โลกต้องทำเร่งด่วน

รู้หรือไม่ว่า ปี 2026 โลกลงทุนด้านพลังงานสูงเป็นประวัติการณ์ที่ 3.3 ล้านล้านดอลลาร์ ในจำนวนนี้เป็นการลงทุนพลังงานสะอาดมากถึง 2.3 ล้านล้านดอลลาร์ แต่ผลที่ได้กลับไม่เหมือนอย่างที่เรา...

Responsive image

'บ้านในอนาคตอาจไม่ได้ขายแค่ทำเล แต่ขายสุขภาพดี' BDMS ลงทุน 29,000 ล้านบาท ปั้น WellEra โครงการที่อยู่อาศัยเพื่อสุขภาพใจกลางลุมพินี

BDMS ทุ่ม 29,000 ล้านบาท เปิดตัว WellEra Wellness Complex ใจกลางลุมพินี โครงการที่ออกแบบให้บ้านและเมืองกลายเป็นส่วนหนึ่งของการดูแลสุขภาพในชีวิตประจำวัน...