เปิดความสามารถ Voice Engine ปัญญาประดิษฐ์ด้านเสียงที่ OpenAI กำลังพัฒนา | Techsauce

เปิดความสามารถ Voice Engine ปัญญาประดิษฐ์ด้านเสียงที่ OpenAI กำลังพัฒนา

รู้จัก ‘Voice Engine’ AI โคลนนิ่งเสียงจาก OpenAI ที่ใช้เวลาเรียนรู้เสียงมนุษย์เพียง 15 วินาที ก็พูดตามได้เหมือนเป็นคนเดียวกัน 

เปิดความสามารถ Voice Engine จาก OpenAI

Voice Engine คือโมเดล AI โคลนเสียงตัวล่าสุดที่ OpenAI พัฒนามาตั้งแต่ปลายปี 2022 และเป็นโมเดลเดียวกับที่ใช้ในฟีเจอร์ ‘Read Aloud’ หรือการอ่านออกเสียงของ ChatGPTและเมื่อวันเสาร์ที่ผ่านมา (30/03/2024) บริษัทได้ออกมาเปิดข้อมูลและความสามารถของปัญญาประดิษฐ์ตัวนี้ผ่านบล็อกบนเว็บไซต์ 

โดยเผยว่า Voice Engine สามารถแปลงข้อความเป็นเสียงพูดได้โดยใช้ ‘ตัวอย่างเสียง’ และเรียนรู้จากต้นฉบับเพียงแค่ 15 วินาทีเท่านั้น หลังจากนั้นก็จะสามารถเลียนเสียงพูดต้นฉบับและแปลง text-to-voice ตามคำสั่งผู้ใช้ได้เลย ฟังตัวอย่างจาก OpenAI

แม้ AI จะได้รับเสียงต้นฉบับเพียงแค่สั้นๆ แต่ก็ยังสามารถสร้างเสียงที่ฟังดูสมจริงและสื่ออารมณ์ได้ใกล้เคียงกับต้นฉบับมากๆ  ซึ่งนับเป็นเป็นก้าวสำคัญในเทคโนโลยี AI แต่ความก้าวหน้าในครั้งนี้ก็อาจนำมาสู่ความเสี่ยงที่จะถูกนำไปใช้ในทางที่ผิดได้เช่นเดียวกัน

Jeff Harris สมาชิกของทีมผู้พัฒนา Voice Engine ให้สัมภาษณ์กับ TechCrunch ว่าโมเดลดังกล่าวได้รับการฝึกอบรมจากข้อมูล 2 ประเภท ได้แก่ Licensed Data ข้อมูลที่บริษัทได้รับสิทธิ์ในการใช้งานจากเจ้าของข้อมูล และ Publicly Available Data ข้อมูลที่ทุกคนเข้าถึงได้ ดังนั้น โมเดลนี้ OpenAI จึงจะเปิดให้นักพัฒนาประมาณ 10 คนได้ใช้งานเท่านั้น

นอกจากนี้ เพื่อป้องกันความเสี่ยงที่อาจเกิด OpenAI ได้ทดลองให้กลุ่มพันธมิตรของบริษัทใช้งาน Voice Engine ได้แก่ Age of Learning บริษัทเทคโนโลยีการศึกษา, HeyGen แพลตฟอร์มสร้างวิดีโอด้วย AI , Dimagi  ผู้ผลิตซอฟต์แวร์ด้านสุขภาพแนวหน้า, และ Lifespan ผู้สร้างแอปLivox และระบบสุขภาพ เป็นต้น 

การทดลองในครั้งนี้จะถูกนำมาเป็นแม่แบบกำหนดแนวทางการใช้ Voice Engine เมื่อปล่อยสู่สาธารณชนในอนาคต (บริษัทยังไม่แน่ใจว่าควรเปิดให้ใช้หรือไม่) และทำให้บริษัททราบว่า AI จะเกิดประโยชน์ต่ออุตสาหกรรมต่างๆ ได้อย่างไร

กฎเกณฑ์สำคัญที่ OpenAI ตกลงกับพันธมิตรที่ได้ใช้งาน Voice Engine

OpenAI ให้ความสำคัญอย่างมากกับความปลอดภัย บริษัทได้เพิ่ม ‘ลายน้ำ’ ให้กับเสียงที่ AI สร้างขึ้นมา ซึ่งทำให้สามารถติดตามที่มาของเสียงและวิธีการนำเสียงเหล่านั้นไปใช้งาน ว่ามันถูกนำไปใช้ทำอะไรบ้าง รวมถึงยังมีการสร้างข้อตกลงกับพันธมิตร เพื่อป้องกันความเสี่ยงเพิ่มเติม ดังนี้

  1. ไม่ใช้ในการแอบอ้างเป็นบุคคลอื่น เจ้าของเสียงต้นฉบับต้อง ‘ยินยอม’ ก่อนนำเสียงมาใช้ทุกครั้ง
  2. หากใช้ Voice Engine ต้องระบุว่าเสียงนี้ทำขึ้นโดย AI (AI-generated )

การเปิดตัวในครั้งนี้เป็นเพียงแค่การแสดงศักยภาพของ AI และบริษัทจะยังไม่เผยแพร่เทคโนโลยีนี้ให้ใช้งานในวงกว้างจนกว่าจะแน่ใจว่ามันปลอดภัยและไม่ก่อให้เกิดปัญหารุนแรงใดๆ ในอนาคต

อ้างอิง: openai, theverge 

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

Apple ลดการปล่อยก๊าซเรือนกระจก 55% ตั้งเป้าสู่ Net Zero ในปี 2030

Apple เผยรายงานความก้าวหน้าด้านสิ่งแวดล้อม และประกาศปริมาณการลดก๊าซเรือนกระจก ประจำปี 2024...

Responsive image

สร้างวิดีโอสมจริง ใช้แค่รูปนิ่งกับคลิปเสียง รู้จักโมเดล VASA-1 ที่ Microsoft กำลังวิจัย

แค่ใช้รูปถ่ายกับคลิปเสียง ก็สามารถสร้างวิดีโอของเราได้แบบสมจริง ด้วยโมเดล VASA-1 ตัวใหม่จาก Microsoft ที่ต้องบอกว่าทั้งน่าทึ่ง น่าประทับใจ และน่ากลัวด้วย...

Responsive image

เข้าสู่ยุค AI TV ซัมซุงตอกย้ำผู้นำตลาดทีวีทั่วโลก เปิดตัว​ Samsung AI TV เจาะกลุ่มพรีเมี่ยม

ซัมซุง เปิดตัว Samsung AI TV จัดเต็ม 6 ไลน์อัป อัดแน่นด้วยเทคโนโลยีสุดล้ำครอบคลุมทุกไลฟ์สไตล์ พร้อมเจาะเซกเมนต์พรีเมี่ยม...