
Google แปลคำให้ผู้ใช้ทั่วโลกมากกว่า 1 ล้านล้านคำต่อเดือน นับจากวันแรกที่ Google Translate ถือกำเนิดขึ้นเมื่อ 20 ปีก่อน การแปลข้อความกลายเป็นเรื่องธรรมดาที่ใครก็เข้าถึงได้ แต่โจทย์ที่ยากกว่านั้นคือการแปล 'เสียงพูดสด' ให้ลื่นไหลทันบทสนทนาเหมือนมีล่ามมืออาชีพนั่งอยู่ข้างตัว ซึ่งที่ผ่านมาระบบแปลเสียงส่วนใหญ่ยังต้องรอให้ผู้พูดพูดจบก่อนถึงจะแปลออกมาได้ ทำให้บทสนทนาสะดุดเป็นช่วง ๆ
ล่าสุด Google เปิดตัว Gemini 3.5 Live Translate โมเดลเสียงรุ่นใหม่สำหรับการแปลเสียงพูดเป็นเสียงพูด (Speech-to-Speech) แบบเกือบเรียลไทม์ จุดขายคือแปลได้ต่อเนื่องโดยไม่ต้องรอผู้พูดพูดจบ รองรับการตรวจจับภาษาอัตโนมัติมากกว่า 70 ภาษา และยังเก็บน้ำเสียง จังหวะ และระดับเสียงของผู้พูดต้นฉบับไว้ได้ โดยเริ่มทยอยเปิดให้ใช้งานแล้วทั้งใน Google AI Studio, แอป Google Translate และ Google Meet

หัวใจของ Gemini 3.5 Live Translate คือการประมวลผลเสียงแบบสตรีมต่อเนื่อง (Continuous Stream) ต่างจากระบบแปลแบบผลัดกันพูดทีละรอบที่ต้องรอให้อีกฝ่ายพูดจบก่อน โมเดลนี้จะฟัง แปล และพูดออกมาไปพร้อม ๆ กัน โดยคอยถ่วงสมดุลระหว่างการรอฟังบริบทเพื่อให้คำแปลแม่นยำ กับการแปลออกมาทันทีเพื่อให้ทันจังหวะของผู้พูด ผลที่ได้คือเสียงแปลที่ลื่นไหล ไม่มีช่วงเงียบน่าอึดอัด และตามหลังผู้พูดเพียงไม่กี่วินาทีตลอดการสนทนา ใกล้เคียงกับการคุยโทรศัพท์ทางไกลที่มีดีเลย์นิดหน่อยเท่านั้น
อีกจุดที่น่าสนใจคือเสียงแปลที่ออกมาไม่ใช่เสียงหุ่นยนต์แข็ง ๆ แต่เลียนแบบน้ำเสียง จังหวะการพูด และอารมณ์ของผู้พูดต้นฉบับ แถมโมเดลยังทนทานต่อเสียงรบกวน รองรับสภาพแวดล้อมที่เสียงดังและคาดเดาไม่ได้ เช่น ริมถนนหรือในร้านอาหาร และจัดการกับบทสนทนาหลายภาษาได้เองโดยผู้ใช้ไม่ต้องตั้งค่าภาษาล่วงหน้า
ฟีเจอร์แปลเสียงพูดใน Google Meet จะเปลี่ยนมาใช้ Gemini 3.5 Live Translate ซึ่งถือเป็นการยกเครื่องครั้งใหญ่ จากเดิมที่รองรับเพียง 5 ภาษาและแปลได้เฉพาะคู่ภาษาที่มีภาษาอังกฤษเป็นตัวกลาง ตอนนี้ขยายเป็นมากกว่า 70 ภาษา เปิดทางให้คนในห้องประชุมเดียวกันคุยข้ามภาษากันได้มากกว่า 2,000 คู่ภาษา เช่น ผู้เข้าประชุมพูดอังกฤษ จีนกลาง และสวีเดนพร้อมกันได้โดยไม่ต้องผ่านภาษาอังกฤษอีกต่อไป พร้อมปรับหน้าจอใหม่ให้กดเปิดใช้การแปลเสียงได้ทันที
ฟีเจอร์นี้จะเริ่มเปิดให้ทดลองใช้แบบจำกัดกลุ่ม (Private Preview) สำหรับลูกค้าธุรกิจ Google Workspace บางรายภายในเดือนนี้ ก่อนขยายวงกว้างขึ้นภายในปีนี้
ฝั่งผู้ใช้ทั่วไป โมเดลนี้กำลังทยอยเปิดให้ใช้ในแอป Google Translate ทั่วโลกทั้งบน Android และ iOS เพียงเชื่อมต่อหูฟังแล้วใช้ฟีเจอร์ Live Translate ก็จะได้คำแปลที่ลื่นไหลและสะท้อนโทนเสียงของผู้พูดในกว่า 70 ภาษา
ที่เด็ดกว่านั้นคือผู้ใช้ Android จะได้โหมดการฟังแบบใหม่ (Listening Mode) ที่ส่งเสียงแปลผ่านลำโพงสนทนาของตัวเครื่องโดยตรง แค่ยกมือถือแนบหูเหมือนรับสายโทรศัพท์ปกติ เสียงแปลก็จะสตรีมเข้าหูทันที เหมาะกับสถานการณ์ที่อยากฟังคำแปลแบบเงียบ ๆ โดยไม่มีหูฟังติดตัว เช่น ฟังไกด์ทัวร์ภาษาสเปนแล้วได้ยินคำแปลภาษาอังกฤษแบบเกือบเรียลไทม์ผ่านหูของเราคนเดียว
สำหรับนักพัฒนา Google เปิดให้ใช้โมเดลนี้แบบสาธารณะ (Public Preview) ผ่าน Gemini Live ซึ่งเป็นช่องทางเชื่อมต่อระบบ Application Programming Interface (API) สำหรับงานเสียงแบบเรียลไทม์ โดย MarkTechPost ระบุว่าโมเดลนี้ใช้ชื่อ gemini-3.5-live-translate-preview รับเสียงเข้าเป็นไฟล์ดิบความละเอียด 16kHz และส่งเสียงแปลกลับที่ 24kHz เหมาะกับการสร้างแอปล่ามสดสำหรับการประชุม คลาสเรียน งานถ่ายทอดสด ไปจนถึงการพากย์เสียงหลายภาษาพร้อมกัน
แพลตฟอร์มสำหรับนักพัฒนาอย่าง Agora, Fishjam, LiveKit, Pipecat และ Vision Agents เชื่อมต่อกับ Gemini Live API เรียบร้อยแล้ว โดยแพลตฟอร์มเหล่านี้รับหน้าที่จัดการโครงสร้างพื้นฐานการสตรีมสื่อแบบเรียลไทม์ที่ซับซ้อนให้ เพื่อให้นักพัฒนาโฟกัสกับการออกแบบประสบการณ์ผู้ใช้ได้เต็มที่
พันธมิตรรายใหญ่ที่นำโมเดลไปทดสอบแล้วคือ Grab ซึ่งใช้ Gemini 3.5 Live Translate ช่วยให้คนขับกับนักท่องเที่ยวสื่อสารข้ามภาษากันได้แบบเกือบเรียลไทม์ตอนนัดรับผู้โดยสาร โดยผู้ใช้กลุ่มนี้โทรหากันผ่านแอป Grab มากกว่า 10 ล้านสายต่อเดือน คุณ Philipp Kandal ประธานเจ้าหน้าที่ฝ่ายผลิตภัณฑ์ของ Grab บอกว่าจุดที่ประทับใจคือความสามารถในการตรวจจับหลายภาษาอัตโนมัติและแปลเสียงได้แม่นยำด้วยความหน่วงต่ำ นอกจาก Grab แล้วยังมีบริษัทอย่าง CJ ENM ยักษ์ใหญ่สื่อบันเทิงเกาหลีใต้ และ LiveKit ที่ให้ความเห็นเชิงบวกถึงคุณภาพการแปล ความแม่นยำ และความหน่วงที่ต่ำของโมเดลนี้
ด้านคุณ Holger Mueller นักวิเคราะห์จาก Constellation Research ให้ความเห็นกับ SiliconANGLE ว่าการเปิดตัวครั้งนี้ตอกย้ำว่า Google ยังครองความเป็นผู้นำด้านคุณภาพการแปลและจำนวนภาษาที่รองรับ และคุณภาพอาจเทียบชั้นล่ามมนุษย์ได้ในต้นทุนที่ถูกกว่ามาก
เสียงทั้งหมดที่โมเดลสร้างขึ้นจะถูกฝังลายน้ำดิจิทัล (SynthID) ซึ่งเป็นลายน้ำที่หูมนุษย์ไม่ได้ยิน ถักทอเข้าไปในไฟล์เสียงโดยตรง เพื่อให้ตรวจสอบได้เสมอว่าเนื้อหานั้นสร้างโดยปัญญาประดิษฐ์ (Artificial Intelligence: AI) ช่วยป้องกันการนำไปใช้สร้างข้อมูลเท็จ
ตอนนี้ Gemini 3.5 Live Translate เริ่มทยอยเปิดให้ใช้แล้ว ทั้งฝั่งนักพัฒนาผ่าน Gemini Live API และ Google AI Studio ฝั่งผู้ใช้ทั่วไปผ่านแอป Google Translate บน Android และ iOS ส่วน Google Meet จะเริ่มจากลูกค้าธุรกิจกลุ่มจำกัดภายในเดือนนี้ก่อนขยายวงกว้างภายในปีนี้
ที่มา: Google, 9to5Google, SiliconANGLE, MarkTechPost
ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด