Google เปิดตัว Gemini 3.5 Live Translate แปลเสียงพูดสดกว่า 70 ภาษา

Google แปลคำให้ผู้ใช้ทั่วโลกมากกว่า 1 ล้านล้านคำต่อเดือน นับจากวันแรกที่ Google Translate ถือกำเนิดขึ้นเมื่อ 20 ปีก่อน การแปลข้อความกลายเป็นเรื่องธรรมดาที่ใครก็เข้าถึงได้ แต่โจทย์ที่ยากกว่านั้นคือการแปล 'เสียงพูดสด' ให้ลื่นไหลทันบทสนทนาเหมือนมีล่ามมืออาชีพนั่งอยู่ข้างตัว ซึ่งที่ผ่านมาระบบแปลเสียงส่วนใหญ่ยังต้องรอให้ผู้พูดพูดจบก่อนถึงจะแปลออกมาได้ ทำให้บทสนทนาสะดุดเป็นช่วง ๆ

ล่าสุด Google เปิดตัว Gemini 3.5 Live Translate โมเดลเสียงรุ่นใหม่สำหรับการแปลเสียงพูดเป็นเสียงพูด (Speech-to-Speech) แบบเกือบเรียลไทม์ จุดขายคือแปลได้ต่อเนื่องโดยไม่ต้องรอผู้พูดพูดจบ รองรับการตรวจจับภาษาอัตโนมัติมากกว่า 70 ภาษา และยังเก็บน้ำเสียง จังหวะ และระดับเสียงของผู้พูดต้นฉบับไว้ได้ โดยเริ่มทยอยเปิดให้ใช้งานแล้วทั้งใน Google AI Studio, แอป Google Translate และ Google Meet

แปลต่อเนื่องแบบล่ามมืออาชีพ ไม่ต้องรอพูดจบ

หัวใจของ Gemini 3.5 Live Translate คือการประมวลผลเสียงแบบสตรีมต่อเนื่อง (Continuous Stream) ต่างจากระบบแปลแบบผลัดกันพูดทีละรอบที่ต้องรอให้อีกฝ่ายพูดจบก่อน โมเดลนี้จะฟัง แปล และพูดออกมาไปพร้อม ๆ กัน โดยคอยถ่วงสมดุลระหว่างการรอฟังบริบทเพื่อให้คำแปลแม่นยำ กับการแปลออกมาทันทีเพื่อให้ทันจังหวะของผู้พูด ผลที่ได้คือเสียงแปลที่ลื่นไหล ไม่มีช่วงเงียบน่าอึดอัด และตามหลังผู้พูดเพียงไม่กี่วินาทีตลอดการสนทนา ใกล้เคียงกับการคุยโทรศัพท์ทางไกลที่มีดีเลย์นิดหน่อยเท่านั้น

อีกจุดที่น่าสนใจคือเสียงแปลที่ออกมาไม่ใช่เสียงหุ่นยนต์แข็ง ๆ แต่เลียนแบบน้ำเสียง จังหวะการพูด และอารมณ์ของผู้พูดต้นฉบับ แถมโมเดลยังทนทานต่อเสียงรบกวน รองรับสภาพแวดล้อมที่เสียงดังและคาดเดาไม่ได้ เช่น ริมถนนหรือในร้านอาหาร และจัดการกับบทสนทนาหลายภาษาได้เองโดยผู้ใช้ไม่ต้องตั้งค่าภาษาล่วงหน้า

Google Meet อัปเกรดจาก 5 ภาษา สู่ 2,000+ คู่ภาษาในห้องประชุมเดียว

ฟีเจอร์แปลเสียงพูดใน Google Meet จะเปลี่ยนมาใช้ Gemini 3.5 Live Translate ซึ่งถือเป็นการยกเครื่องครั้งใหญ่ จากเดิมที่รองรับเพียง 5 ภาษาและแปลได้เฉพาะคู่ภาษาที่มีภาษาอังกฤษเป็นตัวกลาง ตอนนี้ขยายเป็นมากกว่า 70 ภาษา เปิดทางให้คนในห้องประชุมเดียวกันคุยข้ามภาษากันได้มากกว่า 2,000 คู่ภาษา เช่น ผู้เข้าประชุมพูดอังกฤษ จีนกลาง และสวีเดนพร้อมกันได้โดยไม่ต้องผ่านภาษาอังกฤษอีกต่อไป พร้อมปรับหน้าจอใหม่ให้กดเปิดใช้การแปลเสียงได้ทันที

ฟีเจอร์นี้จะเริ่มเปิดให้ทดลองใช้แบบจำกัดกลุ่ม (Private Preview) สำหรับลูกค้าธุรกิจ Google Workspace บางรายภายในเดือนนี้ ก่อนขยายวงกว้างขึ้นภายในปีนี้

ถือมือถือแนบหูก็ฟังคำแปลได้เลย กับโหมดใหม่ในแอป Google Translate

ฝั่งผู้ใช้ทั่วไป โมเดลนี้กำลังทยอยเปิดให้ใช้ในแอป Google Translate ทั่วโลกทั้งบน Android และ iOS เพียงเชื่อมต่อหูฟังแล้วใช้ฟีเจอร์ Live Translate ก็จะได้คำแปลที่ลื่นไหลและสะท้อนโทนเสียงของผู้พูดในกว่า 70 ภาษา

ที่เด็ดกว่านั้นคือผู้ใช้ Android จะได้โหมดการฟังแบบใหม่ (Listening Mode) ที่ส่งเสียงแปลผ่านลำโพงสนทนาของตัวเครื่องโดยตรง แค่ยกมือถือแนบหูเหมือนรับสายโทรศัพท์ปกติ เสียงแปลก็จะสตรีมเข้าหูทันที เหมาะกับสถานการณ์ที่อยากฟังคำแปลแบบเงียบ ๆ โดยไม่มีหูฟังติดตัว เช่น ฟังไกด์ทัวร์ภาษาสเปนแล้วได้ยินคำแปลภาษาอังกฤษแบบเกือบเรียลไทม์ผ่านหูของเราคนเดียว

เปิดให้นักพัฒนาต่อยอดผ่าน Gemini Live API

สำหรับนักพัฒนา Google เปิดให้ใช้โมเดลนี้แบบสาธารณะ (Public Preview) ผ่าน Gemini Live ซึ่งเป็นช่องทางเชื่อมต่อระบบ Application Programming Interface (API) สำหรับงานเสียงแบบเรียลไทม์ โดย MarkTechPost ระบุว่าโมเดลนี้ใช้ชื่อ gemini-3.5-live-translate-preview รับเสียงเข้าเป็นไฟล์ดิบความละเอียด 16kHz และส่งเสียงแปลกลับที่ 24kHz เหมาะกับการสร้างแอปล่ามสดสำหรับการประชุม คลาสเรียน งานถ่ายทอดสด ไปจนถึงการพากย์เสียงหลายภาษาพร้อมกัน

แพลตฟอร์มสำหรับนักพัฒนาอย่าง Agora, Fishjam, LiveKit, Pipecat และ Vision Agents เชื่อมต่อกับ Gemini Live API เรียบร้อยแล้ว โดยแพลตฟอร์มเหล่านี้รับหน้าที่จัดการโครงสร้างพื้นฐานการสตรีมสื่อแบบเรียลไทม์ที่ซับซ้อนให้ เพื่อให้นักพัฒนาโฟกัสกับการออกแบบประสบการณ์ผู้ใช้ได้เต็มที่

Grab นำร่องทดสอบ ให้คนขับคุยกับนักท่องเที่ยวข้ามภาษา

พันธมิตรรายใหญ่ที่นำโมเดลไปทดสอบแล้วคือ Grab ซึ่งใช้ Gemini 3.5 Live Translate ช่วยให้คนขับกับนักท่องเที่ยวสื่อสารข้ามภาษากันได้แบบเกือบเรียลไทม์ตอนนัดรับผู้โดยสาร โดยผู้ใช้กลุ่มนี้โทรหากันผ่านแอป Grab มากกว่า 10 ล้านสายต่อเดือน คุณ Philipp Kandal ประธานเจ้าหน้าที่ฝ่ายผลิตภัณฑ์ของ Grab บอกว่าจุดที่ประทับใจคือความสามารถในการตรวจจับหลายภาษาอัตโนมัติและแปลเสียงได้แม่นยำด้วยความหน่วงต่ำ นอกจาก Grab แล้วยังมีบริษัทอย่าง CJ ENM ยักษ์ใหญ่สื่อบันเทิงเกาหลีใต้ และ LiveKit ที่ให้ความเห็นเชิงบวกถึงคุณภาพการแปล ความแม่นยำ และความหน่วงที่ต่ำของโมเดลนี้

ด้านคุณ Holger Mueller นักวิเคราะห์จาก Constellation Research ให้ความเห็นกับ SiliconANGLE ว่าการเปิดตัวครั้งนี้ตอกย้ำว่า Google ยังครองความเป็นผู้นำด้านคุณภาพการแปลและจำนวนภาษาที่รองรับ และคุณภาพอาจเทียบชั้นล่ามมนุษย์ได้ในต้นทุนที่ถูกกว่ามาก

ทุกเสียงที่สร้างมีลายน้ำ SynthID ป้องกันการปลอมแปลง

เสียงทั้งหมดที่โมเดลสร้างขึ้นจะถูกฝังลายน้ำดิจิทัล (SynthID) ซึ่งเป็นลายน้ำที่หูมนุษย์ไม่ได้ยิน ถักทอเข้าไปในไฟล์เสียงโดยตรง เพื่อให้ตรวจสอบได้เสมอว่าเนื้อหานั้นสร้างโดยปัญญาประดิษฐ์ (Artificial Intelligence: AI) ช่วยป้องกันการนำไปใช้สร้างข้อมูลเท็จ

ตอนนี้ Gemini 3.5 Live Translate เริ่มทยอยเปิดให้ใช้แล้ว ทั้งฝั่งนักพัฒนาผ่าน Gemini Live API และ Google AI Studio ฝั่งผู้ใช้ทั่วไปผ่านแอป Google Translate บน Android และ iOS ส่วน Google Meet จะเริ่มจากลูกค้าธุรกิจกลุ่มจำกัดภายในเดือนนี้ก่อนขยายวงกว้างภายในปีนี้

ที่มา: Google, 9to5Google, SiliconANGLE, MarkTechPost

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

Anthropic เปิดตัว Fable 5 โมเดลที่ ‘โหดที่สุดในโลก’ ตอนนี้

Anthropic เปิดตัว Claude Fable 5 โมเดล AI ระดับท็อปจากตระกูล Mythos ให้คนทั่วไปใช้งานได้แล้ว โดดเด่นด้านเขียนโค้ดและวิเคราะห์ข้อมูล พร้อมยกระดับความปลอดภัยขั้นสุด...

Responsive image

RSI คืออะไร และทำไมจึงน่าสนใจกว่า AGI

Claude เขียนโค้ดตัวเองได้ 80% AI ชนะ Kaggle 28 เหรียญโดยไม่มีมนุษย์สั่ง RSI หรือ Recursive Self-Improvement คือสิ่งที่เกิดขึ้นจริงก่อน AGI จะมาถึง...

Responsive image

AI จะแก้เศรษฐกิจไทยได้จริงไหม คำตอบไม่ใช่แค่เทคโนโลยี แต่คือโจทย์ Growth, Productivity และ Inequality สรุปเซสชันจากงาน Microsoft AI Tour Bangkok 2026

ในเซสชัน 'AI พลิกเศรษฐกิจไทย' ที่งาน Microsoft AI Tour Bangkok 2026 บทสนทนาทั้งหมดหมุนรอบคำถามพื้นฐานกว่านั้นมาก ประเทศไทยกำลังจะใช้ AI เพื่อแก้ปัญหาเศรษฐกิจจริงได้อย่างไร และถ้าจะ...