Google เปิดตัว Gemini 3.5 Live Translate แปลเสียงพูดสดกว่า 70 ภาษา

มิถุนายน 10, 2026 | By Techsauce Team

Google แปลคำให้ผู้ใช้ทั่วโลกมากกว่า 1 ล้านล้านคำต่อเดือน นับจากวันแรกที่ Google Translate ถือกำเนิดขึ้นเมื่อ 20 ปีก่อน การแปลข้อความกลายเป็นเรื่องธรรมดาที่ใครก็เข้าถึงได้ แต่โจทย์ที่ยากกว่านั้นคือการแปล 'เสียงพูดสด' ให้ลื่นไหลทันบทสนทนาเหมือนมีล่ามมืออาชีพนั่งอยู่ข้างตัว ซึ่งที่ผ่านมาระบบแปลเสียงส่วนใหญ่ยังต้องรอให้ผู้พูดพูดจบก่อนถึงจะแปลออกมาได้ ทำให้บทสนทนาสะดุดเป็นช่วง ๆ

ล่าสุด Google เปิดตัว Gemini 3.5 Live Translate โมเดลเสียงรุ่นใหม่สำหรับการแปลเสียงพูดเป็นเสียงพูด (Speech-to-Speech) แบบเกือบเรียลไทม์ จุดขายคือแปลได้ต่อเนื่องโดยไม่ต้องรอผู้พูดพูดจบ รองรับการตรวจจับภาษาอัตโนมัติมากกว่า 70 ภาษา และยังเก็บน้ำเสียง จังหวะ และระดับเสียงของผู้พูดต้นฉบับไว้ได้ โดยเริ่มทยอยเปิดให้ใช้งานแล้วทั้งใน Google AI Studio, แอป Google Translate และ Google Meet

แปลต่อเนื่องแบบล่ามมืออาชีพ ไม่ต้องรอพูดจบ

หัวใจของ Gemini 3.5 Live Translate คือการประมวลผลเสียงแบบสตรีมต่อเนื่อง (Continuous Stream) ต่างจากระบบแปลแบบผลัดกันพูดทีละรอบที่ต้องรอให้อีกฝ่ายพูดจบก่อน โมเดลนี้จะฟัง แปล และพูดออกมาไปพร้อม ๆ กัน โดยคอยถ่วงสมดุลระหว่างการรอฟังบริบทเพื่อให้คำแปลแม่นยำ กับการแปลออกมาทันทีเพื่อให้ทันจังหวะของผู้พูด ผลที่ได้คือเสียงแปลที่ลื่นไหล ไม่มีช่วงเงียบน่าอึดอัด และตามหลังผู้พูดเพียงไม่กี่วินาทีตลอดการสนทนา ใกล้เคียงกับการคุยโทรศัพท์ทางไกลที่มีดีเลย์นิดหน่อยเท่านั้น

อีกจุดที่น่าสนใจคือเสียงแปลที่ออกมาไม่ใช่เสียงหุ่นยนต์แข็ง ๆ แต่เลียนแบบน้ำเสียง จังหวะการพูด และอารมณ์ของผู้พูดต้นฉบับ แถมโมเดลยังทนทานต่อเสียงรบกวน รองรับสภาพแวดล้อมที่เสียงดังและคาดเดาไม่ได้ เช่น ริมถนนหรือในร้านอาหาร และจัดการกับบทสนทนาหลายภาษาได้เองโดยผู้ใช้ไม่ต้องตั้งค่าภาษาล่วงหน้า

Google Meet อัปเกรดจาก 5 ภาษา สู่ 2,000+ คู่ภาษาในห้องประชุมเดียว

ฟีเจอร์แปลเสียงพูดใน Google Meet จะเปลี่ยนมาใช้ Gemini 3.5 Live Translate ซึ่งถือเป็นการยกเครื่องครั้งใหญ่ จากเดิมที่รองรับเพียง 5 ภาษาและแปลได้เฉพาะคู่ภาษาที่มีภาษาอังกฤษเป็นตัวกลาง ตอนนี้ขยายเป็นมากกว่า 70 ภาษา เปิดทางให้คนในห้องประชุมเดียวกันคุยข้ามภาษากันได้มากกว่า 2,000 คู่ภาษา เช่น ผู้เข้าประชุมพูดอังกฤษ จีนกลาง และสวีเดนพร้อมกันได้โดยไม่ต้องผ่านภาษาอังกฤษอีกต่อไป พร้อมปรับหน้าจอใหม่ให้กดเปิดใช้การแปลเสียงได้ทันที

ฟีเจอร์นี้จะเริ่มเปิดให้ทดลองใช้แบบจำกัดกลุ่ม (Private Preview) สำหรับลูกค้าธุรกิจ Google Workspace บางรายภายในเดือนนี้ ก่อนขยายวงกว้างขึ้นภายในปีนี้

ถือมือถือแนบหูก็ฟังคำแปลได้เลย กับโหมดใหม่ในแอป Google Translate

ฝั่งผู้ใช้ทั่วไป โมเดลนี้กำลังทยอยเปิดให้ใช้ในแอป Google Translate ทั่วโลกทั้งบน Android และ iOS เพียงเชื่อมต่อหูฟังแล้วใช้ฟีเจอร์ Live Translate ก็จะได้คำแปลที่ลื่นไหลและสะท้อนโทนเสียงของผู้พูดในกว่า 70 ภาษา

ที่เด็ดกว่านั้นคือผู้ใช้ Android จะได้โหมดการฟังแบบใหม่ (Listening Mode) ที่ส่งเสียงแปลผ่านลำโพงสนทนาของตัวเครื่องโดยตรง แค่ยกมือถือแนบหูเหมือนรับสายโทรศัพท์ปกติ เสียงแปลก็จะสตรีมเข้าหูทันที เหมาะกับสถานการณ์ที่อยากฟังคำแปลแบบเงียบ ๆ โดยไม่มีหูฟังติดตัว เช่น ฟังไกด์ทัวร์ภาษาสเปนแล้วได้ยินคำแปลภาษาอังกฤษแบบเกือบเรียลไทม์ผ่านหูของเราคนเดียว

เปิดให้นักพัฒนาต่อยอดผ่าน Gemini Live API

สำหรับนักพัฒนา Google เปิดให้ใช้โมเดลนี้แบบสาธารณะ (Public Preview) ผ่าน Gemini Live ซึ่งเป็นช่องทางเชื่อมต่อระบบ Application Programming Interface (API) สำหรับงานเสียงแบบเรียลไทม์ โดย MarkTechPost ระบุว่าโมเดลนี้ใช้ชื่อ gemini-3.5-live-translate-preview รับเสียงเข้าเป็นไฟล์ดิบความละเอียด 16kHz และส่งเสียงแปลกลับที่ 24kHz เหมาะกับการสร้างแอปล่ามสดสำหรับการประชุม คลาสเรียน งานถ่ายทอดสด ไปจนถึงการพากย์เสียงหลายภาษาพร้อมกัน

แพลตฟอร์มสำหรับนักพัฒนาอย่าง Agora, Fishjam, LiveKit, Pipecat และ Vision Agents เชื่อมต่อกับ Gemini Live API เรียบร้อยแล้ว โดยแพลตฟอร์มเหล่านี้รับหน้าที่จัดการโครงสร้างพื้นฐานการสตรีมสื่อแบบเรียลไทม์ที่ซับซ้อนให้ เพื่อให้นักพัฒนาโฟกัสกับการออกแบบประสบการณ์ผู้ใช้ได้เต็มที่

Grab นำร่องทดสอบ ให้คนขับคุยกับนักท่องเที่ยวข้ามภาษา

พันธมิตรรายใหญ่ที่นำโมเดลไปทดสอบแล้วคือ Grab ซึ่งใช้ Gemini 3.5 Live Translate ช่วยให้คนขับกับนักท่องเที่ยวสื่อสารข้ามภาษากันได้แบบเกือบเรียลไทม์ตอนนัดรับผู้โดยสาร โดยผู้ใช้กลุ่มนี้โทรหากันผ่านแอป Grab มากกว่า 10 ล้านสายต่อเดือน คุณ Philipp Kandal ประธานเจ้าหน้าที่ฝ่ายผลิตภัณฑ์ของ Grab บอกว่าจุดที่ประทับใจคือความสามารถในการตรวจจับหลายภาษาอัตโนมัติและแปลเสียงได้แม่นยำด้วยความหน่วงต่ำ นอกจาก Grab แล้วยังมีบริษัทอย่าง CJ ENM ยักษ์ใหญ่สื่อบันเทิงเกาหลีใต้ และ LiveKit ที่ให้ความเห็นเชิงบวกถึงคุณภาพการแปล ความแม่นยำ และความหน่วงที่ต่ำของโมเดลนี้

ด้านคุณ Holger Mueller นักวิเคราะห์จาก Constellation Research ให้ความเห็นกับ SiliconANGLE ว่าการเปิดตัวครั้งนี้ตอกย้ำว่า Google ยังครองความเป็นผู้นำด้านคุณภาพการแปลและจำนวนภาษาที่รองรับ และคุณภาพอาจเทียบชั้นล่ามมนุษย์ได้ในต้นทุนที่ถูกกว่ามาก

ทุกเสียงที่สร้างมีลายน้ำ SynthID ป้องกันการปลอมแปลง

เสียงทั้งหมดที่โมเดลสร้างขึ้นจะถูกฝังลายน้ำดิจิทัล (SynthID) ซึ่งเป็นลายน้ำที่หูมนุษย์ไม่ได้ยิน ถักทอเข้าไปในไฟล์เสียงโดยตรง เพื่อให้ตรวจสอบได้เสมอว่าเนื้อหานั้นสร้างโดยปัญญาประดิษฐ์ (Artificial Intelligence: AI) ช่วยป้องกันการนำไปใช้สร้างข้อมูลเท็จ

ตอนนี้ Gemini 3.5 Live Translate เริ่มทยอยเปิดให้ใช้แล้ว ทั้งฝั่งนักพัฒนาผ่าน Gemini Live API และ Google AI Studio ฝั่งผู้ใช้ทั่วไปผ่านแอป Google Translate บน Android และ iOS ส่วน Google Meet จะเริ่มจากลูกค้าธุรกิจกลุ่มจำกัดภายในเดือนนี้ก่อนขยายวงกว้างภายในปีนี้

ที่มา: Google, 9to5Google, SiliconANGLE, MarkTechPost

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

เข้าสู่ระบบ
ลงทะเบียน

ลืมรหัสผ่าน?

มีบัญชีแล้วหรือยัง ?

มีบัญชีอยู่แล้ว ?

Gemini 3.5 Live Translate

No comment

3 มุมจากผู้ลงมือทำ AI Transformation เมื่อ AI ไม่ใช่ซอฟต์แวร์สำเร็จรูป ที่ซื้อมาแล้วองค์กรจะเปลี่ยนได้เอง

เจาะลึกโลกความเป็นจริงของ AI Transformation ผ่าน 3 ผู้บริหาร IT ชั้นนำ MFEC, Predictive และ Muze ชี้ทางรอดองค์กรยุค AI...

กรกฎาคม 26, 2026 | By Techsauce Team

ai-transformation

‘OpenWorker’ AI Agent โอเพนซอร์ส เลือกโมเดลได้อิสระ ข้อมูลไม่ออกนอกเครื่อง

Andrew Ng เปิดตัว OpenWorker AI Agent โอเพนซอร์สที่ส่งงานเสร็จ ๆ กลับมาให้แทนบทสนทนา ทั้งเอกสาร ข้อความ Slack และปฏิทิน รันบนเครื่องผู้ใช้เอง เลือกโมเดลได้อิสระ ข้อมูลไม่ออกนอกเครื...

กรกฎาคม 24, 2026 | By Techsauce Team

วิธีใช้ AI ที่ดีที่สุดตอนนี้คือ ‘สั่งงานให้ชัดเหมือนบริหารคน’ อยากได้งานดี ต้องบอก 4 อย่าง เป้าหมาย ผลลัพธ์ เกณฑ์ดี-ไม่ดี วิธีตรวจสอบ

Ethan Mollick แห่ง Wharton ชี้ว่าลูกเล่นการเขียน Prompt หมดความสำคัญแล้ว พร้อมแนบงานวิจัย 4 ฉบับ วิธีใช้ AI ที่ได้ผลที่สุดตอนนี้คือระบุเป้าหมาย ผลลัพธ์ เกณฑ์งานดี-ไม่ดี และวิธีทดสอ...

กรกฎาคม 24, 2026 | By Techsauce Team

LLM

Wharton

Prompting