แปลเสียงพูดให้ไหลลื่นและเป็นธรรมชาติด้วย Gemini 3.5 Live Translate

Share on Line Share on Facebook Share on X
แปลเสียงพูดให้ไหลลื่นและเป็นธรรมชาติด้วย Gemini 3.5 Live Translate

เมื่อ 20 ปีที่แล้ว การแปลภาษาของ Google เริ่มต้นจากการเป็นหนึ่งในการทดลองแมชชีนเลิร์นนิงในยุคบุกเบิก เพื่อเปลี่ยนศาสตร์แห่งภาษาให้กลายเป็นความมหัศจรรย์ในการเชื่อมโยงมนุษย์เข้าด้วยกัน จากการทดลองในวันนั้น ได้พัฒนาบริการแปลภาษามาอย่างต่อเนื่อง โดยตอนนี้มีการแปลคำศัพท์ต่างๆ กว่าล้านล้านคำให้กับผู้ใช้นับพันล้านคนผ่านผลิตภัณฑ์ต่างๆ ในแต่ละเดือน

วันนี้กำลังก้าวไปอีกขั้นด้วยการเปิดตัว Gemini 3.5 Live Translate โมเดลเสียงล่าสุดสำหรับการแปลเสียงพูดเป็นคำพูดแบบสดๆ

 

สรุปข่าว

เมื่อ 20 ปีที่แล้ว การแปลภาษาของ Google เริ่มต้นจากการเป็นหนึ่งในการทดลองแมชชีนเลิร์นนิงในยุคบุกเบิก เพื่อเปลี่ยนศาสตร์แห่งภาษาให้กลายเป็นความมหัศจรรย์ในการเชื่อมโยงมนุษย์เข้าด้วยกัน จากการทดลองในวันนั้น ได้พัฒนาบริการแปลภาษามาอย่างต่อเนื่อง โดยตอนนี้มีการแปลคำศัพท์ต่างๆ กว่าล้านล้านคำให้กับผู้ใช้นับพันล้านคนผ่านผลิตภัณฑ์ต่างๆ ในแต่ละเดือน วันนี้กำลังก้าวไปอีกขั้นด้วยการเปิดตัว Gemini 3.5 Live Translate โมเดลเสียงล่าสุดสำหรับการแปลเสียงพูดเป็นคำพูดแบบสดๆ

เมื่อ 20 ปีที่แล้ว การแปลภาษาของ Google เริ่มต้นจากการเป็นหนึ่งในการทดลองแมชชีนเลิร์นนิงในยุคบุกเบิก เพื่อเปลี่ยนศาสตร์แห่งภาษาให้กลายเป็นความมหัศจรรย์ในการเชื่อมโยงมนุษย์เข้าด้วยกัน จากการทดลองในวันนั้น ได้พัฒนาบริการแปลภาษามาอย่างต่อเนื่อง โดยตอนนี้มีการแปลคำศัพท์ต่างๆ กว่าล้านล้านคำให้กับผู้ใช้นับพันล้านคนผ่านผลิตภัณฑ์ต่างๆ ในแต่ละเดือน

วันนี้กำลังก้าวไปอีกขั้นด้วยการเปิดตัว Gemini 3.5 Live Translate โมเดลเสียงล่าสุดสำหรับการแปลเสียงพูดเป็นคำพูดแบบสดๆ

 

โมเดลนี้สามารถตรวจจับภาษาได้โดยอัตโนมัติมากกว่า 70 ภาษา และสร้างเสียงแปลที่เป็นธรรมชาติ โดยยังคงรักษาโทนเสียง จังหวะการพูด และระดับเสียงสูงต่ำของผู้พูดเอาไว้ Gemini 3.5 Live Translate จะสร้างเสียงแปลอย่างต่อเนื่อง โดยรักษาสมดุลระหว่างการรอฟังบริบทเพื่อคุณภาพการแปลที่ดีที่สุด กับการแปลทันทีเพื่อให้ทันผู้พูด ซึ่งต่างจากระบบแปลแบบสลับกันพูดที่ต้องรอให้ผู้พูดพูดจบก่อนถึงจะแปลให้ การแปลด้วย Gemini 3.5 Live Translate จะให้เสียงที่ไหลลื่น ไม่มีจังหวะหยุดที่น่าอึดอัด และจะดีเลย์ตามหลังผู้พูดเพียงไม่กี่วินาทีตลอดการสนทนา

Gemini 3.5 Live Translate เริ่มทยอยเปิดใช้งานตั้งแต่วันนี้ในผลิตภัณฑ์ต่างๆ ของ Google

  • สำหรับนักพัฒนาซอฟต์แวร์: เปิดให้ใช้งานในเวอร์ชัน Public Preview ผ่าน Gemini Live API และ Google AI Studio

  • สำหรับองค์กรธุรกิจ: เปิดให้ใช้งานในเวอร์ชัน Private Preview เริ่มตั้งแต่เดือนนี้ใน Google Meet

  • สำหรับผู้ใช้ทั่วไป: เปิดให้ใช้งานผ่าน Google Translate ทั้งบน Android และ iOS



พัฒนาสิ่งใหม่ๆ ด้วย Gemini 3.5 Live Translate

Gemini 3.5 Live Translate จะประมวลผลเสียงพูดในขณะที่มีการสตรีมเพื่อช่วยให้การเชื่อมต่อระหว่างภาษาต่างๆ มีความราบรื่นยิ่งขึ้น โมเดลนี้สามารถจัดการกับอินพุตหลายภาษา (multilingual) ได้โดยไม่ต้องตั้งค่าด้วยตนเอง ในขณะที่ความสามารถในการตัดเสียงรบกวนช่วยให้มั่นใจได้ว่าแอปพลิเคชันจะทำงานได้ดีแม้ในสภาพแวดล้อมที่มีเสียงดังและคาดเดาไม่ได้ คุณสามารถใช้ความสามารถเหล่านี้ของ Gemini 3.5 Live Translate เพื่อช่วยอำนวยความสะดวกในการแปลสดสำหรับการโทร การประชุม การเรียนการสอน การถ่ายทอดสด และอื่นๆ ที่ใช้หลายภาษาได้ 

รับชมการทำงานของ Gemini Live API ที่ช่วยให้สามารถพากย์เสียงและแปลภาษาพร้อมกันได้หลายภาษาในเวลาเดียวกัน ร่วมเจาะลึกไปกับวิดีโอสาธิตหรือดูตัวอย่างโค้ดเพิ่มเติมได้ใน Gemini Cookbook


แพลตฟอร์มสำหรับนักพัฒนาซอฟต์แวร์อย่าง Agora, Fishjam, Livekit, Pipecat และ VisionAgents ช่วยให้นักพัฒนาซอฟต์แวร์สามารถสร้างและให้บริการแอปพลิเคชันสำหรับการแปลเสียงพูดได้อย่างง่ายดายผ่านทาง Gemini Live API โดยการผสานการทำงานเหล่านี้จะช่วยจัดการกับโครงสร้างพื้นฐานในการสตรีมสื่อแบบเรียลไทม์ที่มีความซับซ้อน เพื่อให้นักพัฒนาซอฟต์แวร์สามารถมุ่งเน้นไปที่ประสบการณ์ของผู้ใช้ได้อย่างเต็มที่

พาร์ทเนอร์ของเราอย่าง Grab กำลังทดสอบโมเดลนี้เพื่อช่วยให้คนขับและผู้โดยสารสามารถสื่อสารกันในภาษาต่างๆ ได้แบบเกือบเรียลไทม์ ซึ่งคนขับและผู้โดยสารมีการโทรติดต่อกันด้วยเสียงผ่าน Grab มากกว่า 10 ล้านครั้งในแต่ละเดือน

ฟีดแบ็กจากพาร์ทเนอร์

นอกจาก Grab แล้ว บริษัทต่างๆ เช่น CJ ENM, LiveKit และรายอื่นๆ ก็ได้แชร์ฟีดแบ็กเชิงบวกเกี่ยวกับ Gemini 3.5 Live Translate ด้วย โดยเน้นย้ำถึงคุณภาพการแปลที่น่าประทับใจ ความแม่นยำ และเวลาในการตอบสนองต่ำ (low latency)

Grab

CJ ENM

LiveKit

“ในระหว่างการทดสอบ Gemini 3.5 Live Translate เราประทับใจในความสามารถของโมเดลนี้ที่สามารถตรวจจับหลายภาษาได้โดยอัตโนมัติ และแปลเสียงพูดได้อย่างแม่นยำ โดยใช้เวลาในการตอบสนองที่ต่ำ”

– Philipp Kandal ประธานเจ้าหน้าที่ฝ่ายผลิตภัณฑ์ของ Grab

“CJ ENM รู้สึกตื่นเต้นที่ได้ร่วมมือกับ Google DeepMind ในโปรเจกต์ Gemini 3.5 Live Translate การทดสอบในช่วงแรกแสดงให้เห็นถึงคุณภาพที่น่าพึงพอใจ ซึ่งจะมอบประสบการณ์ที่สมจริงยิ่งขึ้นสำหรับผู้ชมทั่วโลกและผู้ชมชาวเกาหลี” 

– Bella Baek ประธานเจ้าหน้าที่ฝ่าย AI ของ CJ ENM

“Gemini 3.5 Live Translate ทำให้การสื่อสารด้วยเสียงหลายภาษาเป็นเรื่องง่าย ผมได้สร้างตัวเดโมบน LiveKit Agents ที่ทุกคนสามารถพูดภาษาของตัวเองและเข้าใจกันได้แบบเรียลไทม์” 

– Jesse Hall, Staff Developer Advocate ของ LiveKit


VisionAgents

Software Mansion

Agora

“เราได้ทำการทดสอบ Gemini 3.5 Live Translate ในหลากหลายภาษา และทีมงานของเราต่างทึ่งในเรื่องของความเร็ว ความแม่นยำ และความมีชีวิตชีวาของโมเดลนี้”


– Nash Ramdial ผู้อำนวยการของ VisionAgents

“Gemini 3.5 Live Translate เมื่อจับคู่กับโปรโตคอล MoQ ของ Fishjam ได้สร้างขีดจำกัดใหม่ให้กับการสตรีมมัลติมีเดียแบบเรียลไทม์ ทำให้สามารถแปลเสียงพูดเป็นคำพูดได้มากกว่า 70 ภาษา” 


– Maciej Rys รองประธานฝ่ายวิศวกรรม ของ Software Mansion

“เราได้ทดสอบโมเดล Gemini 3.5 Live Translate ที่ Agora และได้เห็นผลลัพธ์ที่แสดงถึงประสิทธิภาพในระดับแนวหน้า (SOTA) ด้วยเวลาในการตอบสนองที่ต่ำและความแม่นยำสูง ซึ่งสร้างมาตรฐานใหม่ให้กับการแปลภาษาแบบเรียลไทม์” 


– Mason Adams, Developer Evangelist ของ Agora


สัมผัสประสบการณ์การใช้งาน Gemini 3.5 Live Translate ได้ในการประชุมทางวิดีโอของคุณ

ฟีเจอร์การแปลเสียงพูด (Speech Translation) ใน Google Meet กำลังจะเปลี่ยนมาใช้ Gemini 3.5 Live Translate ในเร็วๆ นี้ ซึ่งจะช่วยยกระดับประสบการณ์การใช้งานโดย: 

  • รองรับมากกว่า 70 ภาษา จากเดิมที่รองรับได้เพียง 5 ภาษา

  • ช่วยให้สามารถสนทนาข้ามคู่ภาษาได้มากกว่า 2,000 คู่ภาษาภายในการประชุมเดียว ซึ่งขยายขีดความสามารถจากเดิมที่แปลได้เฉพาะในกรณีที่ภาษาอังกฤษเป็นภาษาต้นทางหรือปลายทางเท่านั้น

  • มีการอัปเดตอินเทอร์เฟซใหม่เพื่อให้เข้าถึงฟีเจอร์แปลเสียงพูดได้ทันที

เราจะเปิดตัวการอัปเดตนี้ในเวอร์ชัน Private Preview สำหรับลูกค้า Google Workspace Business บางกลุ่ม โดยจะเริ่มให้บริการตั้งแต่เดือนนี้ และจะขยายการใช้งานในวงกว้างขึ้นในช่วงปลายปีนี้

ใช้งาน Gemini 3.5 Live Translate ได้ในแอป Google Translate ทั้งบน Android และ iOS

โมเดลนี้จะเริ่มทยอยเปิดให้ใช้งานในแอป Google Translate ทั่วโลก ทั้งบนระบบปฏิบัติการ Android และ iOS เมื่อใช้ฟีเจอร์แปลสด (Live Translate) เพียงแค่เชื่อมต่อหูฟังคู่ใดก็ได้ คุณก็จะได้สัมผัสกับประสบการณ์การแปลที่ราบรื่นยิ่งขึ้นและเป็นโทนเสียงของผู้พูดได้ในกว่า 70 ภาษา

นอกจากนี้ เรายังจะทยอยเปิดให้บริการ “โหมดการฟัง” (Listening Mode) แบบใหม่ที่มาพร้อม Gemini 3.5 Live Translate สำหรับผู้ใช้ Android ด้วย โดยโหมดนี้จะช่วยให้คุณได้ยินเสียงแปลโดยตรงผ่านหูฟังในโทรศัพท์ เพียงแค่ยกโทรศัพท์ขึ้นมาแนบหูเหมือนการคุยสายปกติ เสียงแปลก็จะสตรีมส่งตรงถึงคุณทันที ประสบการณ์ใหม่นี้จะมีประโยชน์มากในสถานการณ์ที่คุณต้องการฟังคำแปลอย่างรวดเร็วโดยไม่ให้คนอื่นได้ยิน และไม่มีหูฟังอยู่ใกล้ตัว


ใส่ลายน้ำด้วย SynthID

เสียงทั้งหมดที่สร้างขึ้นโดยโมเดลของเราจะถูกใส่ลายน้ำดิจิทัลด้วย SynthID โดยลายน้ำที่ไม่สามารถมองเห็นได้ด้วยตาเปล่านี้จะถูกผสานรวมเข้ากับเอาต์พุตเสียงโดยตรง เพื่อให้มั่นใจว่าเนื้อหาที่สร้างโดย AI จะยังคงสามารถตรวจจับได้ ซึ่งจะช่วยป้องกันการให้ข้อมูลที่ไม่ถูกต้อง (Misinofrmation) สามารถตรวจสอบรายละเอียดเกี่ยวกับแนวทางด้านความปลอดภัยและความรับผิดชอบของเราได้ที่ Model Card ของเรา

ที่มาข้อมูล : Google

ที่มารูปภาพ : Google

แท็กบทความ

Google
Gemini 3.5 Live Translate
Gemini
แปลภาษา
tnn tech