วิธีการแยกเสียงคนจริงกับเสียง AI ในโทรศัพท์ ตรวจสอบได้ด้วยโปรแกรมอะไรบ้าง ?

19 มิ.ย. 2025

18:55 น

วิธีการแยกเสียงคนจริงกับเสียง AI ในโทรศัพท์ ตรวจสอบได้ด้วยโปรแกรมอะไรบ้าง ?

ในยุคที่เทคโนโลยีปัญญาประดิษฐ์ AI พัฒนาไปไกลจนสามารถสร้างเสียงปลอมที่ฟังดูเหมือนจริงได้แทบแยกไม่ออก เช่น การใช้เสียงเลียนแบบผู้นำประเทศ หรือเสียงของบุคคลสำคัญในคลิปหลุด ปัญหาการตรวจสอบความจริงของเสียงเหล่านี้จึงกลายเป็นประเด็นเร่งด่วนโดยเฉพาะในด้านข่าวสาร ความมั่นคง และการสื่อสารในองค์กร

การแยกเสียงคนจริงออกจากเสียงที่สร้างโดย AI ไม่ใช่เพียงการฟังด้วยหูเปล่า แต่ต้องอาศัยเครื่องมือวิเคราะห์ที่ใช้เทคนิคเฉพาะทาง เช่น การวิเคราะห์คลื่นเสียง (Spectral analysis), การติดตามเสียงสระ (Formant tracking), และการจับความเพี้ยนทางเฟส (Phase distortion) ซึ่งพบได้ในเสียงที่สร้างจาก AI โดยเฉพาะในกรณีที่เสียงเหล่านั้นมาจากการบันทึกในโทรศัพท์หรือการสนทนาแบบ VoIP

Resemble Detect

ฟีเจอร์ตรวจสอบเสียงจากแพลตฟอร์ม Resemble AI ที่ออกแบบมาเพื่อตรวจสอบว่าเสียงที่ได้ยินนั้นเป็นเสียงจริงหรือเสียงที่สร้างขึ้นด้วย AI โดยใช้การวิเคราะห์รูปแบบเสียงและโครงสร้างความถี่ (Frequency patterns) ที่เสียงสังเคราะห์มักหลีกเลี่ยงไม่ได้ Resemble Detect สามารถใช้ผ่าน API หรืออัปโหลดไฟล์เสียงได้โดยตรง เหมาะกับนักข่าว หน่วยงานรัฐ หรือผู้ดูแลระบบความปลอดภัยเสียง

Deepware Scanner (Audio)

เครื่องมือตรวจสอบเสียงแบบโอเพนซอร์สที่ออกแบบมาให้สามารถตรวจสอบคลิปเสียงได้อย่างอิสระ โดยอาศัยการวิเคราะห์ Metadata, โฟร์แมนต์ และลักษณะ Spectral changes ซึ่งเป็นสัญญาณที่สามารถบ่งชี้ว่าเสียงอาจไม่ใช่มนุษย์สร้าง Deepware Scanner ถูกพัฒนาขึ้นโดยกลุ่มวิจัยด้านความปลอดภัยไซเบอร์ และสามารถใช้กับไฟล์เสียงที่ได้จากโทรศัพท์หรือบันทึกเสียงได้เช่นกัน

สรุปข่าว

การแยกเสียงคนจริงออกจากเสียงที่สร้างด้วย AI เป็นเรื่องสำคัญในยุคที่เทคโนโลยี Voice Cloning ก้าวหน้าอย่างรวดเร็ว โปรแกรมที่ช่วยตรวจจับเสียง AI ได้แก่ Resemble Detect, Deepware Scanner, AI Speech Deepfake Detector และ FakeFinder by Pindrop โดยใช้เทคนิควิเคราะห์คลื่นเสียง ความถี่ และโครงสร้างสัญญาณเพื่อแยกแยะเสียงปลอมจากเสียงจริงอย่างแม่นยำ

AI Speech Deepfake Detector (Microsoft + DARPA)

ระบบ Backend API ที่พัฒนาร่วมกันระหว่าง Microsoft และหน่วยงานวิจัยกลาโหมของสหรัฐ (DARPA) โดยเน้นการใช้งานในระดับนโยบายและข่าวกรอง ตัวระบบนี้ใช้ Convolutional neural network หรือโครงข่ายประสาทเทียมที่ออกแบบมาให้เลียนแบบการทำงานของสมองมนุษย์

โดยเฉพาะการประมวลผลข้อมูลที่มีโครงสร้างเป็นภาพหรือสัญญาณ เช่น รูปภาพหรือคลื่นเสียง เพื่อวิเคราะห์โครงสร้างเสียงพูด พร้อมตรวจจับสัญญาณของการปลอมเสียง เหมาะกับการใช้วิเคราะห์เสียงที่เกี่ยวข้องกับคดี การเมือง หรือเหตุการณ์ความมั่นคง

FakeFinder by Pindrop

ระบบตรวจจับเสียงปลอมในสายโทรศัพท์แบบตามเวลาจริง Real-time โดยใช้ในระบบ Call center หรือระบบธนาคารเพื่อป้องกัน Voice phishing จุดเด่นคือการตรวจจับลักษณะเสียงที่ผิดปกติ เช่น ความราบเรียบของเสียง ความไม่เป็นธรรมชาติของพลังเสียง และการขาดไมโครโมดูลเลชัน (Micro-modulation) ที่พบในเสียงมนุษย์จริง ระบบนี้ยังสามารถแยกเสียงคนจริงออกจากเสียง bot หรือเสียงที่ถูก Clone ด้วย AI

ปัจจุบันเทคโนโลยีในการตรวจสอบเสียง AI กำลังก้าวหน้าอย่างรวดเร็ว เพื่อรับมือกับการใช้งานเชิงรุกและเชิงลึกของ AI Voice Cloning ในด้านการหลอกลวง การปลอมตัว และการแทรกแซงข่าวสาร ความสามารถในการวิเคราะห์เสียงจากโทรศัพท์และสนทนา VoIP ด้วยเครื่องมือระดับมืออาชีพจึงกลายเป็นสิ่งจำเป็น ทั้งในภาครัฐ ธุรกิจ และสื่อสารมวลชน

ที่มาข้อมูล : https://www.resemble.ai/detect https://github.com/deepware-ai/audio-scanner https://www.microsoft.com/en-us/ai/responsible-ai https://www.pindrop.com/fakefinder

ที่มารูปภาพ : Reuters, Pixabay