OpenAI อัปเกรด AI ถอดเสียง - แม่นยำขึ้น ควบคุมโทนเสียงได้ดีกว่าเดิม!

OpenAI เดินหน้าพัฒนา AI ด้านเสียง เปิดตัวโมเดลใหม่ gpt-4o-mini-tts, gpt-4o-transcribe และ gpt-4o-mini-transcribe ที่ช่วยให้เสียงพูดเป็นธรรมชาติขึ้น และการถอดเสียงมีความแม่นยำมากขึ้น แม้ในสภาพแวดล้อมที่มีเสียงรบกวน

AI เสียงพูดที่สมจริงและควบคุมโทนเสียงได้มากขึ้น

หนึ่งในไฮไลท์สำคัญของ OpenAI ครั้งนี้คือ "gpt-4o-mini-tts" ซึ่งเป็นโมเดล Text-to-Speech (TTS) ที่ช่วยให้ AI สามารถสร้างเสียงพูดที่เป็นธรรมชาติและสมจริงกว่าเดิม

แต่ที่พิเศษยิ่งกว่านั้นคือ ความสามารถในการควบคุมโทนเสียง นักพัฒนาสามารถกำหนดให้ AI พูดในสไตล์ที่ต้องการ เช่น

“พูดเหมือนนักวิทยาศาสตร์สุดเพี้ยน”
“ใช้เสียงสงบเสมือนครูสอนสมาธิ”
“น้ำเสียงนุ่มนวลเป็นมืออาชีพ”

นี่หมายความว่าธุรกิจสามารถนำไปใช้สร้าง แชทบอทเสียงพูดที่ตอบโต้กับลูกค้าได้อย่างมีอารมณ์ ซึ่งจะช่วยปรับปรุงประสบการณ์ของผู้ใช้งานได้อย่างมาก

AI ถอดเสียงที่แม่นยำกว่าเดิม ลดข้อผิดพลาดและการ "หลอน"

OpenAI ยังเปิดตัว gpt-4o-transcribe และ gpt-4o-mini-transcribe ซึ่งเป็นโมเดล Speech-to-Text (STT) รุ่นใหม่ที่มาแทนที่ Whisper ซึ่งเป็น AI ถอดเสียงที่ใช้มานาน

🔹 ความแม่นยำสูงขึ้น: สามารถจับสำเนียงและรูปแบบการพูดที่แตกต่างกันได้ดีขึ้น แม้ในสภาพแวดล้อมที่มีเสียงรบกวน

🔹 ลดปัญหา "หลอน" (hallucination): Whisper เคยมีปัญหาเรื่องการแต่งคำพูดขึ้นเอง ซึ่งบางครั้งทำให้เกิดข้อมูลผิดพลาด แต่โมเดลใหม่ช่วยลดปัญหานี้ลง

🔹 รองรับภาษาหลากหลายขึ้น: แม้ว่าจะยังมีข้อผิดพลาดอยู่บ้างในบางภาษา เช่น ทมิฬ เตลูกู มาลายาลัม และกันนาดา

สำหรับธุรกิจที่ต้องใช้ระบบถอดเสียง เช่น Call Center, Podcast หรือระบบช่วยถอดเสียงสำหรับคอนเทนต์วิดีโอ จะได้รับประโยชน์มหาศาลจากโมเดลใหม่นี้

OpenAI เปลี่ยนนโยบาย - ไม่เปิดให้ใช้โมเดลถอดเสียงแบบโอเพ่นซอร์ส

ต่างจาก Whisper ที่ OpenAI เคยปล่อยให้ใช้งานแบบ โอเพ่นซอร์ส โมเดลใหม่นี้ จะไม่มีการเปิดให้ใช้งานฟรี เนื่องจากขนาดของโมเดลใหญ่ขึ้นและต้องใช้ทรัพยากรมากกว่าเดิม

OpenAI อธิบายว่าการเปิดให้ใช้งานโมเดลโอเพ่นซอร์สต้องทำอย่างรอบคอบ และพวกเขากำลังพิจารณาว่าจะมีวิธีไหนที่เหมาะสมที่สุดในอนาคต

AI ใกล้เคียงมนุษย์มากขึ้นไปอีกขั้น

เสียงพูดสมจริงขึ้น – สามารถควบคุมอารมณ์และโทนเสียงได้
ถอดเสียงแม่นยำขึ้น – รองรับสำเนียงและเสียงรบกวนที่มากขึ้น
ลดปัญหาการหลอนของ AI – ลดข้อผิดพลาดในการถอดเสียง
ไม่เปิดให้ใช้งานโอเพ่นซอร์ส – ต้องใช้ผ่าน API ของ OpenAI เท่านั้น

สำหรับนักพัฒนาและธุรกิจที่ต้องการ AI ด้านเสียงพูดและการถอดเสียงที่ดีขึ้น การอัปเกรดครั้งนี้นับว่าเป็นอีกก้าวสำคัญของ OpenAI ที่ช่วยให้ AI ใกล้เคียงมนุษย์มากขึ้นไปอีกขั้น ทุกคนคิดว่า AI เสียงพูดควรนำไปใช้กับอะไรดี? แบ่งปันความคิดเห็นของคุณในคอมเมนต์ได้เลย!

แหล่งที่มา: TechCrunch

OpenAI อัปเกรด AI ถอดเสียง - แม่นยำขึ้น ควบคุมโทนเสียงได้ดีกว่าเดิม!

AI เสียงพูดที่สมจริงและควบคุมโทนเสียงได้มากขึ้น

AI ถอดเสียงที่แม่นยำกว่าเดิม ลดข้อผิดพลาดและการ "หลอน"

OpenAI เปลี่ยนนโยบาย - ไม่เปิดให้ใช้โมเดลถอดเสียงแบบโอเพ่นซอร์ส

AI ใกล้เคียงมนุษย์มากขึ้นไปอีกขั้น

โพสต์ล่าสุด

Comments

ติดต่อเรา

© Copyright 2025 Creative ME Co.,Ltd All reserved