OpenAI อัปเกรด AI ถอดเสียง - แม่นยำขึ้น ควบคุมโทนเสียงได้ดีกว่าเดิม!
- Kattiya Jantas
- 21 มี.ค.
- ยาว 1 นาที
OpenAI เดินหน้าพัฒนา AI ด้านเสียง เปิดตัวโมเดลใหม่ gpt-4o-mini-tts, gpt-4o-transcribe และ gpt-4o-mini-transcribe ที่ช่วยให้เสียงพูดเป็นธรรมชาติขึ้น และการถอดเสียงมีความแม่นยำมากขึ้น แม้ในสภาพแวดล้อมที่มีเสียงรบกวน

AI เสียงพูดที่สมจริงและควบคุมโทนเสียงได้มากขึ้น
หนึ่งในไฮไลท์สำคัญของ OpenAI ครั้งนี้คือ "gpt-4o-mini-tts" ซึ่งเป็นโมเดล Text-to-Speech (TTS) ที่ช่วยให้ AI สามารถสร้างเสียงพูดที่เป็นธรรมชาติและสมจริงกว่าเดิม
แต่ที่พิเศษยิ่งกว่านั้นคือ ความสามารถในการควบคุมโทนเสียง นักพัฒนาสามารถกำหนดให้ AI พูดในสไตล์ที่ต้องการ เช่น
“พูดเหมือนนักวิทยาศาสตร์สุดเพี้ยน”
“ใช้เสียงสงบเสมือนครูสอนสมาธิ”
“น้ำเสียงนุ่มนวลเป็นมืออาชีพ”
นี่หมายความว่าธุรกิจสามารถนำไปใช้สร้าง แชทบอทเสียงพูดที่ตอบโต้กับลูกค้าได้อย่างมีอารมณ์ ซึ่งจะช่วยปรับปรุงประสบการณ์ของผู้ใช้งานได้อย่างมาก
AI ถอดเสียงที่แม่นยำกว่าเดิม ลดข้อผิดพลาดและการ "หลอน"
OpenAI ยังเปิดตัว gpt-4o-transcribe และ gpt-4o-mini-transcribe ซึ่งเป็นโมเดล Speech-to-Text (STT) รุ่นใหม่ที่มาแทนที่ Whisper ซึ่งเป็น AI ถอดเสียงที่ใช้มานาน
🔹 ความแม่นยำสูงขึ้น: สามารถจับสำเนียงและรูปแบบการพูดที่แตกต่างกันได้ดีขึ้น แม้ในสภาพแวดล้อมที่มีเสียงรบกวน
🔹 ลดปัญหา "หลอน" (hallucination): Whisper เคยมีปัญหาเรื่องการแต่งคำพูดขึ้นเอง ซึ่งบางครั้งทำให้เกิดข้อมูลผิดพลาด แต่โมเดลใหม่ช่วยลดปัญหานี้ลง
🔹 รองรับภาษาหลากหลายขึ้น: แม้ว่าจะยังมีข้อผิดพลาดอยู่บ้างในบางภาษา เช่น ทมิฬ เตลูกู มาลายาลัม และกันนาดา
สำหรับธุรกิจที่ต้องใช้ระบบถอดเสียง เช่น Call Center, Podcast หรือระบบช่วยถอดเสียงสำหรับคอนเทนต์วิดีโอ จะได้รับประโยชน์มหาศาลจากโมเดลใหม่นี้
OpenAI เปลี่ยนนโยบาย - ไม่เปิดให้ใช้โมเดลถอดเสียงแบบโอเพ่นซอร์ส
ต่างจาก Whisper ที่ OpenAI เคยปล่อยให้ใช้งานแบบ โอเพ่นซอร์ส โมเดลใหม่นี้ จะไม่มีการเปิดให้ใช้งานฟรี เนื่องจากขนาดของโมเดลใหญ่ขึ้นและต้องใช้ทรัพยากรมากกว่าเดิม
OpenAI อธิบายว่าการเปิดให้ใช้งานโมเดลโอเพ่นซอร์สต้องทำอย่างรอบคอบ และพวกเขากำลังพิจารณาว่าจะมีวิธีไหนที่เหมาะสมที่สุดในอนาคต
AI ใกล้เคียงมนุษย์มากขึ้นไปอีกขั้น
เสียงพูดสมจริงขึ้น – สามารถควบคุมอารมณ์และโทนเสียงได้
ถอดเสียงแม่นยำขึ้น – รองรับสำเนียงและเสียงรบกวนที่มากขึ้น
ลดปัญหาการหลอนของ AI – ลดข้อผิดพลาดในการถอดเสียง
ไม่เปิดให้ใช้งานโอเพ่นซอร์ส – ต้องใช้ผ่าน API ของ OpenAI เท่านั้น
สำหรับนักพัฒนาและธุรกิจที่ต้องการ AI ด้านเสียงพูดและการถอดเสียงที่ดีขึ้น การอัปเกรดครั้งนี้นับว่าเป็นอีกก้าวสำคัญของ OpenAI ที่ช่วยให้ AI ใกล้เคียงมนุษย์มากขึ้นไปอีกขั้น ทุกคนคิดว่า AI เสียงพูดควรนำไปใช้กับอะไรดี? แบ่งปันความคิดเห็นของคุณในคอมเมนต์ได้เลย!
แหล่งที่มา: TechCrunch
Comments