top of page

OpenAI อัปเกรด AI ถอดเสียง - แม่นยำขึ้น ควบคุมโทนเสียงได้ดีกว่าเดิม!

  • รูปภาพนักเขียน: Kattiya Jantas
    Kattiya Jantas
  • 21 มี.ค.
  • ยาว 1 นาที

OpenAI เดินหน้าพัฒนา AI ด้านเสียง เปิดตัวโมเดลใหม่ gpt-4o-mini-tts, gpt-4o-transcribe และ gpt-4o-mini-transcribe ที่ช่วยให้เสียงพูดเป็นธรรมชาติขึ้น และการถอดเสียงมีความแม่นยำมากขึ้น แม้ในสภาพแวดล้อมที่มีเสียงรบกวน


OpenAI อัปเกรด AI ถอดเสียง - แม่นยำขึ้น ควบคุมโทนเสียงได้ดีกว่าเดิม!
OpenAI อัปเกรด AI ถอดเสียง - แม่นยำขึ้น ควบคุมโทนเสียงได้ดีกว่าเดิม!

AI เสียงพูดที่สมจริงและควบคุมโทนเสียงได้มากขึ้น

หนึ่งในไฮไลท์สำคัญของ OpenAI ครั้งนี้คือ "gpt-4o-mini-tts" ซึ่งเป็นโมเดล Text-to-Speech (TTS) ที่ช่วยให้ AI สามารถสร้างเสียงพูดที่เป็นธรรมชาติและสมจริงกว่าเดิม

แต่ที่พิเศษยิ่งกว่านั้นคือ ความสามารถในการควบคุมโทนเสียง นักพัฒนาสามารถกำหนดให้ AI พูดในสไตล์ที่ต้องการ เช่น


  • “พูดเหมือนนักวิทยาศาสตร์สุดเพี้ยน”

  • “ใช้เสียงสงบเสมือนครูสอนสมาธิ” 

  • “น้ำเสียงนุ่มนวลเป็นมืออาชีพ”


นี่หมายความว่าธุรกิจสามารถนำไปใช้สร้าง แชทบอทเสียงพูดที่ตอบโต้กับลูกค้าได้อย่างมีอารมณ์ ซึ่งจะช่วยปรับปรุงประสบการณ์ของผู้ใช้งานได้อย่างมาก


AI ถอดเสียงที่แม่นยำกว่าเดิม ลดข้อผิดพลาดและการ "หลอน"

OpenAI ยังเปิดตัว gpt-4o-transcribe และ gpt-4o-mini-transcribe ซึ่งเป็นโมเดล Speech-to-Text (STT) รุ่นใหม่ที่มาแทนที่ Whisper ซึ่งเป็น AI ถอดเสียงที่ใช้มานาน


🔹 ความแม่นยำสูงขึ้น: สามารถจับสำเนียงและรูปแบบการพูดที่แตกต่างกันได้ดีขึ้น แม้ในสภาพแวดล้อมที่มีเสียงรบกวน

🔹 ลดปัญหา "หลอน" (hallucination): Whisper เคยมีปัญหาเรื่องการแต่งคำพูดขึ้นเอง ซึ่งบางครั้งทำให้เกิดข้อมูลผิดพลาด แต่โมเดลใหม่ช่วยลดปัญหานี้ลง

🔹 รองรับภาษาหลากหลายขึ้น: แม้ว่าจะยังมีข้อผิดพลาดอยู่บ้างในบางภาษา เช่น ทมิฬ เตลูกู มาลายาลัม และกันนาดา


สำหรับธุรกิจที่ต้องใช้ระบบถอดเสียง เช่น Call Center, Podcast หรือระบบช่วยถอดเสียงสำหรับคอนเทนต์วิดีโอ จะได้รับประโยชน์มหาศาลจากโมเดลใหม่นี้


OpenAI เปลี่ยนนโยบาย - ไม่เปิดให้ใช้โมเดลถอดเสียงแบบโอเพ่นซอร์ส

ต่างจาก Whisper ที่ OpenAI เคยปล่อยให้ใช้งานแบบ โอเพ่นซอร์ส โมเดลใหม่นี้ จะไม่มีการเปิดให้ใช้งานฟรี เนื่องจากขนาดของโมเดลใหญ่ขึ้นและต้องใช้ทรัพยากรมากกว่าเดิม

OpenAI อธิบายว่าการเปิดให้ใช้งานโมเดลโอเพ่นซอร์สต้องทำอย่างรอบคอบ และพวกเขากำลังพิจารณาว่าจะมีวิธีไหนที่เหมาะสมที่สุดในอนาคต


AI ใกล้เคียงมนุษย์มากขึ้นไปอีกขั้น

  • เสียงพูดสมจริงขึ้น – สามารถควบคุมอารมณ์และโทนเสียงได้

  • ถอดเสียงแม่นยำขึ้น – รองรับสำเนียงและเสียงรบกวนที่มากขึ้น

  • ลดปัญหาการหลอนของ AI – ลดข้อผิดพลาดในการถอดเสียง

  • ไม่เปิดให้ใช้งานโอเพ่นซอร์ส – ต้องใช้ผ่าน API ของ OpenAI เท่านั้น

สำหรับนักพัฒนาและธุรกิจที่ต้องการ AI ด้านเสียงพูดและการถอดเสียงที่ดีขึ้น การอัปเกรดครั้งนี้นับว่าเป็นอีกก้าวสำคัญของ OpenAI ที่ช่วยให้ AI ใกล้เคียงมนุษย์มากขึ้นไปอีกขั้น ทุกคนคิดว่า AI เสียงพูดควรนำไปใช้กับอะไรดี? แบ่งปันความคิดเห็นของคุณในคอมเมนต์ได้เลย!


แหล่งที่มา: TechCrunch

Comments


download (9).png

Success Can't Wait

 Let’s Talk Business!

408/52, อาคารพหลโยธินเพลส ชั้น 12, กรุงเทพมหานคร, ประเทศไทย 10400

โทรศัพท์ : +6684-018-8850
Email : admin@creativeme.co.th

  • Facebook
  • LinkedIn
ติดต่อเรา

Your content has been submitted

An error occurred. Try again later

© Copyright 2025 Creative ME Co.,Ltd All reserved

bottom of page