ถาม ChatGPT ด้วยรูปภาพและเสียงพูด OpenAI เร่งสุดตัวในสนามแข่ง AI

OpenAI ประกาศเพิ่มฟีเจอร์ “ถาม AI ได้ด้วยรูปภาพและเสียงพูด” อย่างเป็นทางการ เมื่อวันที่ 25 กันยายนที่ผ่านมา โดยมีจุดประสงค์ที่จะเป็นแพลตฟอร์มที่มากกว่า Search Engine ฟีเจอร์ใหม่นี้จะเริ่มเปิดตัวให้กับสมาชิกแบบ ChatGPT Plus และ Enterprise ในอีก 2 สัปดาห์ข้างหน้า 

ตอนนี้เราสามารถถาม AI ด้วยรูปและเสียง บน ChatGPT ได้แล้ว

ฟีเจอร์ Voice จะยังคงจำกัดอยู่แค่บนแอปพลิเคชั่นทั้ง iOS และ Android สำหรับการใช้งานสามารถเข้าไปที่ Settings และเลือก New Features

การประกาศของ OpenAI เกิดขึ้นในช่วงเวลาเดียวกันกับที่ Amazon ประกาศลงทุนกับ Anthropic มากกว่า 4 พันล้านดอลลาร์ ถือเป็นการประกาศแข่งขันด้าน AI ครั้งใหญ่ของบริษัทเทคโนโลยีระดับโลก

ฟีเจอร์ AI ที่ฉลาดกว่าเดิม

OpenAI นำโมเดลภาษาขนาดใหญ่ของตนมาพัฒนารูปแบบ Generative AI ให้ฉลาดมากขึ้น ซึ่งความฉลาดของ AI ที่พัฒนาในเวอร์ชั่นล่าสุดมีตั้งแต่ ใช้ ChatGPT แต่งนิทานก่อนนอน ด้วยคำพูดของเราได้ทันที โดยมีเสียงเตือนเล็กน้อยเพื่อเป็นแนวทางในการเล่าเรื่อง หรือผู้ใช้งานสามารถถามคำถามได้โดย ChatGPT จะให้คำตอบในรูปแบบคำพูด

ในเรื่องการถอดเสียงและจดจำเสียง OpenAI ได้ใช้นักพากย์เสียงที่มีเสียงที่แตกต่างกัน 5 รูปแบบ มาช่วยพัฒนาระบบ Whispher ซึ่งเป็นระบบถอดเสียงเป็นข้อความของ OpenAI 

นอกจากนี้ ChatGPT ยังสามารถถาม AI โดยใช้รูปภาพได้อีกด้วย เช่น เมื่อเราอัปโหลดรูปภาพสิ่งของ บางอย่าง และขอให้ ChatGPT อธิบายว่ามันคืออะไร หรือให้คำแนะนำกับเรา

Spotify ใช้ OpenAI’s voice 

ล่าสุด Spotify ได้ประกาศฟีเจอร์ใหม่ที่ใช้ AI แปลพอดแคสต์เป็นภาษาต่าง ๆ โดยใช้เสียงของเจ้าของ Podcast ได้ 

ฟีเจอร์ใหม่นี้ใช้เทคโนโลยีถอดเสียงของ OpenAI’s voice โดยในตอนนี้มี Podcast ของ Dax Shepard, Lex Fridman, Monica Padman, Steven Bartlett และ Bill Simmons ที่ใช้ฟีเจอร์นี้ 

สำหรับการแปลภาษาถูกใช้แปลไปแล้ว 3 ภาษา ได้แก่ ภาษาสเปน ฝรั่งเศส และเยอรมัน อีกทั้งให้บริการกับผู้ใช้งานแบบฟรี และสมาชิกแบบชำระเงิน ในอีกไม่กี่วันหรืออีกกี่สัปดาห์ข้างหน้า 

อ้างอิง: openai, techcrunch, cnbc

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

Google เปิดตัวแว่นอัจฉริยะ Audio Glasses จับมือแบรนด์แว่นดัง Warby Parker และ Gentle Monster

ในงาน I/O 2026 Google ประกาศกลับเข้าสู่ตลาดแว่นตาอัจฉริยะอย่างเต็มตัว ครั้งนี้ Google ใช้กลยุทธ์ใหม่ ไม่ได้ทำเอง แต่จับมือกับแบรนด์แฟชั่นแว่นชื่อดังอย่าง Warby Parker จากอเมริกา แล...

Responsive image

Gemini Spark เปิดตัวแล้ว AI Agent ส่วนตัวที่ทำงาน24 ชั่วโมงแบบไม่ต้องเปิดเครื่องค้างไว้ คู่แข่งคนใหม่ Claude Cowork

Google เปิดตัว Gemini Spark บนเวที Google I/O 2026 พร้อมประกาศชัดว่านี่คือก้าวสำคัญที่จะเปลี่ยน Gemini จากผู้ช่วยตอบคำถาม ไปเป็น AI Agent ที่ลงมือทำงานแทนผู้ใช้ได้จริง ตลอด 24 ชั่ว...

Responsive image

เจาะลึกโอกาสในตลาด Wellness ที่ไทยยังไปได้อีกไกล กรณีศึกษา ไทย-สวิตเซอร์แลนด์

เจาะลึกตลาด Wellness โลกพุ่ง 9.8 ล้านล้านดอลลาร์! ถอดรหัส NIA - จุฬาฯ และบิ๊กเวลเนส พลิกโฉมสมุนไพรและบริการไทยด้วยวิทยาศาสตร์ ยกระดับสู่เป้าหมายระดับโลก...