รู้จัก HealthBench จาก OpenAI เครื่องมือวัดความแม่นยำ AI ในการให้คำปรึกษาด้านสุขภาพ

OpenAI ได้เปิดตัวโมเดลภาษาขนาดใหญ่แบบ Open-Source ที่เรียกว่า HealthBench ซึ่งเป็นชุดข้อมูล และเกณฑ์มาตรฐานที่ออกแบบมาเพื่อวัดประสิทธิภาพของโมเดล AI ที่เกี่ยวข้องกับการให้คำปรึกษาด้านสุขภาพโดยเฉพาะ นับเป็นก้าวสำคัญของ OpenAI ในการยกระดับความน่าเชื่อถือ และความแม่นยำของ AI ในมิติที่มีความละเอียดอ่อนต่อชีวิตมนุษย์


HealthBench คืออะไร ?

HealthBench เป็นชุดข้อมูลแบบบทสนทนาที่เกี่ยวข้องกับสุขภาพที่มีความสมจริง ซึ่งเป็นการร่วมมือกันระหว่าง OpenAI และแพทย์ผู้เชี่ยวชาญกว่า 262 ท่านจาก 60 ประะเทศทั่วโลก ที่ร่วมกันสร้างบทสนทนาจำลองกว่า 5,000 บทสนทนา ครอบคลุมสถานการณ์หลากหลายตั้งแต่เหตุฉุกเฉิน ไปจนถึงการสอบถามข้อมูลสุขภาพทั่วไป

เป้าหมายหลักของ HealthBench คือการสร้างกลไกลที่เป็นกลาง และมีมาตรฐานในการประเมินว่าโมเดล AI ต่างๆ สามารถให้การตอบสนองต่อคำถามด้านสุขภาพของผู้ใช้งานได้อย่างถูกต้อง แม่นยำ และเป็นประโยชน์มากเพียยงใด 

การประเมินของ HealthBench ถือว่ามีความรัดกุมมาก เพราะคำตอบจาก AI แต่ละครั้งจะถูกนำไปเปรียบเทียบกับเกณฑ์มาตรฐานที่แพทย์ผู้เชี่ยวชาญได้ร่วมกันกำหนดขึ้น เกณฑ์แต่ละข้อจะถูกให้น้ำหนักความสำคัญต่างกันออกไปเพื่อให้สอดคล้องกับการพิจารณาทางการแพทย์จริง จากนั้นจะใช้ GPT 4.1 ซึ่งเป็นโมเดลภาษาอีกตัวของ OpenAI ทำหน้าที่ให้คะแนนตามเกณฑ์ดังกล่าว

จากการทดสอบเบื้องต้นโดยใช้ HealthBench พบว่า o3 ซึ่งเป็นแบบจำลองการให้เหตุผล (reasoning model) ของ OpenAI เอง สามารถทำคะแนนได้สูงสุดที่ 60% ตามมาด้วย Grok ของ Elon Musk ที่ 54% และ Gemini 2.5 Pro ของ Google ที่ 52% ซึ่งแม้คำตอบของ AI ทางด้านการแพทย์จะยังทำคะแนนไม่ได้เต็ม 100% แต่ก็แสดงให้เห็นถึงประสิทธิภาพการทำงานในระดับหนึ่ง รวมถึงโอกาสที่ยังสามารถพัฒนา AI เพื่อให้คำปรึกษาด้านการแพทย์ได้

HealthBench เอาไปใช้ทำอะไร ?

OpenAI ยกตัวอย่างสถานการณ์สมมติเพื่อให้เห็นการใช้งานจริง เช่น โดยให้ผู้ใช้คนหนึ่งสอบถาม AI เกี่ยวกับวิธีช่วยเหลือเพื่อนบ้านวัย 70 ปีที่ล้มลงหมดสติ แต่ยังหายใจอยู่ AI ก็ให้คำแนะนำเป็นขั้นเป็นตอน เริ่มตั้งแต่ โทรแจ้งเบอร์ฉุกเฉิน มองหาสิ่งรอบตัวที่เป็นอันตราย ตรวจสอบการหายใจโดยตบไหล่เบาๆ แล้วถามเช็กอาการ บอกวิธีจัดท่าทางให้ทางเดินหายใจเปิดโล่ง ตรวจสอบการหายใจ และชีพจรทุกๆ 30-60 ปี เป็นต้น จากนั้นก็จะนำ HealthBench มาวิเคราะห์คำตอบของ AI ว่ามีความถูกต้อง หรือตรงตามเกณฑ์ที่แพทย์วางมาตรฐานไว้หรือไม่ ซึ่งอย่างในกรณีนี้ AI ได้คะแนนไปสูงถึง 77%

HealthBench มีความรู้ครอบคลุมในสาขาการแพทย์เฉพาะทางจำนวนมากถึง 26 สาขา ได้แก่ วิสัญญีวิทยา, ตจวิทยา (โรคผิวหนัง), รังสีวิทยาวินิจฉัย, เวชศาสตร์ฉุกเฉิน, เวชศาสตร์ครอบครัว, ศัลยศาสตร์ทั่วไป, อายุรศาสตร์, รังสีร่วมรักษา และรังสีวินิจฉัย, พันธุศาสตร์การแพทย์, ศัลยกรรมประสาท, ประสาทวิทยา, เวชศาสตร์นิวเคลียร์, สูติศาสต และนรีเวชวิทยา, จักษุวิทยา,ศัลยกรรมกระดูกและข้อ,หู คอ จมูก, พยาธิวิทยา, กุมารเวชศาสตร์, เวชศาสตร์ฟื้นฟู, ศัลยกรรมตกแต่ง, จิตเวชศาสตร์, สาธารณสุขศาสตร์และเวชศาสตร์ป้องกันทั่วไป, รังสีรักษา, ศัลยกรรมทรวงอก, ศัลยกรรมระบบทางเดินปัสสาวะ และศัลยกรรมหลอดเลือด โดยรองรับภาษามากถึง 49 สาขา (ยังไม่รองรับภาษาไทย)

การเปิดตัว HealthBench นับเป็นสัญญาณที่ชัดเจนว่า OpenAI กำลังให้ความสำคัญกับการประยุกต์ใช้ AI ในภาคส่วนการดูแลสุขภาพอย่างจริงจัง โดยการมีเกณฑ์มาตรฐานที่เป็นกลาง และโปร่งใส จะช่วยผลักดันให้เกิดการพัฒนา AI ที่มีความรับผิดชอบ ปลอดภัย และสามารถเป็นผู้ช่วยที่มีคุณค่าต่อทั้งผู้ป่วยและบุคลากรทางการแพทย์ได้อย่างแท้จริงในอนาคต

อ้างอิง : OpenAI

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

จีนพัฒนา ‘Vision Heat’ เซนเซอร์มองทะลุควัน-หมอก ความละเอียด 4K ไม่ต้องใช้ความเย็น เห็นภาพความร้อนเหมือนตาของงู!

นักวิจัยจีนพัฒนาเซนเซอร์อินฟราเรด 4K แรงบันดาลใจจากตาของงู ใช้ Quantum Dots ผสาน CMOS ทำงานได้ที่อุณหภูมิห้อง เตรียมปฏิวัติกล้องสมาร์ทโฟนและรถไร้คนขับให้มองเห็นทะลุความมืดและหมอกคว...

Responsive image

เด็ก 19 สร้างนวัตกรรม ถุงมือพิมพ์งานในอากาศ จากการเรียนคอร์สออนไลน์ฟรี MIT จนคว้ารางวัล SxSW Sydney 2025

พบกับ Freesia Gaul เด็กวัย 19 ที่ย้ายโรงเรียนถึง 13 ครั้ง แต่ใช้คอร์สเรียนฟรีจาก MIT สร้างถุงมือ VR พิมพ์งานกลางอากาศจนคว้ารางวัล SxSW และเปิด Startup ได้สำเร็จ...

Responsive image

Google Labs เปิดตัว ‘CC’ AI Agent สาย Productivity เลขาส่วนตัวอัจฉริยะ สรุปงาน–ส่งเมล–นัดประชุมให้เสร็จในคลิกเดียว

Google Labs เปิดตัว ‘CC’ AI Agent ผู้ช่วยสาย Productivity ที่เชื่อม Gmail, Calendar และ Drive เข้าด้วยกัน ช่วยสรุปงาน ร่างอีเมล และจัดการนัดหมายแบบอัตโนมัติ เปลี่ยน Inbox ให้กลายเป...