วิจัย Microsoft เผย AI ใช้วิธีลัด ‘โกงข้อสอบแพทย์’ สั่นคลอนความปลอดภัยของผู้ป่วย

AI ที่ล้ำหน้าที่สุดในโลกกำลังใช้วิธีลัดโกงข้อสอบทางการแพทย์เพื่อให้ได้คะแนนที่น่าประทับใจ ซึ่งไม่ได้มาจากความรู้ทางการแพทย์ที่แท้จริง แต่มาจากการใช้ประโยชน์จากช่องโหว่ในการออกแบบข้อสอบ การค้นพบนี้ส่งผลกระทบอย่างมหาศาลต่ออุตสาหกรรม AI ทางการแพทย์ และอาจหมายถึงความปลอดภัยของผู้ป่วยทุกคนที่ต้องพึ่งพาเทคโนโลยีนี้

ปัญหาการโกงข้อสอบของ AI ทางการแพทย์

ลองนึกภาพว่าเกณฑ์มาตรฐานของ AI ทางการแพทย์ก็เหมือนกับการสอบวัดระดับมาตรฐานที่ใช้วัดว่าระบบปัญญาประดิษฐ์เข้าใจเรื่องการแพทย์ได้ดีเพียงใด เช่นเดียวกับที่นักเรียนต้องสอบ SAT เพื่อพิสูจน์ว่าพร้อมสำหรับมหาวิทยาลัย ระบบ AI ก็ต้องผ่านเกณฑ์มาตรฐานทางการแพทย์เหล่านี้เพื่อแสดงให้เห็นว่าพร้อมที่จะช่วยแพทย์วินิจฉัยโรคและแนะนำการรักษา

แต่งานวิจัยชิ้นสำคัญล่าสุดที่ตีพิมพ์โดย Microsoft Research เผยว่าระบบ AI เหล่านี้ไม่ได้เรียนรู้เรื่องการแพทย์จริงๆ พวกมันแค่ 'เก่งขึ้นในการทำข้อสอบ' เท่านั้น มันเหมือนกับการค้นพบว่านักเรียนคนหนึ่งได้คะแนน SAT เต็ม ไม่ใช่เพราะเข้าใจคณิตศาสตร์และการอ่าน แต่เพราะจำได้ว่าตัวเลือกคำตอบใดมักจะถูกต้องบ่อยที่สุด

นักวิจัยได้นำโมเดล AI ชั้นนำ 6 ตัวมาทดสอบอย่างเข้มข้น (Stress Test) และพบว่าระบบเหล่านี้ได้คะแนนทางการแพทย์สูงผ่านเทคนิคการทำข้อสอบอันซับซ้อน แทนที่จะเป็นความเข้าใจทางการแพทย์ที่แท้จริง

AI โกงระบบได้อย่างไร?

ทีมวิจัยค้นพบหลายวิธีที่ระบบ AI แสร้งทำเป็นว่ามีความสามารถทางการแพทย์ โดยใช้วิธีการที่หากเป็นนักศึกษาที่เป็นมนุษย์ทำคงถูกไล่ออกอย่างแน่นอน:

  • เรียนรู้จากตำแหน่งไม่ใช่เนื้อหา เมื่อนักวิจัยเพียงแค่สลับลำดับของคำตอบในข้อสอบแบบปรนัย เช่น ย้ายตัวเลือก ก. ไปเป็น ค. ประสิทธิภาพของ AI ก็ลดลงอย่างมีนัยสำคัญ นี่หมายความว่าระบบกำลังเรียนรู้ว่า 'คำตอบมักจะอยู่ที่ตำแหน่ง ข.' แทนที่จะเรียนรู้ว่า 'โรคปอดบวมทำให้เกิดอาการเฉพาะเหล่านี้'
  • ตอบได้แม้ไม่มีรูปภาพ ในคำถามที่ต้องวิเคราะห์ภาพทางการแพทย์ เช่น ภาพเอ็กซเรย์หรือ MRI ระบบ AI ยังคงให้คำตอบที่ถูกต้องได้แม้ว่าภาพเหล่านั้นจะถูกลบออกไปทั้งหมด ตัวอย่างเช่น GPT-5 ยังคงความแม่นยำได้ถึง 37.7% ในคำถามที่ต้องใช้ภาพ ทั้งๆ ที่ไม่มีภาพให้ดู ซึ่งสูงกว่าระดับการเดาสุ่มที่ 20% อย่างมาก
  • ใช้ตัวลวงเป็นเบาะแส ระบบ AI ค้นพบวิธีใช้เบาะแสจากตัวเลือกคำตอบที่ผิดเพื่อเดาคำตอบที่ถูกต้อง แทนที่จะใช้ความรู้ทางการแพทย์ที่แท้จริง นักวิจัยพบว่าโมเดลเหล่านี้พึ่งพาการใช้คำในตัวเลือกที่ไม่ถูกต้อง หรือที่เรียกว่า 'ตัวลวง' (distractors) อย่างมาก เมื่อตัวลวงเหล่านั้นถูกแทนที่ด้วยคำที่ไม่เกี่ยวข้องกับการแพทย์ ความแม่นยำของ AI ก็ลดลงฮวบฮาบ สิ่งนี้เผยให้เห็นว่ามันอาศัยเทคนิคการทำข้อสอบแทนที่จะเป็นความเข้าใจที่แท้จริง

เมื่อสุขภาพของคุณขึ้นอยู่กับ AI

งานวิจัยนี้เกิดขึ้นในช่วงเวลาที่ AI กำลังขยายตัวเข้าสู่แวดวงการดูแลสุขภาพอย่างรวดเร็ว โรงพยาบาลถึง 80% ในปัจจุบันใช้ AI เพื่อปรับปรุงการดูแลผู้ป่วยและประสิทธิภาพการดำเนินงาน โดยแพทย์พึ่งพา AI มากขึ้นในทุกด้าน ตั้งแต่การอ่านผลเอ็กซเรย์ไปจนถึงการแนะนำการรักษา ทว่าการศึกษานี้ชี้ให้เห็นว่าวิธีการทดสอบในปัจจุบันไม่สามารถแยกแยะระหว่างความสามารถทางการแพทย์ที่แท้จริงกับอัลกอริทึมการทำข้อสอบที่ซับซ้อนได้

การศึกษาของ Microsoft Research พบว่าโมเดลอย่าง GPT-5 มีความแม่นยำถึง 80.89% ในการทดสอบด้านภาพทางการแพทย์ แต่ลดลงเหลือ 67.56% เมื่อไม่มีภาพ การลดลง 13.33 เปอร์เซ็นต์นี้เผยให้เห็นการพึ่งพาเบาะแสที่ไม่ใช่ภาพซึ่งซ่อนอยู่ ที่น่ากังวลยิ่งกว่านั้นคือ เมื่อนักวิจัยแทนที่ภาพทางการแพทย์ด้วยภาพที่สนับสนุนการวินิจฉัยโรคอื่น ความแม่นยำของโมเดลก็ลดลงมากกว่าสามสิบเปอร์เซ็นต์ แม้ว่าคำถามที่เป็นข้อความจะไม่มีการเปลี่ยนแปลงใดๆ

ลองนึกภาพสถานการณ์นี้ ระบบ AI ได้คะแนน 95% ในการทดสอบวินิจฉัยโรคและถูกนำไปใช้ในห้องฉุกเฉินเพื่อช่วยให้แพทย์ประเมินผู้ป่วยได้อย่างรวดเร็ว แต่ถ้าระบบนั้นได้คะแนนสูงมาจากการใช้เทคนิคทำข้อสอบแทนที่จะเป็นความเข้าใจทางการแพทย์ มันอาจมองข้ามอาการที่สำคัญหรือแนะนำการรักษาที่ไม่เหมาะสมเมื่อต้องเผชิญกับผู้ป่วยจริงที่มีอาการไม่ตรงกับรูปแบบที่มันเรียนรู้มาจากคำถามในข้อสอบ

ตลาด AI ทางการแพทย์คาดว่าจะมีมูลค่าเกิน 1 แสนล้านดอลลาร์ภายในปี 2030 โดยระบบสาธารณสุขทั่วโลกกำลังลงทุนอย่างมหาศาลในเครื่องมือวินิจฉัยโรคด้วย AI องค์กรด้านการดูแลสุขภาพที่จัดซื้อระบบ AI โดยดูจากคะแนนมาตรฐานที่น่าประทับใจ อาจกำลังนำความเสี่ยงด้านความปลอดภัยของผู้ป่วยเข้ามาโดยไม่รู้ตัว นักวิจัยของ Microsoft เตือนว่า 'คะแนนมาตรฐานทางการแพทย์ไม่ได้สะท้อนถึงความพร้อมในการใช้งานจริงโดยตรง'

ผลกระทบนั้นไปไกลกว่าแค่คะแนนสอบ การศึกษาของ Microsoft เผยว่าเมื่อโมเดล AI ถูกขอให้อธิบายเหตุผลทางการแพทย์ พวกมันมักจะสร้าง 'เหตุผลที่ฟังดูน่าเชื่อถือแต่มีข้อบกพร่อง' หรือให้ 'คำตอบที่ถูกต้องซึ่งสนับสนุนโดยเหตุผลที่ถูกสร้างขึ้นมา' ตัวอย่างหนึ่งแสดงให้เห็นว่าโมเดลวินิจฉัยโรค Dermatomyositis (โรคกล้ามเนื้อและผิวหนังอักเสบ) ได้อย่างถูกต้อง พร้อมทั้งอธิบายลักษณะทางภาพที่ไม่มีอยู่จริงในภาพนั้น เนื่องจากไม่มีภาพใดๆ ให้ดูเลย

ปัญหาการจดจำรูปแบบของ AI

แตกต่างจากนักศึกษาแพทย์ที่เป็นมนุษย์ซึ่งเรียนรู้โดยการทำความเข้าใจว่าโรคต่างๆ ส่งผลกระทบต่อร่างกายมนุษย์อย่างไร ระบบ AI ในปัจจุบันเรียนรู้โดยการค้นหารูปแบบในข้อมูล สิ่งนี้สร้างสิ่งที่นักวิจัยของ Microsoft เรียกว่า 'การเรียนรู้ทางลัด' (shortcut learning) ซึ่งคือการค้นหาเส้นทางที่ง่ายที่สุดเพื่อให้ได้คำตอบที่ถูกต้องโดยไม่มีการพัฒนาความเข้าใจที่แท้จริง

การศึกษาพบว่าโมเดล AI 'อาจวินิจฉัยโรคปอดบวมไม่ใช่โดยการตีความลักษณะทางรังสีวิทยา แต่โดยการเรียนรู้ว่า ‘อาการไอมีเสมหะ + มีไข้’ มีความสัมพันธ์ทางสถิติกับการเกิดโรคปอดบวมในข้อมูลที่ใช้ฝึกฝน' นี่คือการจับคู่รูปแบบ 'ไม่ใช่ความเข้าใจทางการแพทย์'

ก้าวต่อไปของ AI ทางการแพทย์

นักวิจัยของ Microsoft สนับสนุนให้มีการทบทวนวิธีการทดสอบระบบ AI ทางการแพทย์ใหม่ แทนที่จะพึ่งพาคะแนนมาตรฐาน เราต้องการวิธีการประเมินที่สามารถตรวจจับได้ว่าเมื่อใดที่ระบบ AI กำลังเล่นกับข้อสอบแทนที่จะเรียนรู้เรื่องการแพทย์

อุตสาหกรรม AI ทางการแพทย์กำลังเผชิญกับช่วงเวลาที่สำคัญ ผลการวิจัยของ Microsoft Research เผยให้เห็นว่าคะแนนมาตรฐานที่น่าประทับใจได้สร้างภาพลวงตาของความพร้อมที่อาจส่งผลกระทบร้ายแรงต่อความปลอดภัยของผู้ป่วย ในขณะที่ AI ยังคงขยายตัวเข้าสู่แวดวงการดูแลสุขภาพ วิธีการตรวจสอบระบบเหล่านี้ของเราก็ต้องพัฒนาให้ทันกับความซับซ้อนของมัน และทันต่อศักยภาพที่จะเกิดความล้มเหลวที่ซับซ้อนได้เช่นกัน

ที่มา: Forbes

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

เจาะดีล Netflix เข้าซื้อ Warner Bros ทำไมถึงยอมจ่ายมากถึง 8.27 ล้านดอลลาร์สหรัฐ และทำไมหลายคนไม่เห็นด้วย

นับเป็นข่าวใหญ่ที่สะเทือนวงการบันเทิงหนัง Netflix เจ้าตลาดสตรีมมิ่งประกาศเข้าซื้อกิจการ Warner Bros. ซึ่งนับรวมถึงสตูดิโอสร้างภาพยนตร์-โทรทัศน์ และธุรกิจสตรีมมิ่ง HBO Max และ HBO ด...

Responsive image

ซีอีโอ AWS ชี้ AI Agents จะเปลี่ยนโลกยิ่งกว่าอินเทอร์เน็ต เราอาจได้เห็น AI Agent พันล้านตัวรันองค์กร

AWS ซีอีโอประกาศชัด AI Agents จะสร้างผลกระทบต่อโลกธุรกิจยิ่งกว่าอินเทอร์เน็ตและ Cloud พร้อมเปิดยุคที่ ‘AI Agent พันล้านตัว’ ทำงานอัตโนมัติอยู่หลังองค์กรทั่วโลก เร่งผลตอบแทนทางธุรกิ...

Responsive image

วิกฤตสมองไหลใน Apple ไม่จบ ! ล่าสุด Meta ดึงตัว Alan Dye หัวหน้าทีมดีไซน์ Apple ผู้คุมออกแบบ Liquid Glass ใน iOS26

เจาะลึกสมองไหลใน Apple ปี 2025 เมื่อผู้เชี่ยวชาญ AI หลายคนย้ายไป Meta, OpenAI และ Cohere ส่งผลต่ออนาคต Apple Intelligence...