วิจัย Microsoft เผย AI ใช้วิธีลัด ‘โกงข้อสอบแพทย์’ สั่นคลอนความปลอดภัยของผู้ป่วย

AI ที่ล้ำหน้าที่สุดในโลกกำลังใช้วิธีลัดโกงข้อสอบทางการแพทย์เพื่อให้ได้คะแนนที่น่าประทับใจ ซึ่งไม่ได้มาจากความรู้ทางการแพทย์ที่แท้จริง แต่มาจากการใช้ประโยชน์จากช่องโหว่ในการออกแบบข้อสอบ การค้นพบนี้ส่งผลกระทบอย่างมหาศาลต่ออุตสาหกรรม AI ทางการแพทย์ และอาจหมายถึงความปลอดภัยของผู้ป่วยทุกคนที่ต้องพึ่งพาเทคโนโลยีนี้

ปัญหาการโกงข้อสอบของ AI ทางการแพทย์

ลองนึกภาพว่าเกณฑ์มาตรฐานของ AI ทางการแพทย์ก็เหมือนกับการสอบวัดระดับมาตรฐานที่ใช้วัดว่าระบบปัญญาประดิษฐ์เข้าใจเรื่องการแพทย์ได้ดีเพียงใด เช่นเดียวกับที่นักเรียนต้องสอบ SAT เพื่อพิสูจน์ว่าพร้อมสำหรับมหาวิทยาลัย ระบบ AI ก็ต้องผ่านเกณฑ์มาตรฐานทางการแพทย์เหล่านี้เพื่อแสดงให้เห็นว่าพร้อมที่จะช่วยแพทย์วินิจฉัยโรคและแนะนำการรักษา

แต่งานวิจัยชิ้นสำคัญล่าสุดที่ตีพิมพ์โดย Microsoft Research เผยว่าระบบ AI เหล่านี้ไม่ได้เรียนรู้เรื่องการแพทย์จริงๆ พวกมันแค่ 'เก่งขึ้นในการทำข้อสอบ' เท่านั้น มันเหมือนกับการค้นพบว่านักเรียนคนหนึ่งได้คะแนน SAT เต็ม ไม่ใช่เพราะเข้าใจคณิตศาสตร์และการอ่าน แต่เพราะจำได้ว่าตัวเลือกคำตอบใดมักจะถูกต้องบ่อยที่สุด

นักวิจัยได้นำโมเดล AI ชั้นนำ 6 ตัวมาทดสอบอย่างเข้มข้น (Stress Test) และพบว่าระบบเหล่านี้ได้คะแนนทางการแพทย์สูงผ่านเทคนิคการทำข้อสอบอันซับซ้อน แทนที่จะเป็นความเข้าใจทางการแพทย์ที่แท้จริง

AI โกงระบบได้อย่างไร?

ทีมวิจัยค้นพบหลายวิธีที่ระบบ AI แสร้งทำเป็นว่ามีความสามารถทางการแพทย์ โดยใช้วิธีการที่หากเป็นนักศึกษาที่เป็นมนุษย์ทำคงถูกไล่ออกอย่างแน่นอน:

  • เรียนรู้จากตำแหน่งไม่ใช่เนื้อหา เมื่อนักวิจัยเพียงแค่สลับลำดับของคำตอบในข้อสอบแบบปรนัย เช่น ย้ายตัวเลือก ก. ไปเป็น ค. ประสิทธิภาพของ AI ก็ลดลงอย่างมีนัยสำคัญ นี่หมายความว่าระบบกำลังเรียนรู้ว่า 'คำตอบมักจะอยู่ที่ตำแหน่ง ข.' แทนที่จะเรียนรู้ว่า 'โรคปอดบวมทำให้เกิดอาการเฉพาะเหล่านี้'
  • ตอบได้แม้ไม่มีรูปภาพ ในคำถามที่ต้องวิเคราะห์ภาพทางการแพทย์ เช่น ภาพเอ็กซเรย์หรือ MRI ระบบ AI ยังคงให้คำตอบที่ถูกต้องได้แม้ว่าภาพเหล่านั้นจะถูกลบออกไปทั้งหมด ตัวอย่างเช่น GPT-5 ยังคงความแม่นยำได้ถึง 37.7% ในคำถามที่ต้องใช้ภาพ ทั้งๆ ที่ไม่มีภาพให้ดู ซึ่งสูงกว่าระดับการเดาสุ่มที่ 20% อย่างมาก
  • ใช้ตัวลวงเป็นเบาะแส ระบบ AI ค้นพบวิธีใช้เบาะแสจากตัวเลือกคำตอบที่ผิดเพื่อเดาคำตอบที่ถูกต้อง แทนที่จะใช้ความรู้ทางการแพทย์ที่แท้จริง นักวิจัยพบว่าโมเดลเหล่านี้พึ่งพาการใช้คำในตัวเลือกที่ไม่ถูกต้อง หรือที่เรียกว่า 'ตัวลวง' (distractors) อย่างมาก เมื่อตัวลวงเหล่านั้นถูกแทนที่ด้วยคำที่ไม่เกี่ยวข้องกับการแพทย์ ความแม่นยำของ AI ก็ลดลงฮวบฮาบ สิ่งนี้เผยให้เห็นว่ามันอาศัยเทคนิคการทำข้อสอบแทนที่จะเป็นความเข้าใจที่แท้จริง

เมื่อสุขภาพของคุณขึ้นอยู่กับ AI

งานวิจัยนี้เกิดขึ้นในช่วงเวลาที่ AI กำลังขยายตัวเข้าสู่แวดวงการดูแลสุขภาพอย่างรวดเร็ว โรงพยาบาลถึง 80% ในปัจจุบันใช้ AI เพื่อปรับปรุงการดูแลผู้ป่วยและประสิทธิภาพการดำเนินงาน โดยแพทย์พึ่งพา AI มากขึ้นในทุกด้าน ตั้งแต่การอ่านผลเอ็กซเรย์ไปจนถึงการแนะนำการรักษา ทว่าการศึกษานี้ชี้ให้เห็นว่าวิธีการทดสอบในปัจจุบันไม่สามารถแยกแยะระหว่างความสามารถทางการแพทย์ที่แท้จริงกับอัลกอริทึมการทำข้อสอบที่ซับซ้อนได้

การศึกษาของ Microsoft Research พบว่าโมเดลอย่าง GPT-5 มีความแม่นยำถึง 80.89% ในการทดสอบด้านภาพทางการแพทย์ แต่ลดลงเหลือ 67.56% เมื่อไม่มีภาพ การลดลง 13.33 เปอร์เซ็นต์นี้เผยให้เห็นการพึ่งพาเบาะแสที่ไม่ใช่ภาพซึ่งซ่อนอยู่ ที่น่ากังวลยิ่งกว่านั้นคือ เมื่อนักวิจัยแทนที่ภาพทางการแพทย์ด้วยภาพที่สนับสนุนการวินิจฉัยโรคอื่น ความแม่นยำของโมเดลก็ลดลงมากกว่าสามสิบเปอร์เซ็นต์ แม้ว่าคำถามที่เป็นข้อความจะไม่มีการเปลี่ยนแปลงใดๆ

ลองนึกภาพสถานการณ์นี้ ระบบ AI ได้คะแนน 95% ในการทดสอบวินิจฉัยโรคและถูกนำไปใช้ในห้องฉุกเฉินเพื่อช่วยให้แพทย์ประเมินผู้ป่วยได้อย่างรวดเร็ว แต่ถ้าระบบนั้นได้คะแนนสูงมาจากการใช้เทคนิคทำข้อสอบแทนที่จะเป็นความเข้าใจทางการแพทย์ มันอาจมองข้ามอาการที่สำคัญหรือแนะนำการรักษาที่ไม่เหมาะสมเมื่อต้องเผชิญกับผู้ป่วยจริงที่มีอาการไม่ตรงกับรูปแบบที่มันเรียนรู้มาจากคำถามในข้อสอบ

ตลาด AI ทางการแพทย์คาดว่าจะมีมูลค่าเกิน 1 แสนล้านดอลลาร์ภายในปี 2030 โดยระบบสาธารณสุขทั่วโลกกำลังลงทุนอย่างมหาศาลในเครื่องมือวินิจฉัยโรคด้วย AI องค์กรด้านการดูแลสุขภาพที่จัดซื้อระบบ AI โดยดูจากคะแนนมาตรฐานที่น่าประทับใจ อาจกำลังนำความเสี่ยงด้านความปลอดภัยของผู้ป่วยเข้ามาโดยไม่รู้ตัว นักวิจัยของ Microsoft เตือนว่า 'คะแนนมาตรฐานทางการแพทย์ไม่ได้สะท้อนถึงความพร้อมในการใช้งานจริงโดยตรง'

ผลกระทบนั้นไปไกลกว่าแค่คะแนนสอบ การศึกษาของ Microsoft เผยว่าเมื่อโมเดล AI ถูกขอให้อธิบายเหตุผลทางการแพทย์ พวกมันมักจะสร้าง 'เหตุผลที่ฟังดูน่าเชื่อถือแต่มีข้อบกพร่อง' หรือให้ 'คำตอบที่ถูกต้องซึ่งสนับสนุนโดยเหตุผลที่ถูกสร้างขึ้นมา' ตัวอย่างหนึ่งแสดงให้เห็นว่าโมเดลวินิจฉัยโรค Dermatomyositis (โรคกล้ามเนื้อและผิวหนังอักเสบ) ได้อย่างถูกต้อง พร้อมทั้งอธิบายลักษณะทางภาพที่ไม่มีอยู่จริงในภาพนั้น เนื่องจากไม่มีภาพใดๆ ให้ดูเลย

ปัญหาการจดจำรูปแบบของ AI

แตกต่างจากนักศึกษาแพทย์ที่เป็นมนุษย์ซึ่งเรียนรู้โดยการทำความเข้าใจว่าโรคต่างๆ ส่งผลกระทบต่อร่างกายมนุษย์อย่างไร ระบบ AI ในปัจจุบันเรียนรู้โดยการค้นหารูปแบบในข้อมูล สิ่งนี้สร้างสิ่งที่นักวิจัยของ Microsoft เรียกว่า 'การเรียนรู้ทางลัด' (shortcut learning) ซึ่งคือการค้นหาเส้นทางที่ง่ายที่สุดเพื่อให้ได้คำตอบที่ถูกต้องโดยไม่มีการพัฒนาความเข้าใจที่แท้จริง

การศึกษาพบว่าโมเดล AI 'อาจวินิจฉัยโรคปอดบวมไม่ใช่โดยการตีความลักษณะทางรังสีวิทยา แต่โดยการเรียนรู้ว่า ‘อาการไอมีเสมหะ + มีไข้’ มีความสัมพันธ์ทางสถิติกับการเกิดโรคปอดบวมในข้อมูลที่ใช้ฝึกฝน' นี่คือการจับคู่รูปแบบ 'ไม่ใช่ความเข้าใจทางการแพทย์'

ก้าวต่อไปของ AI ทางการแพทย์

นักวิจัยของ Microsoft สนับสนุนให้มีการทบทวนวิธีการทดสอบระบบ AI ทางการแพทย์ใหม่ แทนที่จะพึ่งพาคะแนนมาตรฐาน เราต้องการวิธีการประเมินที่สามารถตรวจจับได้ว่าเมื่อใดที่ระบบ AI กำลังเล่นกับข้อสอบแทนที่จะเรียนรู้เรื่องการแพทย์

อุตสาหกรรม AI ทางการแพทย์กำลังเผชิญกับช่วงเวลาที่สำคัญ ผลการวิจัยของ Microsoft Research เผยให้เห็นว่าคะแนนมาตรฐานที่น่าประทับใจได้สร้างภาพลวงตาของความพร้อมที่อาจส่งผลกระทบร้ายแรงต่อความปลอดภัยของผู้ป่วย ในขณะที่ AI ยังคงขยายตัวเข้าสู่แวดวงการดูแลสุขภาพ วิธีการตรวจสอบระบบเหล่านี้ของเราก็ต้องพัฒนาให้ทันกับความซับซ้อนของมัน และทันต่อศักยภาพที่จะเกิดความล้มเหลวที่ซับซ้อนได้เช่นกัน

ที่มา: Forbes

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

Google ขยาย Opal สู่ 160 ประเทศ แพลตฟอร์มสร้างมินิแอปแบบ no-code สำหรับทุกคน

Google ขยายบริการ Opal เครื่องมือสร้างแอปด้วย AI แบบ no-code จาก 15 สู่กว่า 160 ประเทศทั่วโลก ให้ทุกคนสร้างแอปได้ง่ายเพียงพิมพ์คำสั่ง...

Responsive image

จับมือเปลี่ยนเกม บทสรุป Energy Forward 2025 รวมพลังผู้นำทุกภาคส่วน มุ่งสู่เป้าหมายพลังงานยั่งยืน

Energy Forward 2025: ถอดรหัสอนาคตธุรกิจ สู่ยุค Greener Enterprises ด้วย AI, Green Hydrogen และกลยุทธ์ ESG...

Responsive image

AI สร้าง 'วิดีโอสอนออนไลน์' ฟรี ล่าสุด NotebookLM อัปเดตใหม่ แค่อัปโหลดไฟล์ข้อมูล รอไม่นาน ก็ได้คลิปการสอนพร้อมภาพและเสียง

Google อัปเกรด NotebookLM จากเครื่องมือสรุปข้อมูลธรรมดา ตอนนี้สามารถทำได้มากขึ้นทั้งสร้างวิดีโอสอน หรือทำรายงานต่าง ๆ ได้...