
AI ที่ล้ำหน้าที่สุดในโลกกำลังใช้วิธีลัดโกงข้อสอบทางการแพทย์เพื่อให้ได้คะแนนที่น่าประทับใจ ซึ่งไม่ได้มาจากความรู้ทางการแพทย์ที่แท้จริง แต่มาจากการใช้ประโยชน์จากช่องโหว่ในการออกแบบข้อสอบ การค้นพบนี้ส่งผลกระทบอย่างมหาศาลต่ออุตสาหกรรม AI ทางการแพทย์ และอาจหมายถึงความปลอดภัยของผู้ป่วยทุกคนที่ต้องพึ่งพาเทคโนโลยีนี้
ลองนึกภาพว่าเกณฑ์มาตรฐานของ AI ทางการแพทย์ก็เหมือนกับการสอบวัดระดับมาตรฐานที่ใช้วัดว่าระบบปัญญาประดิษฐ์เข้าใจเรื่องการแพทย์ได้ดีเพียงใด เช่นเดียวกับที่นักเรียนต้องสอบ SAT เพื่อพิสูจน์ว่าพร้อมสำหรับมหาวิทยาลัย ระบบ AI ก็ต้องผ่านเกณฑ์มาตรฐานทางการแพทย์เหล่านี้เพื่อแสดงให้เห็นว่าพร้อมที่จะช่วยแพทย์วินิจฉัยโรคและแนะนำการรักษา
แต่งานวิจัยชิ้นสำคัญล่าสุดที่ตีพิมพ์โดย Microsoft Research เผยว่าระบบ AI เหล่านี้ไม่ได้เรียนรู้เรื่องการแพทย์จริงๆ พวกมันแค่ 'เก่งขึ้นในการทำข้อสอบ' เท่านั้น มันเหมือนกับการค้นพบว่านักเรียนคนหนึ่งได้คะแนน SAT เต็ม ไม่ใช่เพราะเข้าใจคณิตศาสตร์และการอ่าน แต่เพราะจำได้ว่าตัวเลือกคำตอบใดมักจะถูกต้องบ่อยที่สุด
นักวิจัยได้นำโมเดล AI ชั้นนำ 6 ตัวมาทดสอบอย่างเข้มข้น (Stress Test) และพบว่าระบบเหล่านี้ได้คะแนนทางการแพทย์สูงผ่านเทคนิคการทำข้อสอบอันซับซ้อน แทนที่จะเป็นความเข้าใจทางการแพทย์ที่แท้จริง
ทีมวิจัยค้นพบหลายวิธีที่ระบบ AI แสร้งทำเป็นว่ามีความสามารถทางการแพทย์ โดยใช้วิธีการที่หากเป็นนักศึกษาที่เป็นมนุษย์ทำคงถูกไล่ออกอย่างแน่นอน:
งานวิจัยนี้เกิดขึ้นในช่วงเวลาที่ AI กำลังขยายตัวเข้าสู่แวดวงการดูแลสุขภาพอย่างรวดเร็ว โรงพยาบาลถึง 80% ในปัจจุบันใช้ AI เพื่อปรับปรุงการดูแลผู้ป่วยและประสิทธิภาพการดำเนินงาน โดยแพทย์พึ่งพา AI มากขึ้นในทุกด้าน ตั้งแต่การอ่านผลเอ็กซเรย์ไปจนถึงการแนะนำการรักษา ทว่าการศึกษานี้ชี้ให้เห็นว่าวิธีการทดสอบในปัจจุบันไม่สามารถแยกแยะระหว่างความสามารถทางการแพทย์ที่แท้จริงกับอัลกอริทึมการทำข้อสอบที่ซับซ้อนได้
การศึกษาของ Microsoft Research พบว่าโมเดลอย่าง GPT-5 มีความแม่นยำถึง 80.89% ในการทดสอบด้านภาพทางการแพทย์ แต่ลดลงเหลือ 67.56% เมื่อไม่มีภาพ การลดลง 13.33 เปอร์เซ็นต์นี้เผยให้เห็นการพึ่งพาเบาะแสที่ไม่ใช่ภาพซึ่งซ่อนอยู่ ที่น่ากังวลยิ่งกว่านั้นคือ เมื่อนักวิจัยแทนที่ภาพทางการแพทย์ด้วยภาพที่สนับสนุนการวินิจฉัยโรคอื่น ความแม่นยำของโมเดลก็ลดลงมากกว่าสามสิบเปอร์เซ็นต์ แม้ว่าคำถามที่เป็นข้อความจะไม่มีการเปลี่ยนแปลงใดๆ
ลองนึกภาพสถานการณ์นี้ ระบบ AI ได้คะแนน 95% ในการทดสอบวินิจฉัยโรคและถูกนำไปใช้ในห้องฉุกเฉินเพื่อช่วยให้แพทย์ประเมินผู้ป่วยได้อย่างรวดเร็ว แต่ถ้าระบบนั้นได้คะแนนสูงมาจากการใช้เทคนิคทำข้อสอบแทนที่จะเป็นความเข้าใจทางการแพทย์ มันอาจมองข้ามอาการที่สำคัญหรือแนะนำการรักษาที่ไม่เหมาะสมเมื่อต้องเผชิญกับผู้ป่วยจริงที่มีอาการไม่ตรงกับรูปแบบที่มันเรียนรู้มาจากคำถามในข้อสอบ
ตลาด AI ทางการแพทย์คาดว่าจะมีมูลค่าเกิน 1 แสนล้านดอลลาร์ภายในปี 2030 โดยระบบสาธารณสุขทั่วโลกกำลังลงทุนอย่างมหาศาลในเครื่องมือวินิจฉัยโรคด้วย AI องค์กรด้านการดูแลสุขภาพที่จัดซื้อระบบ AI โดยดูจากคะแนนมาตรฐานที่น่าประทับใจ อาจกำลังนำความเสี่ยงด้านความปลอดภัยของผู้ป่วยเข้ามาโดยไม่รู้ตัว นักวิจัยของ Microsoft เตือนว่า 'คะแนนมาตรฐานทางการแพทย์ไม่ได้สะท้อนถึงความพร้อมในการใช้งานจริงโดยตรง'
ผลกระทบนั้นไปไกลกว่าแค่คะแนนสอบ การศึกษาของ Microsoft เผยว่าเมื่อโมเดล AI ถูกขอให้อธิบายเหตุผลทางการแพทย์ พวกมันมักจะสร้าง 'เหตุผลที่ฟังดูน่าเชื่อถือแต่มีข้อบกพร่อง' หรือให้ 'คำตอบที่ถูกต้องซึ่งสนับสนุนโดยเหตุผลที่ถูกสร้างขึ้นมา' ตัวอย่างหนึ่งแสดงให้เห็นว่าโมเดลวินิจฉัยโรค Dermatomyositis (โรคกล้ามเนื้อและผิวหนังอักเสบ) ได้อย่างถูกต้อง พร้อมทั้งอธิบายลักษณะทางภาพที่ไม่มีอยู่จริงในภาพนั้น เนื่องจากไม่มีภาพใดๆ ให้ดูเลย
แตกต่างจากนักศึกษาแพทย์ที่เป็นมนุษย์ซึ่งเรียนรู้โดยการทำความเข้าใจว่าโรคต่างๆ ส่งผลกระทบต่อร่างกายมนุษย์อย่างไร ระบบ AI ในปัจจุบันเรียนรู้โดยการค้นหารูปแบบในข้อมูล สิ่งนี้สร้างสิ่งที่นักวิจัยของ Microsoft เรียกว่า 'การเรียนรู้ทางลัด' (shortcut learning) ซึ่งคือการค้นหาเส้นทางที่ง่ายที่สุดเพื่อให้ได้คำตอบที่ถูกต้องโดยไม่มีการพัฒนาความเข้าใจที่แท้จริง
การศึกษาพบว่าโมเดล AI 'อาจวินิจฉัยโรคปอดบวมไม่ใช่โดยการตีความลักษณะทางรังสีวิทยา แต่โดยการเรียนรู้ว่า ‘อาการไอมีเสมหะ + มีไข้’ มีความสัมพันธ์ทางสถิติกับการเกิดโรคปอดบวมในข้อมูลที่ใช้ฝึกฝน' นี่คือการจับคู่รูปแบบ 'ไม่ใช่ความเข้าใจทางการแพทย์'
นักวิจัยของ Microsoft สนับสนุนให้มีการทบทวนวิธีการทดสอบระบบ AI ทางการแพทย์ใหม่ แทนที่จะพึ่งพาคะแนนมาตรฐาน เราต้องการวิธีการประเมินที่สามารถตรวจจับได้ว่าเมื่อใดที่ระบบ AI กำลังเล่นกับข้อสอบแทนที่จะเรียนรู้เรื่องการแพทย์
อุตสาหกรรม AI ทางการแพทย์กำลังเผชิญกับช่วงเวลาที่สำคัญ ผลการวิจัยของ Microsoft Research เผยให้เห็นว่าคะแนนมาตรฐานที่น่าประทับใจได้สร้างภาพลวงตาของความพร้อมที่อาจส่งผลกระทบร้ายแรงต่อความปลอดภัยของผู้ป่วย ในขณะที่ AI ยังคงขยายตัวเข้าสู่แวดวงการดูแลสุขภาพ วิธีการตรวจสอบระบบเหล่านี้ของเราก็ต้องพัฒนาให้ทันกับความซับซ้อนของมัน และทันต่อศักยภาพที่จะเกิดความล้มเหลวที่ซับซ้อนได้เช่นกัน
ที่มา: Forbes
ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด