วิจัย Microsoft เผย AI ใช้วิธีลัด ‘โกงข้อสอบแพทย์’ สั่นคลอนความปลอดภัยของผู้ป่วย

AI ที่ล้ำหน้าที่สุดในโลกกำลังใช้วิธีลัดโกงข้อสอบทางการแพทย์เพื่อให้ได้คะแนนที่น่าประทับใจ ซึ่งไม่ได้มาจากความรู้ทางการแพทย์ที่แท้จริง แต่มาจากการใช้ประโยชน์จากช่องโหว่ในการออกแบบข้อสอบ การค้นพบนี้ส่งผลกระทบอย่างมหาศาลต่ออุตสาหกรรม AI ทางการแพทย์ และอาจหมายถึงความปลอดภัยของผู้ป่วยทุกคนที่ต้องพึ่งพาเทคโนโลยีนี้

ปัญหาการโกงข้อสอบของ AI ทางการแพทย์

ลองนึกภาพว่าเกณฑ์มาตรฐานของ AI ทางการแพทย์ก็เหมือนกับการสอบวัดระดับมาตรฐานที่ใช้วัดว่าระบบปัญญาประดิษฐ์เข้าใจเรื่องการแพทย์ได้ดีเพียงใด เช่นเดียวกับที่นักเรียนต้องสอบ SAT เพื่อพิสูจน์ว่าพร้อมสำหรับมหาวิทยาลัย ระบบ AI ก็ต้องผ่านเกณฑ์มาตรฐานทางการแพทย์เหล่านี้เพื่อแสดงให้เห็นว่าพร้อมที่จะช่วยแพทย์วินิจฉัยโรคและแนะนำการรักษา

แต่งานวิจัยชิ้นสำคัญล่าสุดที่ตีพิมพ์โดย Microsoft Research เผยว่าระบบ AI เหล่านี้ไม่ได้เรียนรู้เรื่องการแพทย์จริงๆ พวกมันแค่ 'เก่งขึ้นในการทำข้อสอบ' เท่านั้น มันเหมือนกับการค้นพบว่านักเรียนคนหนึ่งได้คะแนน SAT เต็ม ไม่ใช่เพราะเข้าใจคณิตศาสตร์และการอ่าน แต่เพราะจำได้ว่าตัวเลือกคำตอบใดมักจะถูกต้องบ่อยที่สุด

นักวิจัยได้นำโมเดล AI ชั้นนำ 6 ตัวมาทดสอบอย่างเข้มข้น (Stress Test) และพบว่าระบบเหล่านี้ได้คะแนนทางการแพทย์สูงผ่านเทคนิคการทำข้อสอบอันซับซ้อน แทนที่จะเป็นความเข้าใจทางการแพทย์ที่แท้จริง

AI โกงระบบได้อย่างไร?

ทีมวิจัยค้นพบหลายวิธีที่ระบบ AI แสร้งทำเป็นว่ามีความสามารถทางการแพทย์ โดยใช้วิธีการที่หากเป็นนักศึกษาที่เป็นมนุษย์ทำคงถูกไล่ออกอย่างแน่นอน:

  • เรียนรู้จากตำแหน่งไม่ใช่เนื้อหา เมื่อนักวิจัยเพียงแค่สลับลำดับของคำตอบในข้อสอบแบบปรนัย เช่น ย้ายตัวเลือก ก. ไปเป็น ค. ประสิทธิภาพของ AI ก็ลดลงอย่างมีนัยสำคัญ นี่หมายความว่าระบบกำลังเรียนรู้ว่า 'คำตอบมักจะอยู่ที่ตำแหน่ง ข.' แทนที่จะเรียนรู้ว่า 'โรคปอดบวมทำให้เกิดอาการเฉพาะเหล่านี้'
  • ตอบได้แม้ไม่มีรูปภาพ ในคำถามที่ต้องวิเคราะห์ภาพทางการแพทย์ เช่น ภาพเอ็กซเรย์หรือ MRI ระบบ AI ยังคงให้คำตอบที่ถูกต้องได้แม้ว่าภาพเหล่านั้นจะถูกลบออกไปทั้งหมด ตัวอย่างเช่น GPT-5 ยังคงความแม่นยำได้ถึง 37.7% ในคำถามที่ต้องใช้ภาพ ทั้งๆ ที่ไม่มีภาพให้ดู ซึ่งสูงกว่าระดับการเดาสุ่มที่ 20% อย่างมาก
  • ใช้ตัวลวงเป็นเบาะแส ระบบ AI ค้นพบวิธีใช้เบาะแสจากตัวเลือกคำตอบที่ผิดเพื่อเดาคำตอบที่ถูกต้อง แทนที่จะใช้ความรู้ทางการแพทย์ที่แท้จริง นักวิจัยพบว่าโมเดลเหล่านี้พึ่งพาการใช้คำในตัวเลือกที่ไม่ถูกต้อง หรือที่เรียกว่า 'ตัวลวง' (distractors) อย่างมาก เมื่อตัวลวงเหล่านั้นถูกแทนที่ด้วยคำที่ไม่เกี่ยวข้องกับการแพทย์ ความแม่นยำของ AI ก็ลดลงฮวบฮาบ สิ่งนี้เผยให้เห็นว่ามันอาศัยเทคนิคการทำข้อสอบแทนที่จะเป็นความเข้าใจที่แท้จริง

เมื่อสุขภาพของคุณขึ้นอยู่กับ AI

งานวิจัยนี้เกิดขึ้นในช่วงเวลาที่ AI กำลังขยายตัวเข้าสู่แวดวงการดูแลสุขภาพอย่างรวดเร็ว โรงพยาบาลถึง 80% ในปัจจุบันใช้ AI เพื่อปรับปรุงการดูแลผู้ป่วยและประสิทธิภาพการดำเนินงาน โดยแพทย์พึ่งพา AI มากขึ้นในทุกด้าน ตั้งแต่การอ่านผลเอ็กซเรย์ไปจนถึงการแนะนำการรักษา ทว่าการศึกษานี้ชี้ให้เห็นว่าวิธีการทดสอบในปัจจุบันไม่สามารถแยกแยะระหว่างความสามารถทางการแพทย์ที่แท้จริงกับอัลกอริทึมการทำข้อสอบที่ซับซ้อนได้

การศึกษาของ Microsoft Research พบว่าโมเดลอย่าง GPT-5 มีความแม่นยำถึง 80.89% ในการทดสอบด้านภาพทางการแพทย์ แต่ลดลงเหลือ 67.56% เมื่อไม่มีภาพ การลดลง 13.33 เปอร์เซ็นต์นี้เผยให้เห็นการพึ่งพาเบาะแสที่ไม่ใช่ภาพซึ่งซ่อนอยู่ ที่น่ากังวลยิ่งกว่านั้นคือ เมื่อนักวิจัยแทนที่ภาพทางการแพทย์ด้วยภาพที่สนับสนุนการวินิจฉัยโรคอื่น ความแม่นยำของโมเดลก็ลดลงมากกว่าสามสิบเปอร์เซ็นต์ แม้ว่าคำถามที่เป็นข้อความจะไม่มีการเปลี่ยนแปลงใดๆ

ลองนึกภาพสถานการณ์นี้ ระบบ AI ได้คะแนน 95% ในการทดสอบวินิจฉัยโรคและถูกนำไปใช้ในห้องฉุกเฉินเพื่อช่วยให้แพทย์ประเมินผู้ป่วยได้อย่างรวดเร็ว แต่ถ้าระบบนั้นได้คะแนนสูงมาจากการใช้เทคนิคทำข้อสอบแทนที่จะเป็นความเข้าใจทางการแพทย์ มันอาจมองข้ามอาการที่สำคัญหรือแนะนำการรักษาที่ไม่เหมาะสมเมื่อต้องเผชิญกับผู้ป่วยจริงที่มีอาการไม่ตรงกับรูปแบบที่มันเรียนรู้มาจากคำถามในข้อสอบ

ตลาด AI ทางการแพทย์คาดว่าจะมีมูลค่าเกิน 1 แสนล้านดอลลาร์ภายในปี 2030 โดยระบบสาธารณสุขทั่วโลกกำลังลงทุนอย่างมหาศาลในเครื่องมือวินิจฉัยโรคด้วย AI องค์กรด้านการดูแลสุขภาพที่จัดซื้อระบบ AI โดยดูจากคะแนนมาตรฐานที่น่าประทับใจ อาจกำลังนำความเสี่ยงด้านความปลอดภัยของผู้ป่วยเข้ามาโดยไม่รู้ตัว นักวิจัยของ Microsoft เตือนว่า 'คะแนนมาตรฐานทางการแพทย์ไม่ได้สะท้อนถึงความพร้อมในการใช้งานจริงโดยตรง'

ผลกระทบนั้นไปไกลกว่าแค่คะแนนสอบ การศึกษาของ Microsoft เผยว่าเมื่อโมเดล AI ถูกขอให้อธิบายเหตุผลทางการแพทย์ พวกมันมักจะสร้าง 'เหตุผลที่ฟังดูน่าเชื่อถือแต่มีข้อบกพร่อง' หรือให้ 'คำตอบที่ถูกต้องซึ่งสนับสนุนโดยเหตุผลที่ถูกสร้างขึ้นมา' ตัวอย่างหนึ่งแสดงให้เห็นว่าโมเดลวินิจฉัยโรค Dermatomyositis (โรคกล้ามเนื้อและผิวหนังอักเสบ) ได้อย่างถูกต้อง พร้อมทั้งอธิบายลักษณะทางภาพที่ไม่มีอยู่จริงในภาพนั้น เนื่องจากไม่มีภาพใดๆ ให้ดูเลย

ปัญหาการจดจำรูปแบบของ AI

แตกต่างจากนักศึกษาแพทย์ที่เป็นมนุษย์ซึ่งเรียนรู้โดยการทำความเข้าใจว่าโรคต่างๆ ส่งผลกระทบต่อร่างกายมนุษย์อย่างไร ระบบ AI ในปัจจุบันเรียนรู้โดยการค้นหารูปแบบในข้อมูล สิ่งนี้สร้างสิ่งที่นักวิจัยของ Microsoft เรียกว่า 'การเรียนรู้ทางลัด' (shortcut learning) ซึ่งคือการค้นหาเส้นทางที่ง่ายที่สุดเพื่อให้ได้คำตอบที่ถูกต้องโดยไม่มีการพัฒนาความเข้าใจที่แท้จริง

การศึกษาพบว่าโมเดล AI 'อาจวินิจฉัยโรคปอดบวมไม่ใช่โดยการตีความลักษณะทางรังสีวิทยา แต่โดยการเรียนรู้ว่า ‘อาการไอมีเสมหะ + มีไข้’ มีความสัมพันธ์ทางสถิติกับการเกิดโรคปอดบวมในข้อมูลที่ใช้ฝึกฝน' นี่คือการจับคู่รูปแบบ 'ไม่ใช่ความเข้าใจทางการแพทย์'

ก้าวต่อไปของ AI ทางการแพทย์

นักวิจัยของ Microsoft สนับสนุนให้มีการทบทวนวิธีการทดสอบระบบ AI ทางการแพทย์ใหม่ แทนที่จะพึ่งพาคะแนนมาตรฐาน เราต้องการวิธีการประเมินที่สามารถตรวจจับได้ว่าเมื่อใดที่ระบบ AI กำลังเล่นกับข้อสอบแทนที่จะเรียนรู้เรื่องการแพทย์

อุตสาหกรรม AI ทางการแพทย์กำลังเผชิญกับช่วงเวลาที่สำคัญ ผลการวิจัยของ Microsoft Research เผยให้เห็นว่าคะแนนมาตรฐานที่น่าประทับใจได้สร้างภาพลวงตาของความพร้อมที่อาจส่งผลกระทบร้ายแรงต่อความปลอดภัยของผู้ป่วย ในขณะที่ AI ยังคงขยายตัวเข้าสู่แวดวงการดูแลสุขภาพ วิธีการตรวจสอบระบบเหล่านี้ของเราก็ต้องพัฒนาให้ทันกับความซับซ้อนของมัน และทันต่อศักยภาพที่จะเกิดความล้มเหลวที่ซับซ้อนได้เช่นกัน

ที่มา: Forbes

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

คุยกับ LINE และทีมผู้ชนะ จาก LINE HACK 2025 เผยเบื้องหลังการปั้นไอเดียจาก Pain Point สู่นวัตกรรมด้วย AI+ LINE MINI App

หากพูดถึงเวที Hackathon ที่นักพัฒนาไทยเฝ้ารอ ชื่อของ LINE HACK ย่อมติดอยู่ในอันดับต้นๆ เสมอ และในปี 2025 งานก็ได้เดินทางมาถึงครั้งที่ 6 ด้วยรูปแบบและเป้าหมายใหม่...

Responsive image

2026 วิกฤตฟองสบู่ ‘ศัพท์ AI’ เมื่อเรากำลังเข้าสู่ยุคที่คนพูดเก่ง... อาจไม่ได้ทำงานเป็น

ปี 2026 ตลาดแรงงานเผชิญ AI Language Inflation เมื่อ JD และ Resume เต็มไปด้วย Buzzwords จนคนเก่งตัวจริงอาจหลุดระบบ และความเป็นมนุษย์กลายเป็นทักษะสำคัญที่สุด...

Responsive image

NVIDIA เปิดตัว Nemotron 3 ชุดโมเดล AI แบบเปิดรุ่นใหม่ ปูทางสู่ยุค Multi-Agent AI

NVIDIA ประกาศเปิดตัว NVIDIA Nemotron 3 ซึ่งเป็นชุดโมเดล AI แบบ Open Source พร้อมชุดข้อมูลและ Library ที่ออกแบบมาเพื่อขับเคลื่อน Agentic AI ที่มีประสิทธิภาพ และมีความเฉพาะทางสำหรับห...