งานวิจัย Cambridge ชี้ AI ยังตรวจข้อสอบเรียงความไม่ได้! เทคะแนนให้เด็กที่เขียนร่ายยาวน้ำท่วมทุ่ง แต่กดคะแนนเด็กที่เขียนเน้นเนื้อหา

ทีมนักจิตวิทยาและผู้เชี่ยวชาญด้าน AI จาก University of Cambridge เพิ่งทดสอบโมเดล Generative AI ระดับท็อปของตลาดด้วยเรียงความระดับปริญญาตรีกว่า 750 ชิ้น แล้วพบว่า AI ให้เกรดตรงกับอาจารย์มนุษย์ได้แค่ราว ๆ ครึ่งเดียวเท่านั้น แถมยังพลาดในส่วนที่สำคัญที่สุดของการประเมินผล นั่นคือเรียงความที่ดีที่สุดและแย่ที่สุด

งานนี้น่าสนใจเพราะมหาวิทยาลัยทั่วโลกกำลังเจอแรงกดดันให้ลดภาระงานอาจารย์และเร่งความเร็วในการให้ feedback นักศึกษา การหันไปพึ่ง AI ตรวจงานจึงดูเหมือนทางออกที่น่าดึงดูด แต่ผลการศึกษาล่าสุดในรายงานชื่อ "AI in University Assessment: Evaluating the Opportunities and Risks of Automated Marking" บอกชัดว่า AI ที่เก่งที่สุดในวันนี้ก็ยังไม่พร้อมจะแทนที่ดวงตาของอาจารย์ที่ตรวจงานนักศึกษา

เรียงความ 761 ชิ้น จาก 3 มหาวิทยาลัย UK

ทีมวิจัยภายใต้โปรเจกต์ OpRaise ที่นำโดย Dr. Deborah Talmi นักจิตวิทยาจาก Cambridge เลือกใช้เรียงความระดับปริญญาตรีสาขาจิตวิทยา 761 ชิ้นจากนักศึกษา 125 คน ที่ส่งงานในช่วงปี 2022 ถึง 2025 จากสามมหาวิทยาลัยใน UK ได้แก่ Cambridge, Manchester Metropolitan และ Nottingham

เหตุผลที่เลือกสาขาจิตวิทยาเพราะเรียงความคือหัวใจสำคัญของการให้เกรดในวิชานี้ และเป็นสนามทดสอบที่ดีสำหรับ AI Talmi อธิบายว่า "Academic psychology เน้นการสังเคราะห์หลักฐานและการตัดสินเชิงวิพากษ์ มากกว่าการมีคำตอบเดียวที่ถูกต้อง" ซึ่งทำให้เป็นกรณีทดสอบที่ใกล้เคียงกับงานที่มนุษย์ตรวจจริง ๆ มากที่สุด

โมเดล AI ที่ใช้คือระบบ Frontier สามตัว รวมถึงเวอร์ชันล่าสุด ณ เดือนเมษายน 2026 ของ Claude และ ChatGPT ทีมงานป้อนเรียงความเดียวกันให้ AI ตรวจหลายครั้งในช่วงเวลาต่างกัน เพื่อทดสอบความสม่ำเสมอ ผลคือ AI ให้คะแนนใกล้เคียงกันทุกรอบ แต่ที่น่าสนใจกว่าคือ AI แต่ละโมเดล "ให้คะแนนใกล้เคียงกันเอง" มากกว่าจะใกล้เคียงกับเกรดที่มนุษย์ให้

พลาดตรงจุดที่สำคัญที่สุด เกรดสูงและต่ำ

ในระบบเกรดของมหาวิทยาลัย UK ที่แบ่งเป็นห้าระดับ ได้แก่ First, 2:1, 2:2, Third และ Fail 

AI สามารถจับคู่เกรดได้ถูกต้องราว 63% สำหรับเรียงความของ Cambridge, 53% สำหรับ Nottingham และเพียง 35% สำหรับ Manchester Metropolitan

ตัวเลขที่ต่างกันระหว่างสามมหาวิทยาลัยไม่ใช่เรื่องบังเอิญ ทีมวิจัยมองว่ามาจากช่วงเกรดที่กว้างต่างกัน เรียงความของ Cambridge ทั้งหมดเขียนในห้องสอบที่มีผู้คุม ทำให้ช่วงเกรดแคบที่สุด ในขณะที่ Manchester Metropolitan เป็นเรียงความแบบ coursework ทั้งหมด ช่วงเกรดจึงกว้างที่สุด

ปัญหาที่ลึกกว่านั้นคือ AI มีสิ่งที่ทีมวิจัยเรียกว่า 'Central Tendency Bias' หรือแนวโน้มที่จะให้คะแนนแบบกลาง ๆ กับทุกชิ้นงาน เรียงความที่อาจารย์มนุษย์ให้ 75 คะแนน (First ที่แข็งแรง) AI จะให้ต่ำกว่าหลายคะแนน ในขณะที่เรียงความที่มนุษย์ให้ 50 คะแนน (2:2 ระดับล่าง) AI จะให้สูงกว่าหลายคะแนน จุดที่ AI กับมนุษย์เห็นตรงกันมากที่สุดอยู่ในช่วง 2:1 ระดับล่าง คือกลาง ๆ ของการกระจายเกรดพอดี

Dr. Alexandru Marcoci ผู้ร่วมวิจัยจาก Institute for Technology and Humanity ของ Cambridge ชี้ว่า 

"AI ให้คะแนนกลาง ๆ กับทุกชิ้นงาน ส่งผลให้ตรวจงานที่ดีที่สุดและแย่ที่สุดได้ไม่แม่นยำเป็นพิเศษ ผลกระทบในทางปฏิบัติคือ AI แม่นน้อยที่สุดในจุดที่การตัดสินสำคัญที่สุด นั่นคือเส้นแบ่งระหว่าง First กับ Upper Second หรือระหว่าง Pass กับ Fail"

AI ติดสไตล์มากกว่าเนื้อหา

จุดอ่อนใหญ่อีกข้อคือ AI ทุกระบบที่ทดสอบไวเกินไปกับลักษณะทางภาษา ไม่ว่าจะเป็นความยาวของเรียงความ ความหลากหลายของคำศัพท์ หรือความซับซ้อนของประโยค ระบบมีแนวโน้มจะให้คะแนนสูงกับเรียงความที่มีภาษาดูดี ถึงแม้คุณภาพทางวิชาการจะไม่ได้สูงตามไปด้วย

นี่คือจุดที่ทำให้ทีมวิจัยกังวลมากที่สุด เพราะการให้เกรดในระดับอุดมศึกษาควรวัดที่การให้เหตุผลและการตัดสินเชิงวิชาการ ไม่ใช่ความสวยของภาษา Talmi เตือนว่า 

"ถ้าพึ่ง AI หนัก ๆ ในการตรวจงาน เราจะได้ระบบการให้เกรดที่เรียบเสมอกันไปหมด ประเมินความยอดเยี่ยมต่ำไป และให้รางวัลกับสไตล์ภาษามากกว่าเนื้อหาของการตัดสินเชิงวิชาการที่แท้จริง"

Feedback ที่ยาวเป็นหางว่าว แต่บอกไม่ได้ว่าใครเขียน

นอกจากให้คะแนน ทีมวิจัยยังขอให้ AI เขียน feedback ให้นักศึกษาด้วย และผลที่ได้คือ AI เขียนยาวกว่ามนุษย์ระหว่าง 3 ถึง 8 เท่า

ที่น่าสนใจคือเมื่อบังคับให้ AI เขียน feedback ในความยาวพอ ๆ กับที่มนุษย์เขียน ผลโฟกัสกรุ๊ปของอาจารย์และนักศึกษากลับแยกไม่ออกว่าอันไหนเขียนโดยมนุษย์ อันไหนเขียนโดย AI แต่เมื่อเปิดเผยว่าใครเป็นคนเขียน ทุกคนกลับไม่ได้ชอบ Feedback ของ AI เท่าไหร่นัก

Dr. Yael Benn ผู้ร่วมวิจัยจาก Manchester Metropolitan University เล่าว่านักศึกษาหลายคนบอกว่าจะรู้สึกถูกโกง ถ้ารู้ว่างานของตัวเองถูก AI ตรวจ ส่วนอาจารย์ก็เตือนว่าการพึ่ง AI จะทำลายความไว้ใจ แรงจูงใจ การตัดสินเชิงวิชาชีพ และการมีปฏิสัมพันธ์แบบมนุษย์ที่เป็นหัวใจของการศึกษาระดับสูง

AI ในฐานะดวงตาคู่ที่สองไม่ใช่ผู้ตัดสิน

ทีมวิจัยไม่ได้บอกว่า AI ไร้ประโยชน์ในการประเมินผล แต่เสนอให้ใช้ในบทบาทเสริมแทน เช่น การตรวจหา error การเช็คความสม่ำเสมอของการให้เกรด หรือทำหน้าที่เป็นดวงตาคู่ที่สองที่ช่วยให้อาจารย์เห็นจุดที่ควรกลับมาตรวจซ้ำ

ตัวอย่างที่ทีมวิจัยยกขึ้นมาคือ ถ้าคะแนนของ AI ต่างกับมนุษย์มาก งานนั้นอาจถูก Flag ขึ้นมาให้อาจารย์ตรวจอีกครั้ง ส่วนการ triage feedback หรือร่าง feedback เบื้องต้นให้นักศึกษา ก็เป็นอีกพื้นที่ที่ AI ช่วยลดภาระอาจารย์ได้

แต่สิ่งที่ทีมวิจัยย้ำหนักแน่นคือ มนุษย์ต้องเป็นคนตัดสินคะแนนสุดท้ายเสมอ Talmi ปิดท้ายไว้น่าสนใจว่า "การประเมินผลไม่ใช่แค่ระบบกระจายคะแนน แต่เป็นส่วนหนึ่งของการสร้างความหมายทางการศึกษา เพื่อให้นักศึกษารู้สึกว่ามีคนเห็นตัวเขา มาตรฐานถูกรักษา และความไว้ใจยังอยู่ การใช้ AI ในการประเมินผลเสี่ยงต่อคุณค่าเหล่านี้"

ที่มา: Phys.org

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

OpenAI เปิดตัว LifeSciBench ชุดทดสอบ AI 750 โจทย์วิจัยชีววิทยาระดับผู้เชี่ยวชาญ ที่แม้แต่โมเดลเก่งสุดยังสอบผ่านแค่ 36%

OpenAI เปิดตัว LifeSciBench ชุดทดสอบ AI 750 โจทย์วิจัยชีววิทยาระดับผู้เชี่ยวชาญ เขียนโดยนักวิทยาศาสตร์ 173 คน ผลทดสอบพบ GPT-Rosalind นำทุกโมเดลแต่สอบผ่านเพียง 36.1% สะท้อนว่า AI ยั...

Responsive image

รู้จัก ‘Loop Engineering’ เลิกพิมพ์สั่ง AI ทีละคำ เปลี่ยนมาออกแบบลูปให้ AI ทำงานเองจนจบ

Loop Engineering คือเทรนด์ใหม่ที่เปลี่ยนวิธีใช้ AI จากการพิมพ์สั่งทีละคำ มาเป็นการออกแบบลูปให้ AI ทำงานเองจนจบ พร้อมห้าหลักการออกแบบลูป และบทเรียนบิลค่า AI ที่พุ่งทะลุเพดานเมื่อลูป...

Responsive image

Microsoft Copilot Cowork เปิดให้ใช้งานเต็มระบบทั่วโลกแล้ว เอเจนต์ AI ที่รับงานยาว ๆ ทำเองจนจบ

Microsoft เปิด Copilot Cowork ให้ใช้ทั่วโลก เอเจนต์ AI ที่รับงานซับซ้อนยาว ๆ ทำเองจนจบ Fortune 500 กว่าครึ่งใช้แล้ว รันบนโมเดล Anthropic คิดเงินตามการใช้จริงในหน่วยเครดิต Copilot พ...