
ทีมนักจิตวิทยาและผู้เชี่ยวชาญด้าน AI จาก University of Cambridge เพิ่งทดสอบโมเดล Generative AI ระดับท็อปของตลาดด้วยเรียงความระดับปริญญาตรีกว่า 750 ชิ้น แล้วพบว่า AI ให้เกรดตรงกับอาจารย์มนุษย์ได้แค่ราว ๆ ครึ่งเดียวเท่านั้น แถมยังพลาดในส่วนที่สำคัญที่สุดของการประเมินผล นั่นคือเรียงความที่ดีที่สุดและแย่ที่สุด
งานนี้น่าสนใจเพราะมหาวิทยาลัยทั่วโลกกำลังเจอแรงกดดันให้ลดภาระงานอาจารย์และเร่งความเร็วในการให้ feedback นักศึกษา การหันไปพึ่ง AI ตรวจงานจึงดูเหมือนทางออกที่น่าดึงดูด แต่ผลการศึกษาล่าสุดในรายงานชื่อ "AI in University Assessment: Evaluating the Opportunities and Risks of Automated Marking" บอกชัดว่า AI ที่เก่งที่สุดในวันนี้ก็ยังไม่พร้อมจะแทนที่ดวงตาของอาจารย์ที่ตรวจงานนักศึกษา
ทีมวิจัยภายใต้โปรเจกต์ OpRaise ที่นำโดย Dr. Deborah Talmi นักจิตวิทยาจาก Cambridge เลือกใช้เรียงความระดับปริญญาตรีสาขาจิตวิทยา 761 ชิ้นจากนักศึกษา 125 คน ที่ส่งงานในช่วงปี 2022 ถึง 2025 จากสามมหาวิทยาลัยใน UK ได้แก่ Cambridge, Manchester Metropolitan และ Nottingham
เหตุผลที่เลือกสาขาจิตวิทยาเพราะเรียงความคือหัวใจสำคัญของการให้เกรดในวิชานี้ และเป็นสนามทดสอบที่ดีสำหรับ AI Talmi อธิบายว่า "Academic psychology เน้นการสังเคราะห์หลักฐานและการตัดสินเชิงวิพากษ์ มากกว่าการมีคำตอบเดียวที่ถูกต้อง" ซึ่งทำให้เป็นกรณีทดสอบที่ใกล้เคียงกับงานที่มนุษย์ตรวจจริง ๆ มากที่สุด
โมเดล AI ที่ใช้คือระบบ Frontier สามตัว รวมถึงเวอร์ชันล่าสุด ณ เดือนเมษายน 2026 ของ Claude และ ChatGPT ทีมงานป้อนเรียงความเดียวกันให้ AI ตรวจหลายครั้งในช่วงเวลาต่างกัน เพื่อทดสอบความสม่ำเสมอ ผลคือ AI ให้คะแนนใกล้เคียงกันทุกรอบ แต่ที่น่าสนใจกว่าคือ AI แต่ละโมเดล "ให้คะแนนใกล้เคียงกันเอง" มากกว่าจะใกล้เคียงกับเกรดที่มนุษย์ให้
ในระบบเกรดของมหาวิทยาลัย UK ที่แบ่งเป็นห้าระดับ ได้แก่ First, 2:1, 2:2, Third และ Fail
AI สามารถจับคู่เกรดได้ถูกต้องราว 63% สำหรับเรียงความของ Cambridge, 53% สำหรับ Nottingham และเพียง 35% สำหรับ Manchester Metropolitan
ตัวเลขที่ต่างกันระหว่างสามมหาวิทยาลัยไม่ใช่เรื่องบังเอิญ ทีมวิจัยมองว่ามาจากช่วงเกรดที่กว้างต่างกัน เรียงความของ Cambridge ทั้งหมดเขียนในห้องสอบที่มีผู้คุม ทำให้ช่วงเกรดแคบที่สุด ในขณะที่ Manchester Metropolitan เป็นเรียงความแบบ coursework ทั้งหมด ช่วงเกรดจึงกว้างที่สุด
ปัญหาที่ลึกกว่านั้นคือ AI มีสิ่งที่ทีมวิจัยเรียกว่า 'Central Tendency Bias' หรือแนวโน้มที่จะให้คะแนนแบบกลาง ๆ กับทุกชิ้นงาน เรียงความที่อาจารย์มนุษย์ให้ 75 คะแนน (First ที่แข็งแรง) AI จะให้ต่ำกว่าหลายคะแนน ในขณะที่เรียงความที่มนุษย์ให้ 50 คะแนน (2:2 ระดับล่าง) AI จะให้สูงกว่าหลายคะแนน จุดที่ AI กับมนุษย์เห็นตรงกันมากที่สุดอยู่ในช่วง 2:1 ระดับล่าง คือกลาง ๆ ของการกระจายเกรดพอดี
Dr. Alexandru Marcoci ผู้ร่วมวิจัยจาก Institute for Technology and Humanity ของ Cambridge ชี้ว่า
"AI ให้คะแนนกลาง ๆ กับทุกชิ้นงาน ส่งผลให้ตรวจงานที่ดีที่สุดและแย่ที่สุดได้ไม่แม่นยำเป็นพิเศษ ผลกระทบในทางปฏิบัติคือ AI แม่นน้อยที่สุดในจุดที่การตัดสินสำคัญที่สุด นั่นคือเส้นแบ่งระหว่าง First กับ Upper Second หรือระหว่าง Pass กับ Fail"
จุดอ่อนใหญ่อีกข้อคือ AI ทุกระบบที่ทดสอบไวเกินไปกับลักษณะทางภาษา ไม่ว่าจะเป็นความยาวของเรียงความ ความหลากหลายของคำศัพท์ หรือความซับซ้อนของประโยค ระบบมีแนวโน้มจะให้คะแนนสูงกับเรียงความที่มีภาษาดูดี ถึงแม้คุณภาพทางวิชาการจะไม่ได้สูงตามไปด้วย
นี่คือจุดที่ทำให้ทีมวิจัยกังวลมากที่สุด เพราะการให้เกรดในระดับอุดมศึกษาควรวัดที่การให้เหตุผลและการตัดสินเชิงวิชาการ ไม่ใช่ความสวยของภาษา Talmi เตือนว่า
"ถ้าพึ่ง AI หนัก ๆ ในการตรวจงาน เราจะได้ระบบการให้เกรดที่เรียบเสมอกันไปหมด ประเมินความยอดเยี่ยมต่ำไป และให้รางวัลกับสไตล์ภาษามากกว่าเนื้อหาของการตัดสินเชิงวิชาการที่แท้จริง"
นอกจากให้คะแนน ทีมวิจัยยังขอให้ AI เขียน feedback ให้นักศึกษาด้วย และผลที่ได้คือ AI เขียนยาวกว่ามนุษย์ระหว่าง 3 ถึง 8 เท่า
ที่น่าสนใจคือเมื่อบังคับให้ AI เขียน feedback ในความยาวพอ ๆ กับที่มนุษย์เขียน ผลโฟกัสกรุ๊ปของอาจารย์และนักศึกษากลับแยกไม่ออกว่าอันไหนเขียนโดยมนุษย์ อันไหนเขียนโดย AI แต่เมื่อเปิดเผยว่าใครเป็นคนเขียน ทุกคนกลับไม่ได้ชอบ Feedback ของ AI เท่าไหร่นัก
Dr. Yael Benn ผู้ร่วมวิจัยจาก Manchester Metropolitan University เล่าว่านักศึกษาหลายคนบอกว่าจะรู้สึกถูกโกง ถ้ารู้ว่างานของตัวเองถูก AI ตรวจ ส่วนอาจารย์ก็เตือนว่าการพึ่ง AI จะทำลายความไว้ใจ แรงจูงใจ การตัดสินเชิงวิชาชีพ และการมีปฏิสัมพันธ์แบบมนุษย์ที่เป็นหัวใจของการศึกษาระดับสูง
ทีมวิจัยไม่ได้บอกว่า AI ไร้ประโยชน์ในการประเมินผล แต่เสนอให้ใช้ในบทบาทเสริมแทน เช่น การตรวจหา error การเช็คความสม่ำเสมอของการให้เกรด หรือทำหน้าที่เป็นดวงตาคู่ที่สองที่ช่วยให้อาจารย์เห็นจุดที่ควรกลับมาตรวจซ้ำ
ตัวอย่างที่ทีมวิจัยยกขึ้นมาคือ ถ้าคะแนนของ AI ต่างกับมนุษย์มาก งานนั้นอาจถูก Flag ขึ้นมาให้อาจารย์ตรวจอีกครั้ง ส่วนการ triage feedback หรือร่าง feedback เบื้องต้นให้นักศึกษา ก็เป็นอีกพื้นที่ที่ AI ช่วยลดภาระอาจารย์ได้
แต่สิ่งที่ทีมวิจัยย้ำหนักแน่นคือ มนุษย์ต้องเป็นคนตัดสินคะแนนสุดท้ายเสมอ Talmi ปิดท้ายไว้น่าสนใจว่า "การประเมินผลไม่ใช่แค่ระบบกระจายคะแนน แต่เป็นส่วนหนึ่งของการสร้างความหมายทางการศึกษา เพื่อให้นักศึกษารู้สึกว่ามีคนเห็นตัวเขา มาตรฐานถูกรักษา และความไว้ใจยังอยู่ การใช้ AI ในการประเมินผลเสี่ยงต่อคุณค่าเหล่านี้"
ที่มา: Phys.org
ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด