งานวิจัย Cambridge ชี้ AI ยังตรวจข้อสอบเรียงความไม่ได้! เทคะแนนให้เด็กที่เขียนร่ายยาวน้ำท่วมทุ่ง แต่กดคะแนนเด็กที่เขียนเน้นเนื้อหา

ทีมนักจิตวิทยาและผู้เชี่ยวชาญด้าน AI จาก University of Cambridge เพิ่งทดสอบโมเดล Generative AI ระดับท็อปของตลาดด้วยเรียงความระดับปริญญาตรีกว่า 750 ชิ้น แล้วพบว่า AI ให้เกรดตรงกับอาจารย์มนุษย์ได้แค่ราว ๆ ครึ่งเดียวเท่านั้น แถมยังพลาดในส่วนที่สำคัญที่สุดของการประเมินผล นั่นคือเรียงความที่ดีที่สุดและแย่ที่สุด

งานนี้น่าสนใจเพราะมหาวิทยาลัยทั่วโลกกำลังเจอแรงกดดันให้ลดภาระงานอาจารย์และเร่งความเร็วในการให้ feedback นักศึกษา การหันไปพึ่ง AI ตรวจงานจึงดูเหมือนทางออกที่น่าดึงดูด แต่ผลการศึกษาล่าสุดในรายงานชื่อ "AI in University Assessment: Evaluating the Opportunities and Risks of Automated Marking" บอกชัดว่า AI ที่เก่งที่สุดในวันนี้ก็ยังไม่พร้อมจะแทนที่ดวงตาของอาจารย์ที่ตรวจงานนักศึกษา

เรียงความ 761 ชิ้น จาก 3 มหาวิทยาลัย UK

ทีมวิจัยภายใต้โปรเจกต์ OpRaise ที่นำโดย Dr. Deborah Talmi นักจิตวิทยาจาก Cambridge เลือกใช้เรียงความระดับปริญญาตรีสาขาจิตวิทยา 761 ชิ้นจากนักศึกษา 125 คน ที่ส่งงานในช่วงปี 2022 ถึง 2025 จากสามมหาวิทยาลัยใน UK ได้แก่ Cambridge, Manchester Metropolitan และ Nottingham

เหตุผลที่เลือกสาขาจิตวิทยาเพราะเรียงความคือหัวใจสำคัญของการให้เกรดในวิชานี้ และเป็นสนามทดสอบที่ดีสำหรับ AI Talmi อธิบายว่า "Academic psychology เน้นการสังเคราะห์หลักฐานและการตัดสินเชิงวิพากษ์ มากกว่าการมีคำตอบเดียวที่ถูกต้อง" ซึ่งทำให้เป็นกรณีทดสอบที่ใกล้เคียงกับงานที่มนุษย์ตรวจจริง ๆ มากที่สุด

โมเดล AI ที่ใช้คือระบบ Frontier สามตัว รวมถึงเวอร์ชันล่าสุด ณ เดือนเมษายน 2026 ของ Claude และ ChatGPT ทีมงานป้อนเรียงความเดียวกันให้ AI ตรวจหลายครั้งในช่วงเวลาต่างกัน เพื่อทดสอบความสม่ำเสมอ ผลคือ AI ให้คะแนนใกล้เคียงกันทุกรอบ แต่ที่น่าสนใจกว่าคือ AI แต่ละโมเดล "ให้คะแนนใกล้เคียงกันเอง" มากกว่าจะใกล้เคียงกับเกรดที่มนุษย์ให้

พลาดตรงจุดที่สำคัญที่สุด เกรดสูงและต่ำ

ในระบบเกรดของมหาวิทยาลัย UK ที่แบ่งเป็นห้าระดับ ได้แก่ First, 2:1, 2:2, Third และ Fail 

AI สามารถจับคู่เกรดได้ถูกต้องราว 63% สำหรับเรียงความของ Cambridge, 53% สำหรับ Nottingham และเพียง 35% สำหรับ Manchester Metropolitan

ตัวเลขที่ต่างกันระหว่างสามมหาวิทยาลัยไม่ใช่เรื่องบังเอิญ ทีมวิจัยมองว่ามาจากช่วงเกรดที่กว้างต่างกัน เรียงความของ Cambridge ทั้งหมดเขียนในห้องสอบที่มีผู้คุม ทำให้ช่วงเกรดแคบที่สุด ในขณะที่ Manchester Metropolitan เป็นเรียงความแบบ coursework ทั้งหมด ช่วงเกรดจึงกว้างที่สุด

ปัญหาที่ลึกกว่านั้นคือ AI มีสิ่งที่ทีมวิจัยเรียกว่า 'Central Tendency Bias' หรือแนวโน้มที่จะให้คะแนนแบบกลาง ๆ กับทุกชิ้นงาน เรียงความที่อาจารย์มนุษย์ให้ 75 คะแนน (First ที่แข็งแรง) AI จะให้ต่ำกว่าหลายคะแนน ในขณะที่เรียงความที่มนุษย์ให้ 50 คะแนน (2:2 ระดับล่าง) AI จะให้สูงกว่าหลายคะแนน จุดที่ AI กับมนุษย์เห็นตรงกันมากที่สุดอยู่ในช่วง 2:1 ระดับล่าง คือกลาง ๆ ของการกระจายเกรดพอดี

Dr. Alexandru Marcoci ผู้ร่วมวิจัยจาก Institute for Technology and Humanity ของ Cambridge ชี้ว่า 

"AI ให้คะแนนกลาง ๆ กับทุกชิ้นงาน ส่งผลให้ตรวจงานที่ดีที่สุดและแย่ที่สุดได้ไม่แม่นยำเป็นพิเศษ ผลกระทบในทางปฏิบัติคือ AI แม่นน้อยที่สุดในจุดที่การตัดสินสำคัญที่สุด นั่นคือเส้นแบ่งระหว่าง First กับ Upper Second หรือระหว่าง Pass กับ Fail"

AI ติดสไตล์มากกว่าเนื้อหา

จุดอ่อนใหญ่อีกข้อคือ AI ทุกระบบที่ทดสอบไวเกินไปกับลักษณะทางภาษา ไม่ว่าจะเป็นความยาวของเรียงความ ความหลากหลายของคำศัพท์ หรือความซับซ้อนของประโยค ระบบมีแนวโน้มจะให้คะแนนสูงกับเรียงความที่มีภาษาดูดี ถึงแม้คุณภาพทางวิชาการจะไม่ได้สูงตามไปด้วย

นี่คือจุดที่ทำให้ทีมวิจัยกังวลมากที่สุด เพราะการให้เกรดในระดับอุดมศึกษาควรวัดที่การให้เหตุผลและการตัดสินเชิงวิชาการ ไม่ใช่ความสวยของภาษา Talmi เตือนว่า 

"ถ้าพึ่ง AI หนัก ๆ ในการตรวจงาน เราจะได้ระบบการให้เกรดที่เรียบเสมอกันไปหมด ประเมินความยอดเยี่ยมต่ำไป และให้รางวัลกับสไตล์ภาษามากกว่าเนื้อหาของการตัดสินเชิงวิชาการที่แท้จริง"

Feedback ที่ยาวเป็นหางว่าว แต่บอกไม่ได้ว่าใครเขียน

นอกจากให้คะแนน ทีมวิจัยยังขอให้ AI เขียน feedback ให้นักศึกษาด้วย และผลที่ได้คือ AI เขียนยาวกว่ามนุษย์ระหว่าง 3 ถึง 8 เท่า

ที่น่าสนใจคือเมื่อบังคับให้ AI เขียน feedback ในความยาวพอ ๆ กับที่มนุษย์เขียน ผลโฟกัสกรุ๊ปของอาจารย์และนักศึกษากลับแยกไม่ออกว่าอันไหนเขียนโดยมนุษย์ อันไหนเขียนโดย AI แต่เมื่อเปิดเผยว่าใครเป็นคนเขียน ทุกคนกลับไม่ได้ชอบ Feedback ของ AI เท่าไหร่นัก

Dr. Yael Benn ผู้ร่วมวิจัยจาก Manchester Metropolitan University เล่าว่านักศึกษาหลายคนบอกว่าจะรู้สึกถูกโกง ถ้ารู้ว่างานของตัวเองถูก AI ตรวจ ส่วนอาจารย์ก็เตือนว่าการพึ่ง AI จะทำลายความไว้ใจ แรงจูงใจ การตัดสินเชิงวิชาชีพ และการมีปฏิสัมพันธ์แบบมนุษย์ที่เป็นหัวใจของการศึกษาระดับสูง

AI ในฐานะดวงตาคู่ที่สองไม่ใช่ผู้ตัดสิน

ทีมวิจัยไม่ได้บอกว่า AI ไร้ประโยชน์ในการประเมินผล แต่เสนอให้ใช้ในบทบาทเสริมแทน เช่น การตรวจหา error การเช็คความสม่ำเสมอของการให้เกรด หรือทำหน้าที่เป็นดวงตาคู่ที่สองที่ช่วยให้อาจารย์เห็นจุดที่ควรกลับมาตรวจซ้ำ

ตัวอย่างที่ทีมวิจัยยกขึ้นมาคือ ถ้าคะแนนของ AI ต่างกับมนุษย์มาก งานนั้นอาจถูก Flag ขึ้นมาให้อาจารย์ตรวจอีกครั้ง ส่วนการ triage feedback หรือร่าง feedback เบื้องต้นให้นักศึกษา ก็เป็นอีกพื้นที่ที่ AI ช่วยลดภาระอาจารย์ได้

แต่สิ่งที่ทีมวิจัยย้ำหนักแน่นคือ มนุษย์ต้องเป็นคนตัดสินคะแนนสุดท้ายเสมอ Talmi ปิดท้ายไว้น่าสนใจว่า "การประเมินผลไม่ใช่แค่ระบบกระจายคะแนน แต่เป็นส่วนหนึ่งของการสร้างความหมายทางการศึกษา เพื่อให้นักศึกษารู้สึกว่ามีคนเห็นตัวเขา มาตรฐานถูกรักษา และความไว้ใจยังอยู่ การใช้ AI ในการประเมินผลเสี่ยงต่อคุณค่าเหล่านี้"

ที่มา: Phys.org

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

Agentic AI เมื่อ AI เริ่มทำงานแทนเรา ใครต้องรับผิดชอบ

อ่านบทวิเคราะห์ Agentic AI เมื่อ AI เปลี่ยนจากผู้ช่วยตอบเป็นผู้ลงมือทำ องค์กรจะออกแบบระบบความรับผิดชอบอย่างไรให้ปลอดภัยที่สุด...

Responsive image

CapCut ประกาศจับมือกับ Gemini ให้ AI คิดคอนเซปต์ ตัดต่อจบใน Gemini แอปเดียว คาดเปิดให้ใช้งานจริงภายในช่วงปี 2026

CapCut ประกาศผนึกกำลัง Google นำเครื่องมือตัดต่อวิดีโอและรูปภาพฝังในแอป Gemini โดยตรง ช่วยครีเอเตอร์ปั้นไอเดียและจบงานได้ในหน้าจอเดียว...

Responsive image

Google AI Studio สร้างแอป Android ได้จาก Prompt เปิดทางให้คนทั่วไปทำแอปมือถือได้ในไม่กี่นาที

Google เปิดตัวความสามารถใหม่ใน AI Studio ให้ผู้ใช้สร้างแอป Android แบบ Native ด้วย Prompt ผ่านเว็บเบราว์เซอร์ ใช้ Kotlin และ Jetpack Compose พร้อมทดสอบบน Emulator อุปกรณ์จริง และเช...