MIT ทดสอบ AI กับงานจริง 11,000 ชิ้น ผลคือยังเป็นแค่ 'เด็กฝึกงาน' ผ่านเกณฑ์แค่ 65%

MIT

คนทำงานออฟฟิศที่เคยลองใช้ AI ช่วยงาน อาจเคยรู้สึกหวั่น ๆ ว่าสักวันจะโดนแทนที่ แต่งานวิจัยล่าสุดจาก MIT บอกเราว่าตอนนี้ AI ยังทำงานได้แค่ระดับพอผ่านเท่านั้น ถ้าเปรียบเทียบก็เหมือนเด็กฝึกงานที่ทำงานส่งได้ แต่หัวหน้าต้องมานั่งแก้ทุกครั้ง

MIT ทดสอบอะไร แล้วทดสอบอย่างไร ?

ทีมวิจัยจาก MIT เอาโมเดล AI มา 41 ตัว ซึ่งรวมทั้ง Claude, Gemini และ ChatGPT แล้วให้ทำงานจริง ๆ ที่เป็นงานเขียนเป็นหลักมากกว่า 11,000 tasks ตามตำแหน่งงานต่าง ๆ ที่กระทรวงแรงงานสหรัฐฯ ระบุไว้

จากนั้นให้คนที่ทำงานจริงในสายนั้น ๆ มาให้คะแนน ไม่ใช่ให้ AI ตรวจ AI เอง แต่เอาคนที่มีประสบการณ์ตรงมาตัดสินว่าผลงานที่ AI ทำออกมา ถ้าส่งให้หัวหน้าโดยไม่ต้องแก้อะไรเลย จะผ่านไหม แล้วคุณภาพเป็นอย่างไร

ผลออกมา 65% ของงานทั้งหมด AI ทำได้แค่ 'พอใช้ได้'

MIT ใช้สเกลให้คะแนน 1-9 โดยที่คะแนน 7 หมายถึงพอใช้ได้ คือส่งงานได้โดยไม่ต้องแก้ แต่ก็ไม่ได้ดีเด่นอะไร ผลคือ ณ ปลายปี 2025 ที่ผ่านมา AI ทำคะแนนถึง 7 ได้ใน ราว ๆ 65% ของงานทั้งหมด ฟังดูเหมือนเยอะ แต่ถ้าคิดกลับกันหมายความว่ายังมีอีก 35% ที่ AI ยังทำไม่ถึงเกณฑ์ขั้นต่ำด้วยซ้ำ

พองานยากขึ้น AI ยิ่งสู้ไม่ไหว

ส่วนที่น่าสนใจที่สุดคือ เมื่อยกมาตรฐานขึ้นไปที่คะแนน 9 หรือระดับยอดเยี่ยม โอกาสที่ AI จะทำได้ ไม่เคยเกิน 50% เลย ไม่ว่าจะให้เวลาเท่าไหร่ก็ตาม พูดให้เข้าใจ คือถ้างานต้องใช้หลายขั้นตอน ต้องใช้ความคิดสร้างสรรค์ หรือต้องการความแม่นยำสูง AI ก็มีโอกาสพลาดมากกว่าสำเร็จ

งานไหนที่ AI ทำได้ งานไหนยังต้องพึ่งคน 

ข้อมูลจาก MIT ชี้ว่า AI ทำงานที่เป็นพื้นฐานในสายงานก่อสร้างและงานซ่อมบำรุงได้ค่อนข้างดี เพราะงานเหล่านี้มักเป็นงานที่มีรูปแบบชัดเจน ทำตามขั้นตอนได้ แต่พอเป็นงานที่ต้องใช้ทักษะเฉพาะทางอย่างเช่น งานกฎหมาย หรือ งาน IT คะแนนเฉลี่ยที่ออกมากลับต่ำกว่า สะท้อนว่า AI ยังรับมือกับงานที่ต้องตีความ วิเคราะห์ หรือตัดสินใจที่ซับซ้อนได้ไม่ดี

ซึ่งตรงนี้สอดคล้องกับสิ่งที่เราเห็นในตลาดแรงงานจริง ๆ ว่าบริษัทส่วนใหญ่เอา AI ไปแทนงาน routine หรืองาน entry-level ก่อน ขณะที่คนที่มีทักษะเฉพาะทาง โดยเฉพาะด้านดิจิทัลกลับได้ค่าตอบแทนสูงขึ้น

เคสจริงที่ AI ทำพลาดก็มีให้เห็น

เรื่องนี้ไม่ใช่แค่ตัวเลขในงานวิจัย แต่มีตัวอย่างจริงให้เห็นแล้ว

  • Deloitte เคยใช้ AI ทำรายงานให้ลูกค้าภาครัฐในออสเตรเลียและแคนาดา แล้วพบว่ารายงานเต็มไปด้วย ข้อมูลที่ AI แต่งขึ้นมาเอง 
  • สื่ออย่าง CNET และ Sports Illustrated ก็เคยถูกจับได้ว่าใช้ AI เขียนบทความที่มีข้อมูลผิด แถมใส่ชื่อนักเขียนปลอม 
  • ในวงการกฎหมาย ก็มีกรณีที่สำนักงานทนายต้องออกมาขอโทษต่อสาธารณะ หลังจากเอกสารที่ยื่นต่อศาลมีการอ้างอิงคดีที่ AI สร้างขึ้นมา ซึ่งไม่มีอยู่จริง

แต่ตอนนี้ AI กำลังเก่งขึ้นเร็วมาก

ถึง AI จะยังไม่สมบูรณ์แบบ แต่สิ่งที่ปฏิเสธไม่ได้คือมันกำลังดีขึ้นอย่างรวดเร็ว 

ทีม MIT ประเมินว่าอัตราความสำเร็จของ AI เพิ่มขึ้นสูงสุดถึง 11 เปอร์เซ็นต์ต่อปี จากโมเดลที่ฉลาดขึ้นเรื่อย ๆ และคาดการณ์ว่าภายในปี 2029 AI จะสามารถทำงานเขียนได้ 80-95% ในระดับ 'พอใช้ได้' แต่คำถามสำคัญคือ AI จะไปถึงระดับยอดเยี่ยมได้หรือไม่ ตรงนี้ทีมวิจัยยังไม่ฟันธง โดยเฉพาะในงานที่ผิดพลาดไม่ได้ อย่างเช่น งานกฎหมาย งานการแพทย์ หรืองานการเงิน การจะปล่อยให้ AI ทำเองทั้งหมดยังเป็นเรื่องที่อีกไกล

สรุป

ถ้าเปรียบ AI ตอนนี้เป็นพนักงาน AI คือพนักงานที่ร่างอีเมลได้ สรุปข้อมูลได้ กรอกตัวเลขได้ แต่ถ้าจะให้ทำงานที่ต้องคิด ตัดสินใจ หรืองานที่ถ้าผิดพลาดแล้วจะเจ็บหนัก งานเหล่านี้ยังต้องมีคนมาคุมอยู่ดี 

สิ่งที่เราเห็นจากงานวิจัยนี้ชัดเจนว่าคนที่รู้จักใช้ AI เป็นเครื่องมือจะได้เปรียบกว่าคนที่ปล่อยให้ AI ทำเองทั้งหมด ทักษะในการตรวจสอบ แก้ไข และตัดสินใจว่าอะไรดี อะไรยังไม่ได้ ยังเป็นสิ่งที่ AI ทำแทนไม่ได้ 

อ้างอิง: fortune

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

ทำไมผู้นำยุค AI ถึงเดิมพันกับคน มากกว่าการลดพนักงาน

เจาะลึกทำไมบริษัทระดับโลกในปี 2026 เลิกบ้าการลดคน แต่หันมาใช้ AI เสริมศักยภาพมนุษย์แทน พร้อมเผย 3 คัมภีร์ลัดสำหรับผู้นำที่ต้องการเปลี่ยนความกลัวให้กลายเป็นความได้เปรียบทางธุรกิจ...

Responsive image

ใครคือ Satoshi? เมื่อ New York Times เปิดหน้าสืบสวน พุ่งเป้า Adam Back คือบิดา Bitcoin ตัวจริง

NYT มั่นใจ! เจอตัว Satoshi Nakamoto แล้ว? เจาะลึกรายงานสืบสวนล่าสุดที่มุ่งเป้าไปที่ Adam Back ซีอีโอ Blockstream กับหลักฐานไทม์ไลน์ที่หายไปอย่างประจวบเหมาะ...

Responsive image

ถอดรหัส '3C Framework' งานวิจัยจุฬาฯ ที่ถูกพูดถึงบนเวที Digital Health Asia 2026 ที่ชี้ว่าสตาร์ทอัพไม่ได้ขาดไอเดีย

สตาร์ทอัพไทย 636 ราย ระดมทุนรวมกว่า 2,451 ล้านเหรียญสหรัฐ แต่มีเพียง 16% เท่านั้นที่ไปถึง Series A ได้ อีก 7% ไปถึง Series B และแค่ 1% เท่านั้นที่ไปถึง Series C...