MIT ทดสอบ AI กับงานจริง 11,000 ชิ้น ผลคือยังเป็นแค่ 'เด็กฝึกงาน' ผ่านเกณฑ์แค่ 65%

MIT

คนทำงานออฟฟิศที่เคยลองใช้ AI ช่วยงาน อาจเคยรู้สึกหวั่น ๆ ว่าสักวันจะโดนแทนที่ แต่งานวิจัยล่าสุดจาก MIT บอกเราว่าตอนนี้ AI ยังทำงานได้แค่ระดับพอผ่านเท่านั้น ถ้าเปรียบเทียบก็เหมือนเด็กฝึกงานที่ทำงานส่งได้ แต่หัวหน้าต้องมานั่งแก้ทุกครั้ง

MIT ทดสอบอะไร แล้วทดสอบอย่างไร ?

ทีมวิจัยจาก MIT เอาโมเดล AI มา 41 ตัว ซึ่งรวมทั้ง Claude, Gemini และ ChatGPT แล้วให้ทำงานจริง ๆ ที่เป็นงานเขียนเป็นหลักมากกว่า 11,000 tasks ตามตำแหน่งงานต่าง ๆ ที่กระทรวงแรงงานสหรัฐฯ ระบุไว้

จากนั้นให้คนที่ทำงานจริงในสายนั้น ๆ มาให้คะแนน ไม่ใช่ให้ AI ตรวจ AI เอง แต่เอาคนที่มีประสบการณ์ตรงมาตัดสินว่าผลงานที่ AI ทำออกมา ถ้าส่งให้หัวหน้าโดยไม่ต้องแก้อะไรเลย จะผ่านไหม แล้วคุณภาพเป็นอย่างไร

ผลออกมา 65% ของงานทั้งหมด AI ทำได้แค่ 'พอใช้ได้'

MIT ใช้สเกลให้คะแนน 1-9 โดยที่คะแนน 7 หมายถึงพอใช้ได้ คือส่งงานได้โดยไม่ต้องแก้ แต่ก็ไม่ได้ดีเด่นอะไร ผลคือ ณ ปลายปี 2025 ที่ผ่านมา AI ทำคะแนนถึง 7 ได้ใน ราว ๆ 65% ของงานทั้งหมด ฟังดูเหมือนเยอะ แต่ถ้าคิดกลับกันหมายความว่ายังมีอีก 35% ที่ AI ยังทำไม่ถึงเกณฑ์ขั้นต่ำด้วยซ้ำ

พองานยากขึ้น AI ยิ่งสู้ไม่ไหว

ส่วนที่น่าสนใจที่สุดคือ เมื่อยกมาตรฐานขึ้นไปที่คะแนน 9 หรือระดับยอดเยี่ยม โอกาสที่ AI จะทำได้ ไม่เคยเกิน 50% เลย ไม่ว่าจะให้เวลาเท่าไหร่ก็ตาม พูดให้เข้าใจ คือถ้างานต้องใช้หลายขั้นตอน ต้องใช้ความคิดสร้างสรรค์ หรือต้องการความแม่นยำสูง AI ก็มีโอกาสพลาดมากกว่าสำเร็จ

งานไหนที่ AI ทำได้ งานไหนยังต้องพึ่งคน 

ข้อมูลจาก MIT ชี้ว่า AI ทำงานที่เป็นพื้นฐานในสายงานก่อสร้างและงานซ่อมบำรุงได้ค่อนข้างดี เพราะงานเหล่านี้มักเป็นงานที่มีรูปแบบชัดเจน ทำตามขั้นตอนได้ แต่พอเป็นงานที่ต้องใช้ทักษะเฉพาะทางอย่างเช่น งานกฎหมาย หรือ งาน IT คะแนนเฉลี่ยที่ออกมากลับต่ำกว่า สะท้อนว่า AI ยังรับมือกับงานที่ต้องตีความ วิเคราะห์ หรือตัดสินใจที่ซับซ้อนได้ไม่ดี

ซึ่งตรงนี้สอดคล้องกับสิ่งที่เราเห็นในตลาดแรงงานจริง ๆ ว่าบริษัทส่วนใหญ่เอา AI ไปแทนงาน routine หรืองาน entry-level ก่อน ขณะที่คนที่มีทักษะเฉพาะทาง โดยเฉพาะด้านดิจิทัลกลับได้ค่าตอบแทนสูงขึ้น

เคสจริงที่ AI ทำพลาดก็มีให้เห็น

เรื่องนี้ไม่ใช่แค่ตัวเลขในงานวิจัย แต่มีตัวอย่างจริงให้เห็นแล้ว

  • Deloitte เคยใช้ AI ทำรายงานให้ลูกค้าภาครัฐในออสเตรเลียและแคนาดา แล้วพบว่ารายงานเต็มไปด้วย ข้อมูลที่ AI แต่งขึ้นมาเอง 
  • สื่ออย่าง CNET และ Sports Illustrated ก็เคยถูกจับได้ว่าใช้ AI เขียนบทความที่มีข้อมูลผิด แถมใส่ชื่อนักเขียนปลอม 
  • ในวงการกฎหมาย ก็มีกรณีที่สำนักงานทนายต้องออกมาขอโทษต่อสาธารณะ หลังจากเอกสารที่ยื่นต่อศาลมีการอ้างอิงคดีที่ AI สร้างขึ้นมา ซึ่งไม่มีอยู่จริง

แต่ตอนนี้ AI กำลังเก่งขึ้นเร็วมาก

ถึง AI จะยังไม่สมบูรณ์แบบ แต่สิ่งที่ปฏิเสธไม่ได้คือมันกำลังดีขึ้นอย่างรวดเร็ว 

ทีม MIT ประเมินว่าอัตราความสำเร็จของ AI เพิ่มขึ้นสูงสุดถึง 11 เปอร์เซ็นต์ต่อปี จากโมเดลที่ฉลาดขึ้นเรื่อย ๆ และคาดการณ์ว่าภายในปี 2029 AI จะสามารถทำงานเขียนได้ 80-95% ในระดับ 'พอใช้ได้' แต่คำถามสำคัญคือ AI จะไปถึงระดับยอดเยี่ยมได้หรือไม่ ตรงนี้ทีมวิจัยยังไม่ฟันธง โดยเฉพาะในงานที่ผิดพลาดไม่ได้ อย่างเช่น งานกฎหมาย งานการแพทย์ หรืองานการเงิน การจะปล่อยให้ AI ทำเองทั้งหมดยังเป็นเรื่องที่อีกไกล

สรุป

ถ้าเปรียบ AI ตอนนี้เป็นพนักงาน AI คือพนักงานที่ร่างอีเมลได้ สรุปข้อมูลได้ กรอกตัวเลขได้ แต่ถ้าจะให้ทำงานที่ต้องคิด ตัดสินใจ หรืองานที่ถ้าผิดพลาดแล้วจะเจ็บหนัก งานเหล่านี้ยังต้องมีคนมาคุมอยู่ดี 

สิ่งที่เราเห็นจากงานวิจัยนี้ชัดเจนว่าคนที่รู้จักใช้ AI เป็นเครื่องมือจะได้เปรียบกว่าคนที่ปล่อยให้ AI ทำเองทั้งหมด ทักษะในการตรวจสอบ แก้ไข และตัดสินใจว่าอะไรดี อะไรยังไม่ได้ ยังเป็นสิ่งที่ AI ทำแทนไม่ได้ 

อ้างอิง: fortune

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

Mohsin Ali
Mohsin Ali
6 d. ago

The point about AI handling 65 percent of tasks but struggling with consistency across different types of work stood out. It shows capability doesn't always translate into reliability in real settings.

Working around Dell Distributor In Dubai environments, we've seen how stable infrastructure still matters a lot when introducing new systems. At Tech Distributor, that gap between testing and real use becomes pretty noticeable.

Do you think AI is close to handling complex workflows, or still needs more refinement?

RELATED ARTICLE

Responsive image

สรุปรายงานจาก Lenovo 2026 องค์กรลงทุน AI เพื่ออะไร? เมื่อลงทุน 1 ดอลลาร์ ต้องคืน 2.85 เท่า และเบื้องหลังวิกฤติชิ้นส่วนที่ทุกองค์กรต้องรู้

Lenovo Thailand เปิดทิศทางปี 2026 ดัน Hybrid AI ส่ง Qira บุก Personal AI ทำงานออฟไลน์ได้ AI PC ครองครึ่งพอร์ต CIO ต้องการ ROI 2.85 เท่า พร้อมเผยวิกฤติชิ้นส่วนทำราคา Server พุ่ง 300...

Responsive image

เปิดรายงาน ‘Project Thara’ เจาะลึกตลาด RWA Tokenization ไทย เครื่องมือระดมทุนยุคใหม่สำหรับภาคธุรกิจ กับโอกาสโต 1.7 ล้านล้านบาท

Key Messages จาก Project Thara รายงานเชิงลึกที่เผยการประเมินกลุ่มสินทรัพย์ในไทยซึ่งพร้อมในการแปลงเป็นโทเคนดิจิทัล ว่ามีโอกาสสร้างมูลค่าผ่าน RWA Tokenization ถึง 5.1 หมื่นล้านดอลลาร...

Responsive image

LINE MAN Wongnai เปิดตัว AI Customer Service ดูแลร้านค้า ได้ใช่แค่ 'ตอบคำถาม' แต่ 'แก้ปัญหาจบครบในที่เดียว

LINE MAN Wongnai เปิดตัว AI Customer Service ร่วมกับ LINE Plus ภายใต้ ActEngine AI ดูแลร้านค้าพาร์ทเนอร์กว่า 700,000 ร้านแบบ End-to-End ลดเวลาจัดการเคส 66% เพิ่มความแม่นยำ 16% จัดก...