MIT ทดสอบ AI กับงานจริง 11,000 ชิ้น ผลคือยังเป็นแค่ 'เด็กฝึกงาน' ผ่านเกณฑ์แค่ 65%

เมษายน 10, 2026 | By Techsauce Team

MIT

คนทำงานออฟฟิศที่เคยลองใช้ AI ช่วยงาน อาจเคยรู้สึกหวั่น ๆ ว่าสักวันจะโดนแทนที่ แต่งานวิจัยล่าสุดจาก MIT บอกเราว่าตอนนี้ AI ยังทำงานได้แค่ระดับพอผ่านเท่านั้น ถ้าเปรียบเทียบก็เหมือนเด็กฝึกงานที่ทำงานส่งได้ แต่หัวหน้าต้องมานั่งแก้ทุกครั้ง

MIT ทดสอบอะไร แล้วทดสอบอย่างไร ?

ทีมวิจัยจาก MIT เอาโมเดล AI มา 41 ตัว ซึ่งรวมทั้ง Claude, Gemini และ ChatGPT แล้วให้ทำงานจริง ๆ ที่เป็นงานเขียนเป็นหลักมากกว่า 11,000 tasks ตามตำแหน่งงานต่าง ๆ ที่กระทรวงแรงงานสหรัฐฯ ระบุไว้

จากนั้นให้คนที่ทำงานจริงในสายนั้น ๆ มาให้คะแนน ไม่ใช่ให้ AI ตรวจ AI เอง แต่เอาคนที่มีประสบการณ์ตรงมาตัดสินว่าผลงานที่ AI ทำออกมา ถ้าส่งให้หัวหน้าโดยไม่ต้องแก้อะไรเลย จะผ่านไหม แล้วคุณภาพเป็นอย่างไร

ผลออกมา 65% ของงานทั้งหมด AI ทำได้แค่ 'พอใช้ได้'

MIT ใช้สเกลให้คะแนน 1-9 โดยที่คะแนน 7 หมายถึงพอใช้ได้ คือส่งงานได้โดยไม่ต้องแก้ แต่ก็ไม่ได้ดีเด่นอะไร ผลคือ ณ ปลายปี 2025 ที่ผ่านมา AI ทำคะแนนถึง 7 ได้ใน ราว ๆ 65% ของงานทั้งหมด ฟังดูเหมือนเยอะ แต่ถ้าคิดกลับกันหมายความว่ายังมีอีก 35% ที่ AI ยังทำไม่ถึงเกณฑ์ขั้นต่ำด้วยซ้ำ

พองานยากขึ้น AI ยิ่งสู้ไม่ไหว

ส่วนที่น่าสนใจที่สุดคือ เมื่อยกมาตรฐานขึ้นไปที่คะแนน 9 หรือระดับยอดเยี่ยม โอกาสที่ AI จะทำได้ ไม่เคยเกิน 50% เลย ไม่ว่าจะให้เวลาเท่าไหร่ก็ตาม พูดให้เข้าใจ คือถ้างานต้องใช้หลายขั้นตอน ต้องใช้ความคิดสร้างสรรค์ หรือต้องการความแม่นยำสูง AI ก็มีโอกาสพลาดมากกว่าสำเร็จ

งานไหนที่ AI ทำได้ งานไหนยังต้องพึ่งคน

ข้อมูลจาก MIT ชี้ว่า AI ทำงานที่เป็นพื้นฐานในสายงานก่อสร้างและงานซ่อมบำรุงได้ค่อนข้างดี เพราะงานเหล่านี้มักเป็นงานที่มีรูปแบบชัดเจน ทำตามขั้นตอนได้ แต่พอเป็นงานที่ต้องใช้ทักษะเฉพาะทางอย่างเช่น งานกฎหมาย หรือ งาน IT คะแนนเฉลี่ยที่ออกมากลับต่ำกว่า สะท้อนว่า AI ยังรับมือกับงานที่ต้องตีความ วิเคราะห์ หรือตัดสินใจที่ซับซ้อนได้ไม่ดี

ซึ่งตรงนี้สอดคล้องกับสิ่งที่เราเห็นในตลาดแรงงานจริง ๆ ว่าบริษัทส่วนใหญ่เอา AI ไปแทนงาน routine หรืองาน entry-level ก่อน ขณะที่คนที่มีทักษะเฉพาะทาง โดยเฉพาะด้านดิจิทัลกลับได้ค่าตอบแทนสูงขึ้น

เคสจริงที่ AI ทำพลาดก็มีให้เห็น

เรื่องนี้ไม่ใช่แค่ตัวเลขในงานวิจัย แต่มีตัวอย่างจริงให้เห็นแล้ว

Deloitte เคยใช้ AI ทำรายงานให้ลูกค้าภาครัฐในออสเตรเลียและแคนาดา แล้วพบว่ารายงานเต็มไปด้วย ข้อมูลที่ AI แต่งขึ้นมาเอง
สื่ออย่าง CNET และ Sports Illustrated ก็เคยถูกจับได้ว่าใช้ AI เขียนบทความที่มีข้อมูลผิด แถมใส่ชื่อนักเขียนปลอม
ในวงการกฎหมาย ก็มีกรณีที่สำนักงานทนายต้องออกมาขอโทษต่อสาธารณะ หลังจากเอกสารที่ยื่นต่อศาลมีการอ้างอิงคดีที่ AI สร้างขึ้นมา ซึ่งไม่มีอยู่จริง

แต่ตอนนี้ AI กำลังเก่งขึ้นเร็วมาก

ถึง AI จะยังไม่สมบูรณ์แบบ แต่สิ่งที่ปฏิเสธไม่ได้คือมันกำลังดีขึ้นอย่างรวดเร็ว

ทีม MIT ประเมินว่าอัตราความสำเร็จของ AI เพิ่มขึ้นสูงสุดถึง 11 เปอร์เซ็นต์ต่อปี จากโมเดลที่ฉลาดขึ้นเรื่อย ๆ และคาดการณ์ว่าภายในปี 2029 AI จะสามารถทำงานเขียนได้ 80-95% ในระดับ 'พอใช้ได้' แต่คำถามสำคัญคือ AI จะไปถึงระดับยอดเยี่ยมได้หรือไม่ ตรงนี้ทีมวิจัยยังไม่ฟันธง โดยเฉพาะในงานที่ผิดพลาดไม่ได้ อย่างเช่น งานกฎหมาย งานการแพทย์ หรืองานการเงิน การจะปล่อยให้ AI ทำเองทั้งหมดยังเป็นเรื่องที่อีกไกล

สรุป

ถ้าเปรียบ AI ตอนนี้เป็นพนักงาน AI คือพนักงานที่ร่างอีเมลได้ สรุปข้อมูลได้ กรอกตัวเลขได้ แต่ถ้าจะให้ทำงานที่ต้องคิด ตัดสินใจ หรืองานที่ถ้าผิดพลาดแล้วจะเจ็บหนัก งานเหล่านี้ยังต้องมีคนมาคุมอยู่ดี

สิ่งที่เราเห็นจากงานวิจัยนี้ชัดเจนว่าคนที่รู้จักใช้ AI เป็นเครื่องมือจะได้เปรียบกว่าคนที่ปล่อยให้ AI ทำเองทั้งหมด ทักษะในการตรวจสอบ แก้ไข และตัดสินใจว่าอะไรดี อะไรยังไม่ได้ ยังเป็นสิ่งที่ AI ทำแทนไม่ได้

อ้างอิง: fortune

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

เข้าสู่ระบบ
ลงทะเบียน

ลืมรหัสผ่าน?

มีบัญชีแล้วหรือยัง ?

มีบัญชีอยู่แล้ว ?

Mohsin Ali

3 m. ago

The point about AI handling 65 percent of tasks but struggling with consistency across different types of work stood out. It shows capability doesn't always translate into reliability in real settings.

Working around Dell Distributor In Dubai environments, we've seen how stable infrastructure still matters a lot when introducing new systems. At Tech Distributor, that gap between testing and real use becomes pretty noticeable.

Do you think AI is close to handling complex workflows, or still needs more refinement?

ทำไมคนไทยเห็นรถบรรทุก ต้องรีบหลบ รถขนส่ง = อันตราย ชำแหละปัจจัยเสี่ยงที่คนกลัว และรู้จัก AI ที่พร้อมใช้โดยไม่ต้องรอ

เจาะลึกเหตุผลที่คนไทยต้องรีบหลบรถบรรทุกใหญ่ พร้อมเปิดทางแก้ปัญหาพฤติกรรมเสี่ยงจากต้นตอด้วยเทคโนโลยี AI Video Telematics ยกระดับความปลอดภัยฟลีตรถขนส่งได้ทันที...

กรกฎาคม 28, 2026 | By Techsauce Team

ThailandPostMart เข้าสู่ปีที 8 อีคอมเมิร์ซของไปรษณีย์ไทย มีศักยภาพแค่ไหนถ้ารัฐจะเอามาสู้ศึกอีคอมเมิร์ซที่ต่างชาติครองตลาด 98.8%

วิเคราะห์ 8 ปี ThailandPostMart จากจุดเริ่มต้นดันสินค้าชุมชน OTOP สู่ความท้าทายในตลาด e-Commerce ล้านล้าน มี Asset 50,000 จุด แต่ทำไมยังโตช้ากว่าที่คิด?...

กรกฎาคม 27, 2026 | By Techsauce Team

เจาะลึกแพลตฟอร์มอีคอมเมิร์ซไทย ที่กำลังท้าชนต่างชาติ ใครเก็บค่า GP เท่าไหร่ จุดเด่นคืออะไร และไทยจะสู้ต่างชาติได้ไหม ?

ร้านค้าออนไลน์ไทยที่ขายผ่านแพลตฟอร์มต่างชาติ 3 เจ้าใหญ่ ต้องจ่ายค่าธรรมเนียมรวมกันสูงถึง 22-40% ของยอดขายทุกคำสั่งซื้อ ตัวเลขนี้มาจากการสำรวจ SME กว่า 500 รายในช่วงไตรมาส 1-2 ปี 25...

กรกฎาคม 23, 2026 | By Techsauce Team

Tech & Biz

Thaimart

ecommerce