Anthropic เปิดตัวโมเดลใหม่ ‘Claude Opus 4.5’ ทำ SWE-bench ได้สูงกว่า 80% แซงหน้า Gemini 3 Pro ของ Google

Anthropic ตัดสินใจปล่อยหมัดเด็ดส่งท้ายปีด้วยการเปิดตัวโมเดลเรือธงรุ่นใหม่ล่าสุด ‘Claude Opus 4.5’ ที่ไม่เพียงแต่เคลมว่าเป็นโมเดลที่ฉลาดที่สุดในเวลานี้ แต่ยังโชว์ผลทดสอบที่ทุบสถิติเดิมของคู่แข่งอย่าง Google อย่างราบคาบ โดยเฉพาะในงานด้านวิศวกรรมซอฟต์แวร์

สงคราม Benchmark เมื่อ AI เขียนโค้ดเก่งกว่าวิศวกร?

จุดขายที่น่าจับตามองที่สุดของ Opus 4.5 คือความสามารถในการเขียนโค้ด จากผลการทดสอบ SWE-bench ซึ่งเป็นมาตรฐานวัดความสามารถด้านวิศวกรรมซอฟต์แวร์ของ AI พบว่า Opus 4.5 ทำคะแนนทะลุ 80% แซงหน้าแชมป์เก่าระยะสั้นอย่าง Gemini 3 Pro ของ Google ที่เพิ่งทำคะแนนไว้ที่ 76.2% เมื่อสัปดาห์ก่อน

Scott White หัวหน้าฝ่ายผลิตภัณฑ์ของ Anthropic ถึงกับกล่าวอย่างมั่นใจว่า ‘โมเดลนี้ทำคะแนนได้สูงกว่ามนุษย์ทุกคน ในข้อสอบวิศวกรรมที่เราใช้คัดเลือกพนักงานเข้าบริษัทเสียอีก’ ซึ่งสะท้อนให้เห็นว่า เส้นแบ่งความสามารถระหว่าง AI และมนุษย์ในงานเฉพาะทางเริ่มเลือนลางลงทุกที

ก้าวสู่ยุคของ AI Agent

แม้จะชูจุดเด่นเรื่องโค้ด แต่ Opus 4.5 ไม่ได้จำกัดตัวเองอยู่แค่หน้าจอ Terminal ทาง Anthropic นิยามว่านี่คือ ‘โมเดลที่ดีที่สุดในโลก’ สำหรับการขับเคลื่อนระบบ AI Agents และการสั่งงานคอมพิวเตอร์ 

ผลทดสอบยังชี้ให้เห็นว่า Opus 4.5 มีความโดดเด่นในด้านการแก้ปัญหาใหม่ๆ และการใช้งานเครื่องมือต่างๆ ซึ่งเป็นทักษะสำคัญในการทำงานจริงที่เต็มไปด้วยความซับซ้อนและความไม่แน่นอน โดยโมเดลรุ่นใหม่นี้สามารถตัดสินใจและชั่งน้ำหนักทางเลือกต่างๆ ได้ด้วยตัวเอง ลดภาระที่มนุษย์ต้องคอยกำกับดูแลลงอย่างเห็นได้ชัด

เก่งขึ้น แม่นยำขึ้น บน Excel และ Chrome

ในเชิงธุรกิจ Anthropic ไม่ได้มาเล่นๆ โดยมีการยกตัวอย่างความสำเร็จจาก Fundamental Research Labs ที่นำโมเดลนี้ไปใช้กับงาน Automation บน Excel พบว่าความแม่นยำเพิ่มขึ้นถึง 20% และประสิทธิภาพการทำงานโดยรวมเพิ่มขึ้น 15%

นอกจากนี้ Anthropic ยังเดินหน้าปล่อยฟีเจอร์ใหม่เอาใจสายทำงาน ไม่ว่าจะเป็นส่วนเสริม Claude สำหรับ Chrome (Beta) ที่ขยายให้ผู้ใช้ Mac ทุกคนได้ใช้งาน และ Claude for Excel ที่เปิดให้ลูกค้าองค์กรระดับ Team และ Enterprise บน Mac ได้ทดลองใช้แล้ว

สถานะและความพร้อมใช้งาน

Claude Opus 4.5 จะถูกตั้งเป็นโมเดลเริ่มต้นสำหรับผู้ใช้งานแพ็กเกจระดับสูง และเปิดให้เลือกใช้ได้สำหรับลูกค้า Pro, Team และ Enterprise ทันที ส่วนนักพัฒนาก็สามารถเข้าถึงผ่าน API หรือผ่านผู้ให้บริการ Cloud ยักษ์ใหญ่อย่าง Amazon Bedrock, Google Vertex และ Microsoft Azure ได้เช่นกัน

การขยับตัวครั้งนี้ของ Anthropic ถือเป็นการส่งสัญญาณชัดเจนว่า สงคราม AI ไม่ได้จบลงแค่ความฉลาดในการตอบคำถาม แต่กำลังมุ่งไปสู่ความสามารถในการ "ลงมือทำ" และแก้ปัญหาที่ซับซ้อนแทนมนุษย์ได้อย่างแท้จริง

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

เจาะลึก IMD 2026 ไทยขยับขึ้นอันดับ 26 แล้วทำไม 'เวียดนาม' เป็นม้ามืดหน้าใหม่ ที่หายใจรดต้นคอไทย?

สรุปผลการจัดอันดับประเทศไทย ใน IMD World Competitiveness 2026 ไทยขยับขึ้นอันดับ 26 แต่ทำไม 'เวียดนาม' ถึงจี้ติดในอันดับ 27 จากการพูดคุยกับ คุณธีรนันท์ ศรีหงส์ ประธานสมาคมการจัดการธ...

Responsive image

ทำไมการเปลี่ยนผ่านพลังงานโลกถึงชะงัก แม้ลงทุนสูงสุดเป็นประวัติการณ์ WEF เผยรายงาน Energy Transition Index 2026 พร้อมชี้ 3 สิ่งที่โลกต้องทำเร่งด่วน

รู้หรือไม่ว่า ปี 2026 โลกลงทุนด้านพลังงานสูงเป็นประวัติการณ์ที่ 3.3 ล้านล้านดอลลาร์ ในจำนวนนี้เป็นการลงทุนพลังงานสะอาดมากถึง 2.3 ล้านล้านดอลลาร์ แต่ผลที่ได้กลับไม่เหมือนอย่างที่เรา...

Responsive image

'บ้านในอนาคตอาจไม่ได้ขายแค่ทำเล แต่ขายสุขภาพดี' BDMS ลงทุน 29,000 ล้านบาท ปั้น WellEra โครงการที่อยู่อาศัยเพื่อสุขภาพใจกลางลุมพินี

BDMS ทุ่ม 29,000 ล้านบาท เปิดตัว WellEra Wellness Complex ใจกลางลุมพินี โครงการที่ออกแบบให้บ้านและเมืองกลายเป็นส่วนหนึ่งของการดูแลสุขภาพในชีวิตประจำวัน...