Opus 4.7 สรุปความเก่งของโมเดลล่าสุดจาก Anthropic คิดเองได้ว่าโค้ดผิดตรงไหน เถียงผู้ใช้ได้ ทำงานลากยาวได้โดยไม่ต้องคอยคุม

ลองนึกภาพว่าถ้าคุณเป็น Developer ที่ต้องเขียนเขียนระบบแปลงข้อความเป็นเสียงพูด (Text-to-Speech) ด้วยภาษา Rust โดยต้องเขียนตั้งแต่ Neural Model, การจัดการประมวลผลระดับฮาร์ดเแวร์, ทำ Browser Demo พร้อมเอาผลลัพธ์เสียงที่สังเคราะห์ได้กลับเข้าไปในระบบเพื่อตรวจสอบความถูกต้องเทียบกับต้นฉบับด้วยตัวเอง 

นี่คือเป็นงานสเกลใหญ่ที่ตามปกติต้องใช้เวลาพัฒนาหลายเดือนโดยวิศวกรระดับซีเนียร์

แต่ความน่าทึ่งคือ Claude โมเดลใหม่อย่าง Opus 4.7 สามารถทำงานทั้งหมดนี้จนสำเร็จได้ด้วยตัวเองอย่างอิสระโดยไม่ต้องมีคนไปคุม ตัวอย่างนี้มาจาก Cognition หนึ่งใน Early-access Tester ของ Anthropic ที่ได้ลองใช้ Opus 4.7 ก่อนเปิดตัว

นี่ไม่ใช่แค่การอัปเดตโมเดลเวอร์ชันใหม่ แต่คือสัญญาณว่าอุตสาหกรรมกำลังเข้าสู่ยุคใหม่ ยุคที่วิศวกรเลิกทำงานแบบ 1 ต่อ 1 กับ AI agent แล้วเริ่มเปลี่ยนบทบาทเป็น ผู้จัดการทีม AI ที่ทำงานขนานกันหลายตัวแทน

ทำไม Opus 4.7 ถึงน่าสนใจ

สิ่งที่น่าสนใจจาก Early-access Tester ทั่วโลก คือทุกคนพูดตรงกันเรื่องหนึ่งว่า Opus 4.7 ทำงานยาว ๆ ได้จบโดยไม่ต้องมีคนเข้าไปดูแล

Cognition บอกว่า Opus 4.7 สามารถทำงานได้ต่อเนื่องเป็นชั่วโมง ฝ่าปัญหายาก ๆ ไปเรื่อย ๆ แทนที่จะยอมแพ้ ทำให้ทำงานเชิงลึกที่ก่อนหน้านี้ไม่สามารถทำได้

Genspark ผู้สร้าง Super Agent บอกว่าสิ่งที่สำคัญที่สุดในระบบ production คือ 3 อย่างนี้ 

  • loop resistance (ไม่ติดลูป)
  • consistency (ผลลัพธ์คงเส้นคงวา)
  • graceful error recovery กู้จาก error ได้เนียน ๆ

โดย Opus 4.6 รุ่นก่อนยังติดลูปซ้ำ ๆ จาก 1 ใน 18 คำสั่ง ซึ่งเผาทั้ง Token และทำให้ผู้ใช้ต้องรอนาน แต่สิ่งนี้ไม่เกิดขึ้นกับ Opus 4.7

การที่ AI ทำงานยาว ๆ ได้จบโดยไม่หลงทาง ทำให้ Opus 4.7 รู้สึกเหมือนเพื่อนร่วมทีมจริง ๆ โดยที่เราอาจไม่ต้องเข้าไปกำกับมากเหมือนกับโมเดลก่อน

เก่งขึ้นแล้วยังตรงตามคำสั่งแบบเป๊ะ ๆ

การพัฒนาที่สำคัญอย่างหนึ่งของ Claude Opus 4.7 คือความสามารถในการทำตามคำสั่งที่ดีขึ้นอย่างมาก โดยเปลี่ยนจากการเป็น AI ที่อาจจะตีความกว้างๆ ไปสู่การเป็น AI ที่ทำตามคำสั่งอย่างเคร่งครัดตามตัวอักษร

ในโมเดล Claude รุ่นก่อนๆ หากคำสั่งมีความซับซ้อน คลุมเครือ หรือยาวเกินไป โมเดลอาจจะตีความคำสั่งแบบหลวมๆ หรือถึงขั้นข้ามคำสั่งบางส่วนไปเลย แต่สำหรับ Opus 4.7 ระบบถูกพัฒนามาให้ยึดถือและปฏิบัติตามคำสั่งทุกบรรทัดที่คุณเขียนไว้อย่างเคร่งครัดตามตัวอักษร

ด้วยความที่โมเดลรุ่นนี้ทำตามคำสั่งแบบตรงไปตรงมา การนำ Prompt หรือชุดคำสั่งเดิมที่เคยเขียนไว้สำหรับโมเดลรุ่นก่อนมาใช้งาน อาจทำให้เกิดผลลัพธ์ที่ไม่คาดคิดหรือผิดแปลกไปจากเดิมได้ 

เนื่องจาก Prompt เดิมอาจถูกเขียนมาโดยพึ่งพาให้โมเดลเก่าช่วยตีความ หรือเติมเต็มส่วนที่ขาดหายไป แต่เมื่อ Opus 4.7 อ่านเจอ มันจะทำตามที่เขียนไว้แบบตรงๆ โดยไม่เดาใจผู้ใช้เพิ่ม

จากพฤติกรรมที่เปลี่ยนไปนี้ Anthropic จึงมีคำแนะนำอย่างชัดเจนว่า ผู้ใช้งานควรจะทำการปรับแต่ง Prompt และเครื่องมือต่างๆ เสียใหม่ เพื่อให้สอดคล้องกับพฤติกรรมที่ทำตามคำสั่งอย่างเคร่งครัดของโมเดลรุ่นใหม่ ซึ่งจะช่วยให้ผู้ใช้สามารถควบคุมผลลัพธ์ได้อย่างแม่นยำและดึงประสิทธิภาพสูงสุดของ Opus 4.7 ออกมาได้

เริ่มคิดเองก่อนจะเขียนโค้ด

Claude Opus 4.7 แสดงพฤติกรรมใหม่ที่ไม่เคยพบในโมเดล Claude รุ่นก่อนๆ ตามที่ Vercel สังเกตเห็น คือการทำบทพิสูจน์ (proofs) บนโค้ดระดับระบบก่อนที่จะเริ่มลงมือทำงานจริง

แทนที่จะรีบผลิตโค้ดออกมาทันทีที่ได้รับคำสั่ง โมเดลเลือกที่จะสร้างบทพิสูจน์เพื่อตรวจสอบและยืนยันแนวคิดทางตรรกะของระบบให้แน่ใจเสียก่อนว่าแผนการหรือโครงสร้างที่คิดไว้นั้นถูกต้องและใช้งานได้จริง จากนั้นจึงค่อยเริ่มกระบวนการเขียนโค้ด

Vercel ระบุผลลัพธ์จากพฤติกรรมนี้ว่า ทำให้ Opus 4.7 ทำผลงานได้ยอดเยี่ยมมากในงานเขียนโค้ดแบบสั่งครั้งเดียวจบ (one-shot coding tasks) โดยมีความถูกต้องสมบูรณ์มากกว่า Opus 4.6 อย่างเห็นได้ชัด และโมเดลยังมีความตรงไปตรงมาในการยอมรับถึงขีดจำกัดของตัวเองมากขึ้นด้วย

ข้อมูลจาก Hex เปิดเผยว่า Opus 4.7 มีสิ่งที่ก้าวกระโดดขึ้นอีก 2 เรื่องคือ ความแม่นยำของข้อมูล และประะสิทธิภาพของการประมวลผล ซึ่งหมายถึง

ลดการเดาสุ่ม

โดยปกติเมื่อ AI ไม่พบข้อมูล หรือเจอข้อมูลที่ไม่ครบถ้วน โมเดลเก่าๆ มักจะมีความเสี่ยงที่จะพยายามเดา หรือสร้างคำตอบเสริมขึ้นมาเอง ซึ่งผลลัพธ์มักจะฟังดูมีเหตุผลแต่มักจะไม่ถูกต้องตามความเป็นจริง 

แต่จากการประเมินของแพลตฟอร์ม Hex พบว่า Opus 4.7 จะเลือกรายงานออกมาตามตรงว่ามีข้อมูลส่วนใดที่ขาดหายไป แทนที่จะพยายามให้คำตอบที่ผิดพลาด

ประสิทธิภาพสูง ใช้ Token น้อยลง

ในการทำงานของโมเดล ผู้ใช้สามารถกำหนด Effort Level ซึ่งสัมพันธ์กับการใช้ Token และระยะเวลาที่โมเดลใช้คิดหาเหตุผล 

สิ่งที่น่าสนใจคือ Opus 4.7 ในโหมดที่ใช้การคิดวิเคราะห์ระดับต่ำสุด (low-effort) สามารถทำผลงานได้เทียบเท่ากับการทำงานระดับกลาง (medium-effort) ของ Opus 4.6

แปลว่า ผู้ใช้จะได้รับผลลัพธ์ที่มีคุณภาพสูงขึ้น ในขณะที่ใช้ทรัพยากรในการประมวลผลน้อยลง

Vision เทพ ประมวลผลรูปภาพความละเอียดสูง

ในการทำงานด้าน Autonomous Penetration Testing (การทดสอบเจาะระบบรักษาความปลอดภัยอัตโนมัติ) ด้วย computer-use agent ของบริษัท XBOW 

ปรากฎว่า Opus 4.7 ทำคะแนนบน Visual-acuity Benchmark ได้สูงถึง 98.5% ซึ่งก้าวกระโดดขึ้นมากเมื่อเทียบกับ Opus 4.6 ที่ทำได้เพียง 54.5%

ทางบริษัทระบุว่าความสามารถใหม่นี้ทำให้ปัญหาที่เคยเป็นจุดอ่อนที่สุดของ Opus หายไป และช่วยปลดล็อกให้สามารถนำไปใช้งานกับกลุ่มงานที่โมเดลก่อนไม่สามารถทำได้

สาเหตุหลักที่ทำให้ Vision ของโมเดลดีขึ้นอย่างก้าวกระโดด เป็นเพราะ Opus 4.7 รองรับการประมวลผลรูปภาพที่มีความละเอียดสูงขึ้นมาก 

โดยรองรับภาพได้ที่ความละเอียดราว 3.75 ล้านพิกเซล ซึ่งละเอียดกว่าความสามารถของโมเดล Claude รุ่นก่อนหน้าถึงกว่า 3 เท่า

ความสามารถในการมองเห็นภาพได้ชัดเจนระดับนี้ ได้เปิดโอกาสสู่การใช้งานแบบ Multimodal ที่ต้องการรายละเอียดของภาพในระดับพิกเซล 

ตัวอย่างเช่น การให้ Computer-use Agent สามารถอ่านหน้าจอที่มีข้อมูลอัดแน่น หรือสกัดข้อมูลออกมาจากแผนภาพที่มีความซับซ้อนได้อย่างแม่นยำ

AI ที่ 'เถียง' เราได้

ปัญหาใหญ่ของ AI รุ่นก่อนๆ คืออาการ Sycophancy หรือพฤติกรรมที่ AI มักจะเห็นด้วยกับผู้ใช้เสมอเพื่อเอาใจหรือหลีกเลี่ยงความขัดแย้ง ซึ่งทำให้ AI ไม่ยอมเตือนเมื่อผู้ใช้กำลังตัดสินใจผิดพลาดหรือมีตรรกะที่ผิด 

แต่สำหรับ Opus 4.7 ผลการประเมินพบว่า มีอัตราการเกิดพฤติกรรมประจบประแจงในระดับที่ต่ำมาก Anthropic ระบุว่าโมเดลรุ่นนี้ จะคิดวิเคราะห์ปัญหาอย่างลึกซึ้งมากขึ้น และนำเสนอมุมมองที่มีความคิดเห็นเป็นของตัวเอง แทนที่จะคอยเห็นด้วยกับผู้ใช้เพียงอย่างเดียว

เมื่อ AI กล้าที่จะเห็นต่าง ผลลัพธ์ที่ได้คือการทำงานร่วมกันที่มีคุณภาพสูงขึ้น ดังที่ตัวแทนจาก Replit ระบุว่าเขารู้สึกชื่นชอบที่ Opus 4.7 กล้าที่จะโต้แย้งในระหว่างการพูดคุยถกเถียงกันในประเด็นทางเทคนิค ซึ่งช่วยให้เขาสามารถตัดสินใจได้ดีขึ้น และทำให้รู้สึกเหมือนกำลังทำงานกับเพื่อนร่วมงานที่ดีกว่าเดิมจริงๆ 

การที่ AI สามารถท้วงติงได้ แสดงให้เห็นถึงความสามารถในการให้เหตุผลเชิงลึกและการตรวจสอบตรรกะที่แข็งแกร่งขึ้น

ความสามารถในการมีมุมมองเป็นของตัวเองไม่ได้จำกัดอยู่แค่เรื่องตรรกะและโค้ด แต่ยังรวมถึง การมีรสนิยม และความคิดสร้างสรรค์ในการทำงานระดับมืออาชีพที่สูงขึ้น ซึ่งทำให้โมเดลสามารถสร้างผลงานที่มีคุณภาพสูงโดยไม่ต้องรอให้ผู้ใช้คอยจับมือทำทุกขั้นตอน 

ในรายงานของ Anthropic ระบุว่า มีการนำ Opus 4.7 ไปใช้สร้างแดชบอร์ด และอินเทอร์เฟซที่มีข้อมูลหนาแน่น พบว่า AI มีรสนิยมการออกแบบที่น่าประหลาดใจจนสามารถนำไปใช้งานจริงได้เลย  

ของใหม่ที่มาพร้อม Opus 4.7

Anthropic ไม่ได้เปิดตัวแค่โมเดล แต่มาพร้อมเครื่องมือใหม่ 4 อย่างที่จะเปลี่ยนวิธีการทำงาน

xhigh effort level 

ระดับความพยายามใหม่ระหว่าง 'high' และ 'max' ให้ user ควบคุมการทำงานของโมเดลได้ละเอียดขึ้น โดยใน Claude Code ค่า default จะถูกปรับเป็น xhigh ให้ทุกแพ็กเกจแล้ว

Task budgets 

ฟีเจอร์ใหม่บน Claude API (public beta) ที่ให้ developer ควบคุมการใช้ Token ของ Claude ในงานยาว ๆ ได้

/ultrareview slash 

ฟีเจอร์ใหม่ที่ถูกเพิ่มเข้ามาใน Claude Code เพื่อช่วยยกระดับการตรวจทานโค้ด โดยเมื่อเรียกใช้คำสั่งนี้ ระบบจะสร้างเซสชันสำหรับการรีวิวโค้ดโดยเฉพาะ ระบบจะทำหน้าที่อ่านการเปลี่ยนแปลงของโค้ดที่เกิดขึ้น (changes/diffs) ทั้งหมด และทำการแจ้งเตือนหากพบข้อบกพร่อง (bugs) หรือปัญหาทางด้านการออกแบบ (design issues) ในระดับเดียวกับที่ผู้ตรวจทานโค้ดที่มีความละเอียดรอบคอบจะตรวจพบ

โดยผู้ใช้งาน Claude Code ในแพ็กเกจระดับ Pro และ Max จะได้รับสิทธิ์ให้ทดลองใช้งานฟีเจอร์ ultrareviews นี้ได้ฟรีจำนวน 3 ครั้ง เพื่อทดสอบประสิทธิภาพ

Auto mode 

โหมดใหม่บน Claude Code สำหรับผู้ใช้แพ็กเกจ Max ที่ให้ Claude ตัดสินใจแทน user ได้ในบางเรื่อง รันงานยาว ๆ โดยไม่ต้องถูกหยุดขออนุญาตบ่อย ๆ 

อ้างอิง : Anthropic

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

สวีเดนสั่งยกเลิกหน้าจอในห้องเรียน กลับไปใช้หนังสือและปากกา

สวีเดนประกาศเลิกใช้หน้าจอในเด็กเล็ก กลับไปเน้นอ่านเขียนบนกระดาษเพื่อกู้คะแนน PISA เกิดอะไรขึ้นกับระบบการศึกษาที่เคยดีที่สุดในโลก?...

Responsive image

Canva เปิดตัว ‘Canva AI 2.0’ อัปเกรดครั้งใหญ่ เปลี่ยนจาก ‘Design tool’ สู่ ‘Work platform’ ที่มี AI เป็นศูนย์กลาง

Canva เปิดตัว ‘Canva AI 2.0’ ยกระดับจากเครื่องมือออกแบบสู่แพลตฟอร์มทำงานครบวงจรด้วย AI ที่ช่วยตั้งแต่ไอเดียจนถึง Execution ในที่เดียว...

Responsive image

สรุปทุกประเด็น ดร.เอกนิติ บนเวที IMF Spring Meetings 2026 ไทยต้องเลิกกระตุ้นแบบเดิม เน้นลงทุนมากขึ้น และใช้หลัก 4T

ในงาน IMF Spring Meetings 2026 ที่วอชิงตัน ดี.ซี. ดร.เอกนิติ นิติทัณฑ์ประภาศ รองนายกรัฐมนตรี และรัฐมนตรีว่าการกระทรวงการคลัง ขึ้นเวที Governor Talks เพื่อตอบคำถามเรื่องทิศทางเศรษฐก...