
ลองนึกภาพว่าถ้าคุณเป็น Developer ที่ต้องเขียนเขียนระบบแปลงข้อความเป็นเสียงพูด (Text-to-Speech) ด้วยภาษา Rust โดยต้องเขียนตั้งแต่ Neural Model, การจัดการประมวลผลระดับฮาร์ดเแวร์, ทำ Browser Demo พร้อมเอาผลลัพธ์เสียงที่สังเคราะห์ได้กลับเข้าไปในระบบเพื่อตรวจสอบความถูกต้องเทียบกับต้นฉบับด้วยตัวเอง
นี่คือเป็นงานสเกลใหญ่ที่ตามปกติต้องใช้เวลาพัฒนาหลายเดือนโดยวิศวกรระดับซีเนียร์
แต่ความน่าทึ่งคือ Claude โมเดลใหม่อย่าง Opus 4.7 สามารถทำงานทั้งหมดนี้จนสำเร็จได้ด้วยตัวเองอย่างอิสระโดยไม่ต้องมีคนไปคุม ตัวอย่างนี้มาจาก Cognition หนึ่งใน Early-access Tester ของ Anthropic ที่ได้ลองใช้ Opus 4.7 ก่อนเปิดตัว
นี่ไม่ใช่แค่การอัปเดตโมเดลเวอร์ชันใหม่ แต่คือสัญญาณว่าอุตสาหกรรมกำลังเข้าสู่ยุคใหม่ ยุคที่วิศวกรเลิกทำงานแบบ 1 ต่อ 1 กับ AI agent แล้วเริ่มเปลี่ยนบทบาทเป็น ผู้จัดการทีม AI ที่ทำงานขนานกันหลายตัวแทน

สิ่งที่น่าสนใจจาก Early-access Tester ทั่วโลก คือทุกคนพูดตรงกันเรื่องหนึ่งว่า Opus 4.7 ทำงานยาว ๆ ได้จบโดยไม่ต้องมีคนเข้าไปดูแล
Cognition บอกว่า Opus 4.7 สามารถทำงานได้ต่อเนื่องเป็นชั่วโมง ฝ่าปัญหายาก ๆ ไปเรื่อย ๆ แทนที่จะยอมแพ้ ทำให้ทำงานเชิงลึกที่ก่อนหน้านี้ไม่สามารถทำได้
Genspark ผู้สร้าง Super Agent บอกว่าสิ่งที่สำคัญที่สุดในระบบ production คือ 3 อย่างนี้
โดย Opus 4.6 รุ่นก่อนยังติดลูปซ้ำ ๆ จาก 1 ใน 18 คำสั่ง ซึ่งเผาทั้ง Token และทำให้ผู้ใช้ต้องรอนาน แต่สิ่งนี้ไม่เกิดขึ้นกับ Opus 4.7
การที่ AI ทำงานยาว ๆ ได้จบโดยไม่หลงทาง ทำให้ Opus 4.7 รู้สึกเหมือนเพื่อนร่วมทีมจริง ๆ โดยที่เราอาจไม่ต้องเข้าไปกำกับมากเหมือนกับโมเดลก่อน
การพัฒนาที่สำคัญอย่างหนึ่งของ Claude Opus 4.7 คือความสามารถในการทำตามคำสั่งที่ดีขึ้นอย่างมาก โดยเปลี่ยนจากการเป็น AI ที่อาจจะตีความกว้างๆ ไปสู่การเป็น AI ที่ทำตามคำสั่งอย่างเคร่งครัดตามตัวอักษร
ในโมเดล Claude รุ่นก่อนๆ หากคำสั่งมีความซับซ้อน คลุมเครือ หรือยาวเกินไป โมเดลอาจจะตีความคำสั่งแบบหลวมๆ หรือถึงขั้นข้ามคำสั่งบางส่วนไปเลย แต่สำหรับ Opus 4.7 ระบบถูกพัฒนามาให้ยึดถือและปฏิบัติตามคำสั่งทุกบรรทัดที่คุณเขียนไว้อย่างเคร่งครัดตามตัวอักษร
ด้วยความที่โมเดลรุ่นนี้ทำตามคำสั่งแบบตรงไปตรงมา การนำ Prompt หรือชุดคำสั่งเดิมที่เคยเขียนไว้สำหรับโมเดลรุ่นก่อนมาใช้งาน อาจทำให้เกิดผลลัพธ์ที่ไม่คาดคิดหรือผิดแปลกไปจากเดิมได้
เนื่องจาก Prompt เดิมอาจถูกเขียนมาโดยพึ่งพาให้โมเดลเก่าช่วยตีความ หรือเติมเต็มส่วนที่ขาดหายไป แต่เมื่อ Opus 4.7 อ่านเจอ มันจะทำตามที่เขียนไว้แบบตรงๆ โดยไม่เดาใจผู้ใช้เพิ่ม
จากพฤติกรรมที่เปลี่ยนไปนี้ Anthropic จึงมีคำแนะนำอย่างชัดเจนว่า ผู้ใช้งานควรจะทำการปรับแต่ง Prompt และเครื่องมือต่างๆ เสียใหม่ เพื่อให้สอดคล้องกับพฤติกรรมที่ทำตามคำสั่งอย่างเคร่งครัดของโมเดลรุ่นใหม่ ซึ่งจะช่วยให้ผู้ใช้สามารถควบคุมผลลัพธ์ได้อย่างแม่นยำและดึงประสิทธิภาพสูงสุดของ Opus 4.7 ออกมาได้
Claude Opus 4.7 แสดงพฤติกรรมใหม่ที่ไม่เคยพบในโมเดล Claude รุ่นก่อนๆ ตามที่ Vercel สังเกตเห็น คือการทำบทพิสูจน์ (proofs) บนโค้ดระดับระบบก่อนที่จะเริ่มลงมือทำงานจริง
แทนที่จะรีบผลิตโค้ดออกมาทันทีที่ได้รับคำสั่ง โมเดลเลือกที่จะสร้างบทพิสูจน์เพื่อตรวจสอบและยืนยันแนวคิดทางตรรกะของระบบให้แน่ใจเสียก่อนว่าแผนการหรือโครงสร้างที่คิดไว้นั้นถูกต้องและใช้งานได้จริง จากนั้นจึงค่อยเริ่มกระบวนการเขียนโค้ด
Vercel ระบุผลลัพธ์จากพฤติกรรมนี้ว่า ทำให้ Opus 4.7 ทำผลงานได้ยอดเยี่ยมมากในงานเขียนโค้ดแบบสั่งครั้งเดียวจบ (one-shot coding tasks) โดยมีความถูกต้องสมบูรณ์มากกว่า Opus 4.6 อย่างเห็นได้ชัด และโมเดลยังมีความตรงไปตรงมาในการยอมรับถึงขีดจำกัดของตัวเองมากขึ้นด้วย
ข้อมูลจาก Hex เปิดเผยว่า Opus 4.7 มีสิ่งที่ก้าวกระโดดขึ้นอีก 2 เรื่องคือ ความแม่นยำของข้อมูล และประะสิทธิภาพของการประมวลผล ซึ่งหมายถึง
โดยปกติเมื่อ AI ไม่พบข้อมูล หรือเจอข้อมูลที่ไม่ครบถ้วน โมเดลเก่าๆ มักจะมีความเสี่ยงที่จะพยายามเดา หรือสร้างคำตอบเสริมขึ้นมาเอง ซึ่งผลลัพธ์มักจะฟังดูมีเหตุผลแต่มักจะไม่ถูกต้องตามความเป็นจริง
แต่จากการประเมินของแพลตฟอร์ม Hex พบว่า Opus 4.7 จะเลือกรายงานออกมาตามตรงว่ามีข้อมูลส่วนใดที่ขาดหายไป แทนที่จะพยายามให้คำตอบที่ผิดพลาด
ในการทำงานของโมเดล ผู้ใช้สามารถกำหนด Effort Level ซึ่งสัมพันธ์กับการใช้ Token และระยะเวลาที่โมเดลใช้คิดหาเหตุผล
สิ่งที่น่าสนใจคือ Opus 4.7 ในโหมดที่ใช้การคิดวิเคราะห์ระดับต่ำสุด (low-effort) สามารถทำผลงานได้เทียบเท่ากับการทำงานระดับกลาง (medium-effort) ของ Opus 4.6
แปลว่า ผู้ใช้จะได้รับผลลัพธ์ที่มีคุณภาพสูงขึ้น ในขณะที่ใช้ทรัพยากรในการประมวลผลน้อยลง

ในการทำงานด้าน Autonomous Penetration Testing (การทดสอบเจาะระบบรักษาความปลอดภัยอัตโนมัติ) ด้วย computer-use agent ของบริษัท XBOW
ปรากฎว่า Opus 4.7 ทำคะแนนบน Visual-acuity Benchmark ได้สูงถึง 98.5% ซึ่งก้าวกระโดดขึ้นมากเมื่อเทียบกับ Opus 4.6 ที่ทำได้เพียง 54.5%
ทางบริษัทระบุว่าความสามารถใหม่นี้ทำให้ปัญหาที่เคยเป็นจุดอ่อนที่สุดของ Opus หายไป และช่วยปลดล็อกให้สามารถนำไปใช้งานกับกลุ่มงานที่โมเดลก่อนไม่สามารถทำได้
สาเหตุหลักที่ทำให้ Vision ของโมเดลดีขึ้นอย่างก้าวกระโดด เป็นเพราะ Opus 4.7 รองรับการประมวลผลรูปภาพที่มีความละเอียดสูงขึ้นมาก
โดยรองรับภาพได้ที่ความละเอียดราว 3.75 ล้านพิกเซล ซึ่งละเอียดกว่าความสามารถของโมเดล Claude รุ่นก่อนหน้าถึงกว่า 3 เท่า
ความสามารถในการมองเห็นภาพได้ชัดเจนระดับนี้ ได้เปิดโอกาสสู่การใช้งานแบบ Multimodal ที่ต้องการรายละเอียดของภาพในระดับพิกเซล
ตัวอย่างเช่น การให้ Computer-use Agent สามารถอ่านหน้าจอที่มีข้อมูลอัดแน่น หรือสกัดข้อมูลออกมาจากแผนภาพที่มีความซับซ้อนได้อย่างแม่นยำ
ปัญหาใหญ่ของ AI รุ่นก่อนๆ คืออาการ Sycophancy หรือพฤติกรรมที่ AI มักจะเห็นด้วยกับผู้ใช้เสมอเพื่อเอาใจหรือหลีกเลี่ยงความขัดแย้ง ซึ่งทำให้ AI ไม่ยอมเตือนเมื่อผู้ใช้กำลังตัดสินใจผิดพลาดหรือมีตรรกะที่ผิด
แต่สำหรับ Opus 4.7 ผลการประเมินพบว่า มีอัตราการเกิดพฤติกรรมประจบประแจงในระดับที่ต่ำมาก Anthropic ระบุว่าโมเดลรุ่นนี้ จะคิดวิเคราะห์ปัญหาอย่างลึกซึ้งมากขึ้น และนำเสนอมุมมองที่มีความคิดเห็นเป็นของตัวเอง แทนที่จะคอยเห็นด้วยกับผู้ใช้เพียงอย่างเดียว
เมื่อ AI กล้าที่จะเห็นต่าง ผลลัพธ์ที่ได้คือการทำงานร่วมกันที่มีคุณภาพสูงขึ้น ดังที่ตัวแทนจาก Replit ระบุว่าเขารู้สึกชื่นชอบที่ Opus 4.7 กล้าที่จะโต้แย้งในระหว่างการพูดคุยถกเถียงกันในประเด็นทางเทคนิค ซึ่งช่วยให้เขาสามารถตัดสินใจได้ดีขึ้น และทำให้รู้สึกเหมือนกำลังทำงานกับเพื่อนร่วมงานที่ดีกว่าเดิมจริงๆ
การที่ AI สามารถท้วงติงได้ แสดงให้เห็นถึงความสามารถในการให้เหตุผลเชิงลึกและการตรวจสอบตรรกะที่แข็งแกร่งขึ้น
ความสามารถในการมีมุมมองเป็นของตัวเองไม่ได้จำกัดอยู่แค่เรื่องตรรกะและโค้ด แต่ยังรวมถึง การมีรสนิยม และความคิดสร้างสรรค์ในการทำงานระดับมืออาชีพที่สูงขึ้น ซึ่งทำให้โมเดลสามารถสร้างผลงานที่มีคุณภาพสูงโดยไม่ต้องรอให้ผู้ใช้คอยจับมือทำทุกขั้นตอน
ในรายงานของ Anthropic ระบุว่า มีการนำ Opus 4.7 ไปใช้สร้างแดชบอร์ด และอินเทอร์เฟซที่มีข้อมูลหนาแน่น พบว่า AI มีรสนิยมการออกแบบที่น่าประหลาดใจจนสามารถนำไปใช้งานจริงได้เลย
Anthropic ไม่ได้เปิดตัวแค่โมเดล แต่มาพร้อมเครื่องมือใหม่ 4 อย่างที่จะเปลี่ยนวิธีการทำงาน
xhigh effort level
ระดับความพยายามใหม่ระหว่าง 'high' และ 'max' ให้ user ควบคุมการทำงานของโมเดลได้ละเอียดขึ้น โดยใน Claude Code ค่า default จะถูกปรับเป็น xhigh ให้ทุกแพ็กเกจแล้ว
Task budgets
ฟีเจอร์ใหม่บน Claude API (public beta) ที่ให้ developer ควบคุมการใช้ Token ของ Claude ในงานยาว ๆ ได้
/ultrareview slash
ฟีเจอร์ใหม่ที่ถูกเพิ่มเข้ามาใน Claude Code เพื่อช่วยยกระดับการตรวจทานโค้ด โดยเมื่อเรียกใช้คำสั่งนี้ ระบบจะสร้างเซสชันสำหรับการรีวิวโค้ดโดยเฉพาะ ระบบจะทำหน้าที่อ่านการเปลี่ยนแปลงของโค้ดที่เกิดขึ้น (changes/diffs) ทั้งหมด และทำการแจ้งเตือนหากพบข้อบกพร่อง (bugs) หรือปัญหาทางด้านการออกแบบ (design issues) ในระดับเดียวกับที่ผู้ตรวจทานโค้ดที่มีความละเอียดรอบคอบจะตรวจพบ
โดยผู้ใช้งาน Claude Code ในแพ็กเกจระดับ Pro และ Max จะได้รับสิทธิ์ให้ทดลองใช้งานฟีเจอร์ ultrareviews นี้ได้ฟรีจำนวน 3 ครั้ง เพื่อทดสอบประสิทธิภาพ
Auto mode
โหมดใหม่บน Claude Code สำหรับผู้ใช้แพ็กเกจ Max ที่ให้ Claude ตัดสินใจแทน user ได้ในบางเรื่อง รันงานยาว ๆ โดยไม่ต้องถูกหยุดขออนุญาตบ่อย ๆ
อ้างอิง : Anthropic
ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด