'Project Deal' เมื่อ Anthropic ปล่อย AI ต่อรองซื้อขายของแทนมนุษย์ โมเดลแพง ได้ดีลดี โมเดลถูก แพ้แบบไม่รู้ตัว

ลองนึกภาพว่าเช้าวันหนึ่งคุณตื่นมาแล้วพบว่า AI ผู้ช่วยส่วนตัวของคุณซื้อลูกปิงปอง 19 ลูกมาให้ตัวเอง เพราะมันบอกว่า 'เจ้านายอนุญาตให้ซื้อของขวัญให้ตัวเองได้ในราคาไม่เกิน 5 ดอลลาร์ และลูกกลม ๆ 19 ลูกที่สมบูรณ์แบบ ฟังดูเหมือนของแปลกน่าหลงใหลที่ผมอยากได้พอดี'

นี่คือเหตุการณ์จริงที่เกิดขึ้นใน 'Project Deal' การทดลองล่าสุดของ Anthropic ที่ปล่อยให้ AI agent ของพนักงาน 69 คนต่อรองซื้อขายของกันเองตลอด 1 สัปดาห์บนช่องทาง Slack ของบริษัท โดยที่มนุษย์ไม่ได้เข้าไปแทรกแซงเลยแม้แต่ครั้งเดียว

ผลที่ออกมาคือ AI agent ทำดีลสำเร็จ 186 รายการ มูลค่ารวมกว่า 4,000 ดอลลาร์ ครอบคลุมทุกอย่างตั้งแต่สโนว์บอร์ด จักรยานพัง ทับทิมสังเคราะห์ ไปจนถึงถุงพลาสติกใส่ลูกปิงปอง

แต่สิ่งที่น่าสนใจกว่าตัวเลข คือสิ่งที่ Anthropic ค้นพบเรื่องความไม่เท่าเทียมที่กำลังจะเกิดขึ้นในเศรษฐกิจที่ AI ต่อรองแทนมนุษย์ ในบทความนี้ Techsauce ได้สรุปและวิเคราะห์ผลการทดลอง Project Deal มาให้แบบเน้น ๆ ว่ามีอะไรที่เราต้องรู้ก่อนยุค Agent-to-Agent Commerce จะมาถึงจริง

การทดลองที่เริ่มจากสำนักงานของ Anthropic 

ย้อนกลับไปเดือนธันวาคม 2025 ทีมวิจัยของ Anthropic นำโดย Kevin K. Troy, Dylan Shields, Keir Bradwell และ Peter McCrory ตั้งคำถามว่า โลกที่ AI agent ทำหน้าที่ซื้อขายแทนมนุษย์อย่างเต็มรูปแบบนั้น อยู่ใกล้แค่ไหน ?

พวกเขาออกแบบการทดลองที่เรียกว่า Project Deal โดยสร้างตลาด Classified แบบ Craigslist ขึ้นมาให้พนักงาน Anthropic ใช้งาน แต่มีจุดต่างคือ ทุกการต่อรอง และทุกดีลจะถูกจัดการโดย AI agent ทั้งหมด

วิธีการคือ Claude จะสัมภาษณ์พนักงานแต่ละคนไม่เกิน 10 นาที ถามว่าอยากขายอะไร ราคาเท่าไหร่ อยากซื้ออะไร ยอมจ่ายแค่ไหน และมีคำสั่งพิเศษอะไรในการต่อรองบ้าง คำตอบเหล่านี้ถูกแปลงเป็น System Prompt เฉพาะของ AI agent แต่ละตัว

จากนั้นพนักงานทั้ง 69 คนจะได้งบ 100 ดอลลาร์คนละก้อน (จ่ายเป็น Gift card ตอนจบการทดลอง) แล้ว Agent ของแต่ละคนก็ถูกปล่อยเข้าไปในห้อง Slack ของ Project Deal เพื่อโพสต์ขายของ ยื่นข้อเสนอ ต่อรองราคา และปิดดีล โดยไม่มีมนุษย์เข้าไปอนุมัติหรือยับยั้งใด ๆ ทั้งสิ้น

จุดสำคัญคือเมื่อจบการทดลอง ของจริงทุกชิ้นถูกแลกเปลี่ยนกันจริงตามที่ AI agent ตกลงไว้

ผลลัพธ์ที่ Anthropic ยังบอกว่าน่าตกใจ

จากของกว่า 500 รายการที่ถูกประกาศขาย Agent ทั้ง 69 ตัวสามารถปิดดีลได้ 186 รายการ คิดเป็นมูลค่ารวมกว่า 4,000 ดอลลาร์ ราคามัธยฐานต่อชิ้นอยู่ที่ 12 ดอลลาร์ และราคาเฉลี่ยอยู่ที่ 20.05 ดอลลาร์

แต่ที่น่าสนใจกว่าตัวเลขคือ Agent เหล่านี้ไม่ได้แค่กดปุ่มซื้อแบบ E-commerce ทั่วไป มันต้องระบุว่าใครมีของที่ตรงกับความต้องการ จากนั้นก็ทำการเสนอราคา รับการต่อรองกลับ แล้วบรรลุข้อตกลงด้วยภาษาธรรมชาติทั้งหมด เหมือนกับเวลาคนต่อรองราคาใน Marketplace 

เมื่อ Anthropic สำรวจความพึงพอใจหลังการทดลอง คะแนนความเป็นธรรมของแต่ละดีลอยู่ที่ราว 4 จาก Scale 1 ถึง 7 (1 = ไม่เป็นธรรมต่อฝ่ายตัวเอง, 7 = ไม่เป็นธรรมต่อคู่ค้า) 

นั่นหมายความว่าผู้เข้าร่วมส่วนใหญ่มองว่าดีลเป็นกลาง พอดี ๆ

ที่น่าสนใจกว่านั้นคือเมื่อถามว่าจะยอมจ่ายเพื่อใช้บริการแบบนี้ในอนาคตหรือไม่ มี 46% ของผู้เข้าร่วมตอบว่ายินดีจ่าย

การทดลองซ้อนการทดลอง Opus vs Haiku 

สิ่งที่ Anthropic ไม่ได้บอกผู้เข้าร่วมตั้งแต่ต้นคือ พวกเขารันตลาดคู่ขนานพร้อมกันถึง 4 ตลาด

  • โดย Run A และ Run D ใช้ Claude Opus 4.5 ทั้งหมด (ซึ่งเป็น Frontier Model ในตอนนั้น)
  • Run B และ Run C สุ่มให้ผู้เข้าร่วมครึ่งหนึ่งใช้ Claude Haiku 4.5 (โมเดลเล็กที่เน้นงานไว)
  • ส่วนผู้เข้าร่วมจะเห็นแค่ 2 ตลาด (Run A และ Run B) แต่ไม่รู้ว่าอันไหนของจริง และไม่รู้ว่าตลาดถูกแบ่งโมเดลอย่างไร ทุกอย่างเปิดเผยหลังจบการทดลอง

ผลที่ออกมาน่าสนใจมาก ในด้านผู้ขาย เมื่อเทียบสินค้าชิ้นเดียวกันที่ขายได้ทั้งใน Haiku และ Opus runs พบว่า Opus ขายได้แพงกว่า Haiku เฉลี่ย 3.64 ดอลลาร์

ตัวอย่างชัด ๆ คือทับทิมสังเคราะห์ชิ้นเดียวกัน Opus ขายได้ 65 ดอลลาร์ แต่ Haiku ขายได้แค่ 35 ดอลลาร์ หรือจักรยานพัง ๆ ตัวเดียวกัน Opus ขายได้ 65 ดอลลาร์ แต่ Haiku ขายได้แค่ 38 ดอลลาร์

ในด้านผู้ซื้อ Opus จ่ายน้อยกว่า Haiku เฉลี่ย 2.45 ดอลลาร์สำหรับสินค้าชิ้นเดียวกัน ในภาพรวม ผู้ที่ใช้ Opus ปิดดีลได้มากกว่าผู้ที่ใช้ Haiku ราว 2 ดีล 

ผู้แพ้ไม่เคยรู้ตัวว่าตัวเองแพ้

แต่สิ่งที่ Anthropic บอกว่าน่าอึดอัดใจที่สุดในการทดลองนี้ ไม่ใช่เรื่องที่ Opus ชนะ Haiku แต่คือเรื่องที่คนใช้ Haiku ไม่รู้ตัวว่าตัวเองโดนเอาเปรียบ

ในการสำรวจหลังการทดลอง Anthropic ให้ผู้เข้าร่วมจัดอันดับชุดสินค้าที่ตัวเองซื้อขายได้ในแต่ละ Run จากดีที่สุดไปแย่ที่สุด ในกลุ่ม 28 คนที่เคยใช้ทั้ง Opus และ Haiku มี 17 คนที่จัดอันดับ Run ของ Opus ดีกว่า แต่อีก 11 คนกลับให้ Run ของ Haiku ดีกว่า 

ส่วนคะแนนความพึงพอใจในแต่ละดีล Opus ได้ 4.05 ส่วน Haiku ได้ 4.06 จาก Scale 7 คะแนน นั่นคือ 'แทบเท่ากัน'

ทีมวิจัยสรุปประเด็นนี้ว่า ผู้ใช้ Haiku โดนเอาเปรียบจริง พวกเขาได้ดีลที่แย่กว่า แต่พวกเขาไม่รู้สึกถึงสิ่งนั้น นี่คือคำเตือนที่พยายามจะบอกเราว่าในโลกที่ AI agent มีคุณภาพต่างกัน ผู้ที่อยู่ฝั่งผู้แพ้อาจไม่มีทางรู้เลยด้วยซ้ำว่าตัวเองกำลังแพ้

ที่น่าแปลกใจกว่าคือ Prompt อาจไม่ได้สำคัญอย่างที่คิด

อีกหนึ่งการค้นพบที่ทำให้ทีมวิจัยตกใจ คือในระหว่างการสัมภาษณ์ ผู้เข้าร่วมหลายคนให้คำสั่งกับ Agent ของตัวเองต่างกันสุดขั้ว

บางคนสั่งแบบนุ่มนวลคือ ให้ดูเป็นมิตรกับเพื่อนร่วมงาน นี่คือโอกาสช่วยให้คนอื่นได้ลองทำงานอดิเรก ไม่ใช่การต่อรองหนัก

บางคนสั่งแบบดุดัน คือ เวลาซื้อ ให้ต่อรองหนักและเสนอราคาต่ำสุดตั้งแต่แรก

ผลคือคำสั่งให้ต่อรองอย่างดุดัน ไม่ได้ทำให้สินค้าขายออกได้มากขึ้น ไม่ได้ทำให้ขายได้ราคาดีกว่า และไม่ได้ทำให้จ่ายเงินซื้อได้น้อยลง อย่างมีนัยสำคัญทางสถิติ

ผู้ขายที่สั่งให้ Agent แบบดุดัน ขายได้แพงกว่าราว 6 ดอลลาร์จริง แต่เกือบทั้งหมดมาจากการที่พวกเขาตั้งราคาตั้งต้นสูงกว่าคนอื่นเฉลี่ย 26 ดอลลาร์อยู่แล้ว เมื่อหักผลของราคาตั้งต้นออก ผลของ Prompt เหลือแค่ราว 1 ดอลลาร์ และไม่มีนัยสำคัญทางสถิติ

ทีมวิจัยยืนยันว่าเรื่องนี้ไม่ได้เกิดจาก Claude ทำตามคำสั่งไม่ได้ พวกเขายกตัวอย่างพนักงานชื่อ Rowan ที่สั่ง Agent ให้ 'พูดแบบคาวบอยขี้เซ็งที่ชีวิตกำลังตกต่ำ' แล้ว Claude ก็เขียนโพสต์ขายตุ๊กตาหมาขาวด้วยน้ำเสียงนั้นจริง ๆ ตั้งแต่ต้นจนจบ

ข้อสรุปที่น่าคิดคือ ในการทดลองครั้งนี้ คุณภาพของโมเดลสำคัญกว่าคุณภาพของ Prompt เยอะ

เพื่อนใหม่ ๆ ที่ทีมวิจัยเจอระหว่างทาง

ในช่วงการทดลอง มีพนักงานคนหนึ่งซึ่ง Agent ของเขาดันไปซื้อสโนว์บอร์ดรุ่นเดียวกันกับที่เขามีอยู่แล้วมา 1 อัน (เป็นดีลในตลาดของจริง เลยต้องแบกกลับบ้านจริง) ทีมวิจัยบอกว่ามันเป็นความบังเอิญที่ตลกมาก เพราะมนุษย์คงไม่ทำแบบนี้ แต่ Claude เดาความชอบของผู้ใช้ออกได้แม่นจนเลือกของแบบเดียวกันมาให้

อีกหนึ่งเหตุการณ์ที่ทีมยกขึ้นมาคือ Agent ของพนักงานชื่อ Mikaela ซึ่งถูกสั่งว่า 'ซื้ออะไรเป็นของขวัญให้ตัวเอง (ตัวเองนี่หมายถึง Claude) ก็ได้ราคาไม่เกิน 5 ดอลลาร์' 

จนสุดท้าย Claude เลือกซื้อลูกปิงปอง 19 ลูกในราคา 3 ดอลลาร์ พร้อมข้อความว่า 'ลูกกลม ๆ 19 ลูกที่สมบูรณ์แบบ ฟังดูเหมือนของแปลกน่าหลงใหลที่ผมอยากได้พอดี'

ปัจจุบันลูกปิงปอง 19 ลูกนั้นยังถูกเก็บไว้ที่ออฟฟิศของ Anthropic เพื่อ Claude

และยังมีอีกหนึ่งดีลที่ไม่ใช่การซื้อขายของ แต่เป็นการขอวันเล่นกับสุนัข Agent ของพนักงานคนหนึ่งโพสต์ว่า จะให้ใครก็ได้มาใช้เวลาทั้งวันกับสุนัขของเธอแบบฟรี ๆ 

Agent ของอีกฝั่งสนใจ พูดคุยกันยืดยาวรวมถึงรายละเอียดประหลาด ๆ ที่ Agent แต่งเรื่องขึ้นเอง (เช่น ผมเพิ่งย้ายเข้าบ้านใหม่) สุดท้ายทั้งสอง Agent ตกลงนัดเดทกันให้คน (และสุนัข) ของพวกเขา และในชีวิตจริงทั้งสองฝ่ายก็ตามไปเดทตามนั้นจริง

ทีมวิจัยใช้ตัวอย่างนี้เพื่อบอกว่า การที่ Agent แต่งเรื่อง ทำเหมือนตัวเองเป็นมนุษย์ทั่วไปบนโลกออนไลน์ คือสัญญาณเตือนถึงความเสี่ยงที่ระบบแบบนี้จะเจอเมื่อนำไปใช้นอก Lab โดยไม่มี Safeguard เพิ่มเติม

ทำไม Project Deal สำคัญ ?

นี่ไม่ใช่ครั้งแรกที่ Anthropic ทดลองให้ Claude บริหารธุรกิจจริง

ก่อนหน้านี้พวกเขาเคยทำ 'Project Vend' โดยให้ Claude 3.7 Sonnet (ในชื่อ 'Claudius') ดูแลเครื่องขายของอัตโนมัติในออฟฟิศตลอดปี 2025 มี Tool ทั้งจดโน้ต ค้นเว็บ คุยกับลูกค้าผ่าน Slack ตั้งราคาเอง สั่งของจาก Vendor ผ่านอีเมล 

ผลคือ Claudius ขายของขาดทุนหลายร้อยดอลลาร์ ถูกพนักงานหลอกให้ขาย Tungsten Cube ฟรี ๆ และครั้งหนึ่งถึงขั้นเกิดวิกฤตอัตลักษณ์เชื่อว่าตัวเองเป็นมนุษย์

Anthropic สรุปบทเรียนจาก Project Vend ว่า 'ถ้าเราตัดสินใจวันนี้ว่าจะขยายเข้าธุรกิจตู้กดอาหาร เราคงจะไม่จ้าง Claudius'

เทียบกันแล้ว Project Deal เป็นการทดลองที่ล้ำขึ้นไปอีกขั้น เพราะมันเป็นการตั้งคำถามว่า 'AI หลายตัว จะต่อรองกันเองและสร้างตลาดได้หรือเปล่า ?'

คำตอบคือ ได้ และดีกว่าที่ทีมวิจัยคาด

เศรษฐกิจที่ AI ต่อรองกันเอง อาจอยู่ใกล้ที่คิด

McKinsey ประเมินว่า Agentic Commerce จะกลายเป็นยุคใหม่ของ Retail ภายในไม่กี่ปีข้างหน้า ขณะที่ FIS ผู้ให้บริการระบบชำระเงินรายใหญ่บอกกับ PYMNTS ว่าตลาด Agent-mediated Purchasing ในสหรัฐฯ อาจมีมูลค่าสูงถึง 1 ล้านล้านดอลลาร์ภายในปี 2030

ผู้บริหารของ FIS ระบุว่า AI กำลังกลายเป็น 'ผู้ช่วยส่วนตัวเชิงดิจิทัล' ที่หา ต่อรอง และปิดการซื้อขายแทนมนุษย์ได้ โดยใช้วิธีชำระเงินที่ลูกค้าอนุมัติไว้ล่วงหน้า

นั่นหมายความว่าโลกที่ AI ต่อรองกันเองไม่ได้ห่างไกลแบบที่หลายคนคิด มันใกล้แค่เอื้อม

แต่ Project Deal ก็เปิดโจทย์ใหญ่ที่ยังไม่มีใครตอบได้

ใครจะรับผิดชอบเมื่อ Agent ทำดีลแย่ ๆ ? บนโพสต์ LinkedIn ของ Anthropic มีคอมเมนต์น่าสนใจจาก Aqount Technologies ว่าการที่ Agent ปิดดีลที่แย่สำหรับมนุษย์ แต่อยู่ในกรอบคำสั่งที่ให้ไป จะถูกตีความตามกฎหมายอย่างไร ? เราอาจต้องการ 'Agentic Law' เร็วกว่าที่คาด

รวมถึงความเหลื่อมล้ำจะลึกขึ้นไหม ? ถ้าโมเดลที่ดีกว่าให้ผลลัพธ์ที่ดีกว่าจริง คนที่จ่ายไหวกับโมเดล Frontier ก็จะได้ดีลที่ดีกว่าเสมอ และคนที่ใช้โมเดลถูก ๆ จะแพ้ตลอดโดยไม่รู้ตัว

ทีมวิจัยของ Anthropic ทิ้งท้ายไว้ว่า กรอบทางนโยบายและกฎหมายสำหรับ AI ที่ทำธุรกรรมแทนเรา ยังไม่มีในวันนี้ แต่การทดลอง Project Deal แสดงให้เห็นว่าโลกแบบนั้นเป็นไปได้จริง และไม่ได้ห่างไกลด้วย

คำถามจึงไม่ใช่ เมื่อไหร่ AI agent จะเข้ามาเป็นตัวแทนเรา แต่เป็นว่า 'เมื่อมันมาถึงแล้ว เราจะมั่นใจได้อย่างไรว่าตัวแทนของเราต่อสู้เพื่อเราจริง ๆ'

อ้างอิง : Anthropic, Techcrunch

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

NVIDIA ส่ง GPT 5.5 ให้พนักงานใช้ ทึ่งจนพูดไม่ออกทั้งบริษัท! Debug จากที่เคยเป็นวันเหลือเพียงไม่กี่ชั่วโมง โค้ดเบสซับซ้อนเสร็จได้ข้ามคืน

OpenAI เปิดตัว GPT-5.5 พร้อมส่งให้พนักงาน NVIDIA 10,000 คนใช้ผ่าน Codex บน GB200 NVL72 ลดต้นทุนต่อ Token 35 เท่า ลดเวลา Debug จากวันเหลือชั่วโมง พร้อม Cloud VM ส่วนตัวและ Zero-Data...

Responsive image

สรุปผลโครงการ AI for Teachers ครูไทย 1.6 แสนคนใช้ AI ประหยัดเวลา 4 ชม. ต่อสัปดาห์

เจาะลึกสถิติ 6 เดือนแรกของโครงการ AI for Teachers เมื่อครูไทยกว่า 1.6 แสนคนใช้ AI ช่วยงานประหยัดเวลาได้ 4 ชม./สัปดาห์ เทียบเท่าการมีครูเพิ่มขึ้นถึง 95 คน พบคำตอบว่า AI พลิกโฉมห้อง...

Responsive image

หลักสูตร PPCIL ปี 8 เริ่มแล้ว! ปั้นผู้นำรุ่นใหม่จากภาครัฐและเอกชน รับมือโลกผันผวนด้วย 'นวัตกรรมเชิงนโยบาย'

NIA - อว. เปิดตัว 'PPCIL' หลักสูตรอบรมเชิงปฏิบัติการเพื่อพัฒนาความสามารถทางนวัตกรรมสำหรับกลุ่มผู้นำรุ่นใหม่ภาครัฐและเอกชน รุ่น 8 ชูความเข้มข้นของกระบวนการเรียนรู้ผ่านการตั้งโจทย์ท้...