Anthropic แฉยับ AI จีนใช้วิธี Distillation Attack ขโมยความอัจฉริยะของ Claude ไปปั้นโมเดลของตัวเอง

Anthropic ผู้สร้าง AI ชื่อดังอย่าง Claude ได้ออกมาเปิดเผยข้อมูลที่น่าตกใจเกี่ยวกับขบวนการ Distillation Attack จาก AI ยักษ์ใหญ่ของจีนทั้งหมด 3 แห่ง ได้แก่ DeepSeek, Moonshot และ MiniMax ที่พยายามดึงเอาความสามารถของ Claude ไปใช้พัฒนาโมเดลของตัวเองอย่างผิดกฎหมาย 

Distillation Attack คืออะไร ?

Distillation Attack คือการโจมตีแบบสกัดความรู้จากโมเดล LLM โดยผู้โจมตีจะสกัดเอาความรู้จากโมเดลใหญ่ ๆ ไปใส่ในโมเดลใหม่ที่กำลังพัฒนา หรือเป็นการลักวิชาความรู้ความเก่งของโมเดลโดยที่ไม่ต้องลงทุนลงแรงมาก โดยมีหลักการทำงานคือ

  • เขียนสคริปต์เพื่อส่งคำถามจำนวนมหาศาลยิงไปที่ API ของโมเดล เพื่อสกัดเอาความรู้พื้นฐานของโมเดลนั้น ๆ ออกมา
  • รวบข้อมูลที่สกัดออกมาได้จากโมเดลเป้าหมาย เพื่อสร้างข้อมูลคุณภาพสูงออกมา 
  • นำข้อมูลที่ได้ไปเทรนโมเดลใหม่ ๆ โดยใช้ความรู้จากโมเดลที่ไปโจมตีมา เพื่อสร้างโมเดลเป็นของตัวเอง 


แล้ว AI จีนโจมตีได้ Claude ได้อย่างไร ในเมื่อไม่ได้เปิดบริการในจีน ? 

Anthropic อธิบายว่า บริษัทเหล่านี้ใช้ Proxy เพื่อเข้าถึง Claude และโมเดล AI อื่น ๆ บริการเหล่านี้ทำงานใต้สถาปัตกรรมที่เรียกว่า Hydra Cluster ซึ่งเป็นเครือข่ายบัญชีปลอม สามารถกระจายทราฟิกผ่าน API และแพลตฟอร์มอื่น ๆ ได้ หมายความว่า หากบัญชีใดบัญชีหนึ่งถูกแบน บัญชีใหม่ก็จะมาแทนที่ทันที

Anthropic ระบุว่า การโจมตี Distillation Attack ครั้งนี้ บริษัท AI จีนที่ถูกกล่าวอ้าง (DeepSeek, Moonshot, MiniMax) ใช้วิธีการที่คล้ายกันคือ ใช้บัญชีปลอมและบริการ Proxy เพื่อยิงคำถามใส่ Claude รวมแล้วกว่า 16 ล้านครั้ง เพื่อเก็บข้อมูลไปสอน AI ของตนเองในราคาที่ถูกกว่าและเร็วกว่าการวิจัยเองหลายเท่าตัว โดยมีตัวอย่าง Prompt เช่น 

คุณคือผู้เชี่ยวชาญด้านการวิเคราะห์ข้อมูลที่ผสมผสานความแม่นยำทางสถิติเข้ากับความรู้เชิงลึกในอุตสาหกรรม เป้าหมายของคุณคือการนำเสนอข้อมูลเชิงลึกที่ขับเคลื่อนด้วยข้อมูล (ไม่ใช่แค่การสรุปหรือสร้างภาพกราฟิก) โดยต้องอิงจากข้อมูลจริง และสนับสนุนด้วยการให้เหตุผลที่สมบูรณ์และโปร่งใส

ส่วนวิธีการโจมตีของแต่ละค่ายที่ Anthropic กล่าวอ้าง มีดังนี้

DeepSeek

โจมตีมากกว่า 150,000 บทสนทนา

โจมตีทำไม ?

  • พุ่งเป้าไปที่ความสามารถในการให้เหตุผลในงานต่าง ๆ
  • ใช้ Claude เป็นคนตรวจให้คะแนน (Reward model สำหรับ Reinforcement Learning) การสร้างคำตอบที่หลบเลี่ยงการเซ็นเซอร์ได้

โจมตีอย่างไร ? 

DeepSeek สร้างบัญชีหลายบัญชีโดยมีแพทเทิร์นการทำงานเหมือนกัน ใช้วิธีการชำระเงินแบบเดียวกัน และมีจังหวะดึงข้อมูลพร้อม ๆ กัน เพื่อเร่งความเร็วในการดูดข้อมูลให้ได้มากที่สุด

โดยสั่งให้ Claude จินตนาการและอธิบายกระบวนการคิดเบื้องหลังคำตอบแบบทีละขั้นตอน ซึ่งเป็นการสร้างข้อมูลฝึกสอนแบบ Chain-of-Thought ในสเกลที่ใหญ่มาก ซึ่งเท่ากับสั่งให้ Claude คายกระบวนการคิดออกมา เพื่อเอาไปสอน AI ให้คิดเป็นตรรกะแบบเดียวกัน

นอกจากนี้ ยังใช้ Claude สร้างคำตอบที่ปลอดภัยจากการถูกเซ็นเซอร์ในประเด็นอ่อนไหวทางการเมือง (เช่น เรื่องผู้นำพรรค หรือระบอบเผด็จการ) เพื่อนำไปสอน AI ของตัวเองให้รู้จักเลี่ยงหรือตอบคำถามเหล่านี้ได้อย่างปลอดภัยในประเทศจีน

หลังจากที่ Anthropic ตรวจสอบข้อมูล Metadata ก็สามารถแกะรอยย้อนกลับไปถึงนักวิจัยเฉพาะบุคคลในแล็บของ DeepSeek ได้ด้วย

Moonshot AI

โจมตีมากกว่า 3.4 ล้านบทสนทนา

โจมตีทำไม ?

  • พัฒนา Agentic reasoning และการใช้เครื่องมือ
  • พัฒนาการเขียนโค้ดและวิเคราะห์ข้อมูล
  • การพัฒนา Agent ที่ใช้งานคอมพิวเตอร์ 
  • พัฒนา Computer vision

โจมตีอย่างไร ?

สร้างบัญชีปลอมหลายร้อยบัญชี และใช้ช่องทางการเข้าถึงที่หลากหลาย ทำให้ตรวจจับพฤติกรรมการโจมตีได้ยาก ในช่วงหลังของการโจมตี Moonshot เปลี่ยนมาใช้วิธีที่เจาะจงมากขึ้น โดยพยายามที่จะดูดและประกอบร่างร่องรอยกระบวนการคิดของ Claude ขึ้นมาใหม่ เพื่อก๊อปปี้ความฉลาดเชิงตรรกะไปแบบเนียน ๆ

Anthropic แกะรอยผ่าน Metadata ของคำขอ ซึ่งพอเอาไปตรวจสอบกลับพบว่า ข้อมูลเหล่านี้ไปตรงกับ "โปรไฟล์สาธารณะของพนักงานระดับสูง" ของทาง Moonshot

Minimax

Distillation Attack มากกว่า 13 ล้านบทสนทนา

โจมตีทำไม ?

  • พัฒนา Agentic Coding
  • พัฒนาการใช้เครื่องมือ และการจัดการระบบ

โจมตีอย่างไร ?

Anthropic เล่าว่า ในช่วงที่ MiniMax กำลังรันแคมเปญดูดข้อมูลอยู่นั้น Antrhopic ได้อัปเดตและปล่อยโมเดลรุ่นใหม่ออกมา 

พอ MiniMax ทราบข่าว พวกเขาใช้เวลาไม่ถึง 24 ชั่วโมงในการปรับระบบ และโยกทราฟฟิกคำสั่งปลอมเกือบครึ่งหนึ่งให้พุ่งเป้าไปดูดข้อมูลความสามารถจากโมเดลตัวใหม่ทันที 

ที่น่าสนใจคือ Anthropic ตรวจพบการโจมตีครั้งนี้ตั้งแต่ตอนที่ MiniMax เทรนโมเดลตัวเองอยู่ (ตรวจเจอก่อนที่ MiniMax จะปล่อยโมเดลสู่สาธารณะ) ทำให้ Anthropic มองเห็นวงจรชีวิตของการทำ Distillation Attack แบบทะลุปรุโปร่งตั้งแต่ขั้นตอนการสร้างข้อมูล ไปจนถึงตอนที่โมเดลนั้นถูกเปิดตัว

Anthropic จะทำอย่างไรต่อ ?

Anthropic ระบุว่า จะเดินหน้าลงทุนอย่างหนักในระบบป้องกัน เพื่อทำให้การโจมตีแบบ Distillation ทำได้ยากขึ้น โดยมาตรการคือ

  • สร้าง Classifier และระบบระบุพฤติกรรมขึ้นมาหลายตัว เพื่อจับรูปแบบการโจมตีแบบ Distillation ในทราฟฟิก API รวมถึงการตรวจจับการดึงข้อมูลแบบ Chain-of-thought ที่ใช้สร้างข้อมูลสำหรับสอนกระบวนการคิด 
  • แชร์ข่าวกรอง และเทคนิคการโจมตีให้กับผู้บริการคลาวด์และหน่วยงานที่เกี่ยวข้อง
  • เพิ่มความเข้มงวดในการยืนยันตัวตนสำหรับบัญชีภาคการศึกษา โครงการวิจัยด้านความปลอดภัย และสตาร์ทอัพ ซึ่งเป็นช่องทางที่มักถูกฉวยโอกาสนำไปเปิดบัญชีปลอมมากที่สุด
  • พัฒนาระบบป้องกันในระดับผลิตภัณฑ์ API และระดับโมเดล ที่ออกแบบมาเพื่อลดประสิทธิภาพของผลลัพธ์ที่จะถูกนำไปใช้ทำ Distillation อย่างผิดกฎหมาย

อ้างอิง : Anthropic

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

ทำไมบางคนเลือกยุติการตั้งครรภ์​ ? เปิดอินไซต์ 12,000 เคส จาก ‘พักใจคลินิก’ ดาต้าใหม่ที่ได้จาก Telemedicine สะท้อนถึงวิกฤตเด็กเกิดใหม่ในไทย

ปี 2568 ประเทศไทยมีเด็กเกิดใหม่ 416,574 คน ต่ำสุดในรอบ 75 ปี ตัวเลขนี้ทำให้ทั้งภาครัฐและเอกชนพยายามตอบคำถามเดิมซ้ำกันว่า 'ทำไมคนไทยไม่อยากมีลูก ?' แล้วออกมาตรการกระตุ้นการมีบุตร ลด...

Responsive image

ทำไม Formula 1 ถึงเป็นสถานที่ดีลธุรกิจแห่งใหม่ของ Startup และนักลงทุน

ไม่กี่ปีที่ผ่านมา F1 ได้กลายเป็นอีกหนึ่ง ‘ศูนย์กลางธุรกิจ’ ของโลกเทคโนโลยี สตาร์ทอัพ นักลงทุน ไปจนถึงบริษัท AI และ Cloud รายใหญ่ของโลก...

Responsive image

นักวิจัยพัฒนา ‘เครื่องช่วยฟัง’ ใช้คลื่นสมองเลือกเสียงพูด ช่วยแยกเสียงในที่คนคุยพร้อมกัน นวัตกรรมเพื่อผู้มีปัญหาการได้ยิน

นักวิจัยจาก Columbia University พัฒนาเครื่องช่วยฟังรุ่นใหม่ได้สำเร็จ โดยระบบจะสามารถรับรู้ได้เองว่าผู้สวมใส่กำลังตั้งใจฟังใครอยู่ จากนั้นจะค่อยๆ ดึงเสียงขนั้นให้ชัดขึ้นโดยอัตโนมัติ...