Anthropic แฉยับ AI จีนใช้วิธี Distillation Attack ขโมยความอัจฉริยะของ Claude ไปปั้นโมเดลของตัวเอง

Anthropic ผู้สร้าง AI ชื่อดังอย่าง Claude ได้ออกมาเปิดเผยข้อมูลที่น่าตกใจเกี่ยวกับขบวนการ Distillation Attack จาก AI ยักษ์ใหญ่ของจีนทั้งหมด 3 แห่ง ได้แก่ DeepSeek, Moonshot และ MiniMax ที่พยายามดึงเอาความสามารถของ Claude ไปใช้พัฒนาโมเดลของตัวเองอย่างผิดกฎหมาย 

Distillation Attack คืออะไร ?

Distillation Attack คือการโจมตีแบบสกัดความรู้จากโมเดล LLM โดยผู้โจมตีจะสกัดเอาความรู้จากโมเดลใหญ่ ๆ ไปใส่ในโมเดลใหม่ที่กำลังพัฒนา หรือเป็นการลักวิชาความรู้ความเก่งของโมเดลโดยที่ไม่ต้องลงทุนลงแรงมาก โดยมีหลักการทำงานคือ

  • เขียนสคริปต์เพื่อส่งคำถามจำนวนมหาศาลยิงไปที่ API ของโมเดล เพื่อสกัดเอาความรู้พื้นฐานของโมเดลนั้น ๆ ออกมา
  • รวบข้อมูลที่สกัดออกมาได้จากโมเดลเป้าหมาย เพื่อสร้างข้อมูลคุณภาพสูงออกมา 
  • นำข้อมูลที่ได้ไปเทรนโมเดลใหม่ ๆ โดยใช้ความรู้จากโมเดลที่ไปโจมตีมา เพื่อสร้างโมเดลเป็นของตัวเอง 


แล้ว AI จีนโจมตีได้ Claude ได้อย่างไร ในเมื่อไม่ได้เปิดบริการในจีน ? 

Anthropic อธิบายว่า บริษัทเหล่านี้ใช้ Proxy เพื่อเข้าถึง Claude และโมเดล AI อื่น ๆ บริการเหล่านี้ทำงานใต้สถาปัตกรรมที่เรียกว่า Hydra Cluster ซึ่งเป็นเครือข่ายบัญชีปลอม สามารถกระจายทราฟิกผ่าน API และแพลตฟอร์มอื่น ๆ ได้ หมายความว่า หากบัญชีใดบัญชีหนึ่งถูกแบน บัญชีใหม่ก็จะมาแทนที่ทันที

Anthropic ระบุว่า การโจมตี Distillation Attack ครั้งนี้ บริษัท AI จีนที่ถูกกล่าวอ้าง (DeepSeek, Moonshot, MiniMax) ใช้วิธีการที่คล้ายกันคือ ใช้บัญชีปลอมและบริการ Proxy เพื่อยิงคำถามใส่ Claude รวมแล้วกว่า 16 ล้านครั้ง เพื่อเก็บข้อมูลไปสอน AI ของตนเองในราคาที่ถูกกว่าและเร็วกว่าการวิจัยเองหลายเท่าตัว โดยมีตัวอย่าง Prompt เช่น 

คุณคือผู้เชี่ยวชาญด้านการวิเคราะห์ข้อมูลที่ผสมผสานความแม่นยำทางสถิติเข้ากับความรู้เชิงลึกในอุตสาหกรรม เป้าหมายของคุณคือการนำเสนอข้อมูลเชิงลึกที่ขับเคลื่อนด้วยข้อมูล (ไม่ใช่แค่การสรุปหรือสร้างภาพกราฟิก) โดยต้องอิงจากข้อมูลจริง และสนับสนุนด้วยการให้เหตุผลที่สมบูรณ์และโปร่งใส

ส่วนวิธีการโจมตีของแต่ละค่ายที่ Anthropic กล่าวอ้าง มีดังนี้

DeepSeek

โจมตีมากกว่า 150,000 บทสนทนา

โจมตีทำไม ?

  • พุ่งเป้าไปที่ความสามารถในการให้เหตุผลในงานต่าง ๆ
  • ใช้ Claude เป็นคนตรวจให้คะแนน (Reward model สำหรับ Reinforcement Learning) การสร้างคำตอบที่หลบเลี่ยงการเซ็นเซอร์ได้

โจมตีอย่างไร ? 

DeepSeek สร้างบัญชีหลายบัญชีโดยมีแพทเทิร์นการทำงานเหมือนกัน ใช้วิธีการชำระเงินแบบเดียวกัน และมีจังหวะดึงข้อมูลพร้อม ๆ กัน เพื่อเร่งความเร็วในการดูดข้อมูลให้ได้มากที่สุด

โดยสั่งให้ Claude จินตนาการและอธิบายกระบวนการคิดเบื้องหลังคำตอบแบบทีละขั้นตอน ซึ่งเป็นการสร้างข้อมูลฝึกสอนแบบ Chain-of-Thought ในสเกลที่ใหญ่มาก ซึ่งเท่ากับสั่งให้ Claude คายกระบวนการคิดออกมา เพื่อเอาไปสอน AI ให้คิดเป็นตรรกะแบบเดียวกัน

นอกจากนี้ ยังใช้ Claude สร้างคำตอบที่ปลอดภัยจากการถูกเซ็นเซอร์ในประเด็นอ่อนไหวทางการเมือง (เช่น เรื่องผู้นำพรรค หรือระบอบเผด็จการ) เพื่อนำไปสอน AI ของตัวเองให้รู้จักเลี่ยงหรือตอบคำถามเหล่านี้ได้อย่างปลอดภัยในประเทศจีน

หลังจากที่ Anthropic ตรวจสอบข้อมูล Metadata ก็สามารถแกะรอยย้อนกลับไปถึงนักวิจัยเฉพาะบุคคลในแล็บของ DeepSeek ได้ด้วย

Moonshot AI

โจมตีมากกว่า 3.4 ล้านบทสนทนา

โจมตีทำไม ?

  • พัฒนา Agentic reasoning และการใช้เครื่องมือ
  • พัฒนาการเขียนโค้ดและวิเคราะห์ข้อมูล
  • การพัฒนา Agent ที่ใช้งานคอมพิวเตอร์ 
  • พัฒนา Computer vision

โจมตีอย่างไร ?

สร้างบัญชีปลอมหลายร้อยบัญชี และใช้ช่องทางการเข้าถึงที่หลากหลาย ทำให้ตรวจจับพฤติกรรมการโจมตีได้ยาก ในช่วงหลังของการโจมตี Moonshot เปลี่ยนมาใช้วิธีที่เจาะจงมากขึ้น โดยพยายามที่จะดูดและประกอบร่างร่องรอยกระบวนการคิดของ Claude ขึ้นมาใหม่ เพื่อก๊อปปี้ความฉลาดเชิงตรรกะไปแบบเนียน ๆ

Anthropic แกะรอยผ่าน Metadata ของคำขอ ซึ่งพอเอาไปตรวจสอบกลับพบว่า ข้อมูลเหล่านี้ไปตรงกับ "โปรไฟล์สาธารณะของพนักงานระดับสูง" ของทาง Moonshot

Minimax

Distillation Attack มากกว่า 13 ล้านบทสนทนา

โจมตีทำไม ?

  • พัฒนา Agentic Coding
  • พัฒนาการใช้เครื่องมือ และการจัดการระบบ

โจมตีอย่างไร ?

Anthropic เล่าว่า ในช่วงที่ MiniMax กำลังรันแคมเปญดูดข้อมูลอยู่นั้น Antrhopic ได้อัปเดตและปล่อยโมเดลรุ่นใหม่ออกมา 

พอ MiniMax ทราบข่าว พวกเขาใช้เวลาไม่ถึง 24 ชั่วโมงในการปรับระบบ และโยกทราฟฟิกคำสั่งปลอมเกือบครึ่งหนึ่งให้พุ่งเป้าไปดูดข้อมูลความสามารถจากโมเดลตัวใหม่ทันที 

ที่น่าสนใจคือ Anthropic ตรวจพบการโจมตีครั้งนี้ตั้งแต่ตอนที่ MiniMax เทรนโมเดลตัวเองอยู่ (ตรวจเจอก่อนที่ MiniMax จะปล่อยโมเดลสู่สาธารณะ) ทำให้ Anthropic มองเห็นวงจรชีวิตของการทำ Distillation Attack แบบทะลุปรุโปร่งตั้งแต่ขั้นตอนการสร้างข้อมูล ไปจนถึงตอนที่โมเดลนั้นถูกเปิดตัว

Anthropic จะทำอย่างไรต่อ ?

Anthropic ระบุว่า จะเดินหน้าลงทุนอย่างหนักในระบบป้องกัน เพื่อทำให้การโจมตีแบบ Distillation ทำได้ยากขึ้น โดยมาตรการคือ

  • สร้าง Classifier และระบบระบุพฤติกรรมขึ้นมาหลายตัว เพื่อจับรูปแบบการโจมตีแบบ Distillation ในทราฟฟิก API รวมถึงการตรวจจับการดึงข้อมูลแบบ Chain-of-thought ที่ใช้สร้างข้อมูลสำหรับสอนกระบวนการคิด 
  • แชร์ข่าวกรอง และเทคนิคการโจมตีให้กับผู้บริการคลาวด์และหน่วยงานที่เกี่ยวข้อง
  • เพิ่มความเข้มงวดในการยืนยันตัวตนสำหรับบัญชีภาคการศึกษา โครงการวิจัยด้านความปลอดภัย และสตาร์ทอัพ ซึ่งเป็นช่องทางที่มักถูกฉวยโอกาสนำไปเปิดบัญชีปลอมมากที่สุด
  • พัฒนาระบบป้องกันในระดับผลิตภัณฑ์ API และระดับโมเดล ที่ออกแบบมาเพื่อลดประสิทธิภาพของผลลัพธ์ที่จะถูกนำไปใช้ทำ Distillation อย่างผิดกฎหมาย

อ้างอิง : Anthropic

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

อ.เชน เปิด 8 ยุทธศาสตร์ อว. พลิกไทยสู่ประเทศรายได้สูง

กระทรวงการอุดมศึกษา วิทยาศาสตร์ วิจัยและนวัตกรรม (อว.) เปิดฉากแถลงนโยบายอย่างเป็นทางการครั้งแรก โดยมี ศ.ดร.ยศชนัน วงศ์สวัสดิ์ รองนายกรัฐมนตรีและรัฐมนตรีว่าการกระทรวง อว. เป็นประธาน...

Responsive image

Microsoft ประกาศลงทุน 1 พันล้านดอลลาร์ในไทย ยกระดับ Cloud และ AI สู่อนาคตเศรษฐกิจดิจิทัล

Microsoft ประกาศลงทุนกว่า 1 พันล้านดอลลาร์ในประเทศไทย พัฒนาโครงสร้างพื้นฐาน Cloud และ AI ยกระดับเศรษฐกิจดิจิทัลและผลักดันไทยสู่ศูนย์กลาง AI ในเอเชีย...

Responsive image

OpenAI เปิด ChatGPT Pro แพลน 100 ดอลลาร์ เติมช่องว่างราคาที่หายไป เพราะ Codex โตเร็วเกินคาด

OpenAI เปิดตัวแพ็กเกจ ChatGPT Pro ใหม่ราคา $100/เดือน อัปเกรดขีดจำกัดการเขียนโค้ด (Codex) เพิ่มขึ้น 5 เท่า...