Anthropic แฉยับ AI จีนใช้วิธี Distillation Attack ขโมยความอัจฉริยะของ Claude ไปปั้นโมเดลของตัวเอง

Anthropic ผู้สร้าง AI ชื่อดังอย่าง Claude ได้ออกมาเปิดเผยข้อมูลที่น่าตกใจเกี่ยวกับขบวนการ Distillation Attack จาก AI ยักษ์ใหญ่ของจีนทั้งหมด 3 แห่ง ได้แก่ DeepSeek, Moonshot และ MiniMax ที่พยายามดึงเอาความสามารถของ Claude ไปใช้พัฒนาโมเดลของตัวเองอย่างผิดกฎหมาย 

Distillation Attack คืออะไร ?

Distillation Attack คือการโจมตีแบบสกัดความรู้จากโมเดล LLM โดยผู้โจมตีจะสกัดเอาความรู้จากโมเดลใหญ่ ๆ ไปใส่ในโมเดลใหม่ที่กำลังพัฒนา หรือเป็นการลักวิชาความรู้ความเก่งของโมเดลโดยที่ไม่ต้องลงทุนลงแรงมาก โดยมีหลักการทำงานคือ

  • เขียนสคริปต์เพื่อส่งคำถามจำนวนมหาศาลยิงไปที่ API ของโมเดล เพื่อสกัดเอาความรู้พื้นฐานของโมเดลนั้น ๆ ออกมา
  • รวบข้อมูลที่สกัดออกมาได้จากโมเดลเป้าหมาย เพื่อสร้างข้อมูลคุณภาพสูงออกมา 
  • นำข้อมูลที่ได้ไปเทรนโมเดลใหม่ ๆ โดยใช้ความรู้จากโมเดลที่ไปโจมตีมา เพื่อสร้างโมเดลเป็นของตัวเอง 


แล้ว AI จีนโจมตีได้ Claude ได้อย่างไร ในเมื่อไม่ได้เปิดบริการในจีน ? 

Anthropic อธิบายว่า บริษัทเหล่านี้ใช้ Proxy เพื่อเข้าถึง Claude และโมเดล AI อื่น ๆ บริการเหล่านี้ทำงานใต้สถาปัตกรรมที่เรียกว่า Hydra Cluster ซึ่งเป็นเครือข่ายบัญชีปลอม สามารถกระจายทราฟิกผ่าน API และแพลตฟอร์มอื่น ๆ ได้ หมายความว่า หากบัญชีใดบัญชีหนึ่งถูกแบน บัญชีใหม่ก็จะมาแทนที่ทันที

Anthropic ระบุว่า การโจมตี Distillation Attack ครั้งนี้ บริษัท AI จีนที่ถูกกล่าวอ้าง (DeepSeek, Moonshot, MiniMax) ใช้วิธีการที่คล้ายกันคือ ใช้บัญชีปลอมและบริการ Proxy เพื่อยิงคำถามใส่ Claude รวมแล้วกว่า 16 ล้านครั้ง เพื่อเก็บข้อมูลไปสอน AI ของตนเองในราคาที่ถูกกว่าและเร็วกว่าการวิจัยเองหลายเท่าตัว โดยมีตัวอย่าง Prompt เช่น 

คุณคือผู้เชี่ยวชาญด้านการวิเคราะห์ข้อมูลที่ผสมผสานความแม่นยำทางสถิติเข้ากับความรู้เชิงลึกในอุตสาหกรรม เป้าหมายของคุณคือการนำเสนอข้อมูลเชิงลึกที่ขับเคลื่อนด้วยข้อมูล (ไม่ใช่แค่การสรุปหรือสร้างภาพกราฟิก) โดยต้องอิงจากข้อมูลจริง และสนับสนุนด้วยการให้เหตุผลที่สมบูรณ์และโปร่งใส

ส่วนวิธีการโจมตีของแต่ละค่ายที่ Anthropic กล่าวอ้าง มีดังนี้

DeepSeek

โจมตีมากกว่า 150,000 บทสนทนา

โจมตีทำไม ?

  • พุ่งเป้าไปที่ความสามารถในการให้เหตุผลในงานต่าง ๆ
  • ใช้ Claude เป็นคนตรวจให้คะแนน (Reward model สำหรับ Reinforcement Learning) การสร้างคำตอบที่หลบเลี่ยงการเซ็นเซอร์ได้

โจมตีอย่างไร ? 

DeepSeek สร้างบัญชีหลายบัญชีโดยมีแพทเทิร์นการทำงานเหมือนกัน ใช้วิธีการชำระเงินแบบเดียวกัน และมีจังหวะดึงข้อมูลพร้อม ๆ กัน เพื่อเร่งความเร็วในการดูดข้อมูลให้ได้มากที่สุด

โดยสั่งให้ Claude จินตนาการและอธิบายกระบวนการคิดเบื้องหลังคำตอบแบบทีละขั้นตอน ซึ่งเป็นการสร้างข้อมูลฝึกสอนแบบ Chain-of-Thought ในสเกลที่ใหญ่มาก ซึ่งเท่ากับสั่งให้ Claude คายกระบวนการคิดออกมา เพื่อเอาไปสอน AI ให้คิดเป็นตรรกะแบบเดียวกัน

นอกจากนี้ ยังใช้ Claude สร้างคำตอบที่ปลอดภัยจากการถูกเซ็นเซอร์ในประเด็นอ่อนไหวทางการเมือง (เช่น เรื่องผู้นำพรรค หรือระบอบเผด็จการ) เพื่อนำไปสอน AI ของตัวเองให้รู้จักเลี่ยงหรือตอบคำถามเหล่านี้ได้อย่างปลอดภัยในประเทศจีน

หลังจากที่ Anthropic ตรวจสอบข้อมูล Metadata ก็สามารถแกะรอยย้อนกลับไปถึงนักวิจัยเฉพาะบุคคลในแล็บของ DeepSeek ได้ด้วย

Moonshot AI

โจมตีมากกว่า 3.4 ล้านบทสนทนา

โจมตีทำไม ?

  • พัฒนา Agentic reasoning และการใช้เครื่องมือ
  • พัฒนาการเขียนโค้ดและวิเคราะห์ข้อมูล
  • การพัฒนา Agent ที่ใช้งานคอมพิวเตอร์ 
  • พัฒนา Computer vision

โจมตีอย่างไร ?

สร้างบัญชีปลอมหลายร้อยบัญชี และใช้ช่องทางการเข้าถึงที่หลากหลาย ทำให้ตรวจจับพฤติกรรมการโจมตีได้ยาก ในช่วงหลังของการโจมตี Moonshot เปลี่ยนมาใช้วิธีที่เจาะจงมากขึ้น โดยพยายามที่จะดูดและประกอบร่างร่องรอยกระบวนการคิดของ Claude ขึ้นมาใหม่ เพื่อก๊อปปี้ความฉลาดเชิงตรรกะไปแบบเนียน ๆ

Anthropic แกะรอยผ่าน Metadata ของคำขอ ซึ่งพอเอาไปตรวจสอบกลับพบว่า ข้อมูลเหล่านี้ไปตรงกับ "โปรไฟล์สาธารณะของพนักงานระดับสูง" ของทาง Moonshot

Minimax

Distillation Attack มากกว่า 13 ล้านบทสนทนา

โจมตีทำไม ?

  • พัฒนา Agentic Coding
  • พัฒนาการใช้เครื่องมือ และการจัดการระบบ

โจมตีอย่างไร ?

Anthropic เล่าว่า ในช่วงที่ MiniMax กำลังรันแคมเปญดูดข้อมูลอยู่นั้น Antrhopic ได้อัปเดตและปล่อยโมเดลรุ่นใหม่ออกมา 

พอ MiniMax ทราบข่าว พวกเขาใช้เวลาไม่ถึง 24 ชั่วโมงในการปรับระบบ และโยกทราฟฟิกคำสั่งปลอมเกือบครึ่งหนึ่งให้พุ่งเป้าไปดูดข้อมูลความสามารถจากโมเดลตัวใหม่ทันที 

ที่น่าสนใจคือ Anthropic ตรวจพบการโจมตีครั้งนี้ตั้งแต่ตอนที่ MiniMax เทรนโมเดลตัวเองอยู่ (ตรวจเจอก่อนที่ MiniMax จะปล่อยโมเดลสู่สาธารณะ) ทำให้ Anthropic มองเห็นวงจรชีวิตของการทำ Distillation Attack แบบทะลุปรุโปร่งตั้งแต่ขั้นตอนการสร้างข้อมูล ไปจนถึงตอนที่โมเดลนั้นถูกเปิดตัว

Anthropic จะทำอย่างไรต่อ ?

Anthropic ระบุว่า จะเดินหน้าลงทุนอย่างหนักในระบบป้องกัน เพื่อทำให้การโจมตีแบบ Distillation ทำได้ยากขึ้น โดยมาตรการคือ

  • สร้าง Classifier และระบบระบุพฤติกรรมขึ้นมาหลายตัว เพื่อจับรูปแบบการโจมตีแบบ Distillation ในทราฟฟิก API รวมถึงการตรวจจับการดึงข้อมูลแบบ Chain-of-thought ที่ใช้สร้างข้อมูลสำหรับสอนกระบวนการคิด 
  • แชร์ข่าวกรอง และเทคนิคการโจมตีให้กับผู้บริการคลาวด์และหน่วยงานที่เกี่ยวข้อง
  • เพิ่มความเข้มงวดในการยืนยันตัวตนสำหรับบัญชีภาคการศึกษา โครงการวิจัยด้านความปลอดภัย และสตาร์ทอัพ ซึ่งเป็นช่องทางที่มักถูกฉวยโอกาสนำไปเปิดบัญชีปลอมมากที่สุด
  • พัฒนาระบบป้องกันในระดับผลิตภัณฑ์ API และระดับโมเดล ที่ออกแบบมาเพื่อลดประสิทธิภาพของผลลัพธ์ที่จะถูกนำไปใช้ทำ Distillation อย่างผิดกฎหมาย

อ้างอิง : Anthropic

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

เมืองไทยประกันชีวิต ปรับโฉม "เมืองไทยสไมล์คลับ" ครั้งใหญ่ในรอบ 20 ปี ชูโมเดล Behavior Platform ดึงสุขภาพมาลดเบี้ยประกันได้จริงสูงสุด 15%

เมืองไทยประกันชีวิตปรับโฉม "เมืองไทยสไมล์คลับ" ครั้งใหญ่ในรอบ 20 ปี ก้าวสู่ Behavior Platform พร้อมระบบ Fit Point ที่แปลงพฤติกรรมสุขภาพเป็นส่วนลดเบี้ยประกันได้จริงสูงสุด 15%...

Responsive image

แอปสรุปข่าว ‘Particle’ ใช้ AI สรุปประเด็นไฮไลต์ข่าวและพอดแคสต์พร้อมอ่านให้ฟังตามสคริปต์

Particle แอปข่าว AI จากอดีตทีม Twitter ที่เปิดตัวฟีเจอร์ Podcast Clips ใช้เทคโนโลยี Vector Embeddings ดึงไฮไลต์คำพูดสำคัญจากพอดแคสต์มาเสิร์ฟพร้อมข่าว ช่วยให้คุณเกาะติดวงการเทคฯ ได้...

Responsive image

AstraZeneca เปิดตัว A.Catalyst Network Thailand Hub เครือข่ายนวัตกรรมเพื่อสุขภาพ ดึง AI พลิกโฉมระบบสาธารณสุขไทย

ก้าวสำคัญของวงการ HealthTech ประเทศไทย เมื่อ บริษัท แอสตร้าเซนเนก้า (ประเทศไทย) จำกัด ประกาศความร่วมมือระดับประเทศ ดึงภาครัฐ เอกชน นักวิชาการ และสตาร์ทอัพ เปิดตัว “เอ.แคตตาลิสท์ เน...