
Anthropic ผู้สร้าง AI ชื่อดังอย่าง Claude ได้ออกมาเปิดเผยข้อมูลที่น่าตกใจเกี่ยวกับขบวนการ Distillation Attack จาก AI ยักษ์ใหญ่ของจีนทั้งหมด 3 แห่ง ได้แก่ DeepSeek, Moonshot และ MiniMax ที่พยายามดึงเอาความสามารถของ Claude ไปใช้พัฒนาโมเดลของตัวเองอย่างผิดกฎหมาย
Distillation Attack คือการโจมตีแบบสกัดความรู้จากโมเดล LLM โดยผู้โจมตีจะสกัดเอาความรู้จากโมเดลใหญ่ ๆ ไปใส่ในโมเดลใหม่ที่กำลังพัฒนา หรือเป็นการลักวิชาความรู้ความเก่งของโมเดลโดยที่ไม่ต้องลงทุนลงแรงมาก โดยมีหลักการทำงานคือ
Anthropic อธิบายว่า บริษัทเหล่านี้ใช้ Proxy เพื่อเข้าถึง Claude และโมเดล AI อื่น ๆ บริการเหล่านี้ทำงานใต้สถาปัตกรรมที่เรียกว่า Hydra Cluster ซึ่งเป็นเครือข่ายบัญชีปลอม สามารถกระจายทราฟิกผ่าน API และแพลตฟอร์มอื่น ๆ ได้ หมายความว่า หากบัญชีใดบัญชีหนึ่งถูกแบน บัญชีใหม่ก็จะมาแทนที่ทันที
Anthropic ระบุว่า การโจมตี Distillation Attack ครั้งนี้ บริษัท AI จีนที่ถูกกล่าวอ้าง (DeepSeek, Moonshot, MiniMax) ใช้วิธีการที่คล้ายกันคือ ใช้บัญชีปลอมและบริการ Proxy เพื่อยิงคำถามใส่ Claude รวมแล้วกว่า 16 ล้านครั้ง เพื่อเก็บข้อมูลไปสอน AI ของตนเองในราคาที่ถูกกว่าและเร็วกว่าการวิจัยเองหลายเท่าตัว โดยมีตัวอย่าง Prompt เช่น
คุณคือผู้เชี่ยวชาญด้านการวิเคราะห์ข้อมูลที่ผสมผสานความแม่นยำทางสถิติเข้ากับความรู้เชิงลึกในอุตสาหกรรม เป้าหมายของคุณคือการนำเสนอข้อมูลเชิงลึกที่ขับเคลื่อนด้วยข้อมูล (ไม่ใช่แค่การสรุปหรือสร้างภาพกราฟิก) โดยต้องอิงจากข้อมูลจริง และสนับสนุนด้วยการให้เหตุผลที่สมบูรณ์และโปร่งใส
ส่วนวิธีการโจมตีของแต่ละค่ายที่ Anthropic กล่าวอ้าง มีดังนี้
โจมตีมากกว่า 150,000 บทสนทนา
โจมตีทำไม ?
โจมตีอย่างไร ?
DeepSeek สร้างบัญชีหลายบัญชีโดยมีแพทเทิร์นการทำงานเหมือนกัน ใช้วิธีการชำระเงินแบบเดียวกัน และมีจังหวะดึงข้อมูลพร้อม ๆ กัน เพื่อเร่งความเร็วในการดูดข้อมูลให้ได้มากที่สุด
โดยสั่งให้ Claude จินตนาการและอธิบายกระบวนการคิดเบื้องหลังคำตอบแบบทีละขั้นตอน ซึ่งเป็นการสร้างข้อมูลฝึกสอนแบบ Chain-of-Thought ในสเกลที่ใหญ่มาก ซึ่งเท่ากับสั่งให้ Claude คายกระบวนการคิดออกมา เพื่อเอาไปสอน AI ให้คิดเป็นตรรกะแบบเดียวกัน
นอกจากนี้ ยังใช้ Claude สร้างคำตอบที่ปลอดภัยจากการถูกเซ็นเซอร์ในประเด็นอ่อนไหวทางการเมือง (เช่น เรื่องผู้นำพรรค หรือระบอบเผด็จการ) เพื่อนำไปสอน AI ของตัวเองให้รู้จักเลี่ยงหรือตอบคำถามเหล่านี้ได้อย่างปลอดภัยในประเทศจีน
หลังจากที่ Anthropic ตรวจสอบข้อมูล Metadata ก็สามารถแกะรอยย้อนกลับไปถึงนักวิจัยเฉพาะบุคคลในแล็บของ DeepSeek ได้ด้วย
โจมตีมากกว่า 3.4 ล้านบทสนทนา
โจมตีทำไม ?
โจมตีอย่างไร ?
สร้างบัญชีปลอมหลายร้อยบัญชี และใช้ช่องทางการเข้าถึงที่หลากหลาย ทำให้ตรวจจับพฤติกรรมการโจมตีได้ยาก ในช่วงหลังของการโจมตี Moonshot เปลี่ยนมาใช้วิธีที่เจาะจงมากขึ้น โดยพยายามที่จะดูดและประกอบร่างร่องรอยกระบวนการคิดของ Claude ขึ้นมาใหม่ เพื่อก๊อปปี้ความฉลาดเชิงตรรกะไปแบบเนียน ๆ
Anthropic แกะรอยผ่าน Metadata ของคำขอ ซึ่งพอเอาไปตรวจสอบกลับพบว่า ข้อมูลเหล่านี้ไปตรงกับ "โปรไฟล์สาธารณะของพนักงานระดับสูง" ของทาง Moonshot
Distillation Attack มากกว่า 13 ล้านบทสนทนา
โจมตีทำไม ?
โจมตีอย่างไร ?
Anthropic เล่าว่า ในช่วงที่ MiniMax กำลังรันแคมเปญดูดข้อมูลอยู่นั้น Antrhopic ได้อัปเดตและปล่อยโมเดลรุ่นใหม่ออกมา
พอ MiniMax ทราบข่าว พวกเขาใช้เวลาไม่ถึง 24 ชั่วโมงในการปรับระบบ และโยกทราฟฟิกคำสั่งปลอมเกือบครึ่งหนึ่งให้พุ่งเป้าไปดูดข้อมูลความสามารถจากโมเดลตัวใหม่ทันที
ที่น่าสนใจคือ Anthropic ตรวจพบการโจมตีครั้งนี้ตั้งแต่ตอนที่ MiniMax เทรนโมเดลตัวเองอยู่ (ตรวจเจอก่อนที่ MiniMax จะปล่อยโมเดลสู่สาธารณะ) ทำให้ Anthropic มองเห็นวงจรชีวิตของการทำ Distillation Attack แบบทะลุปรุโปร่งตั้งแต่ขั้นตอนการสร้างข้อมูล ไปจนถึงตอนที่โมเดลนั้นถูกเปิดตัว
Anthropic ระบุว่า จะเดินหน้าลงทุนอย่างหนักในระบบป้องกัน เพื่อทำให้การโจมตีแบบ Distillation ทำได้ยากขึ้น โดยมาตรการคือ
อ้างอิง : Anthropic
ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด