Anthropic แฉยับ AI จีนใช้วิธี Distillation Attack ขโมยความอัจฉริยะของ Claude ไปปั้นโมเดลของตัวเอง

กุมภาพันธ์ 24, 2026 | By Techsauce Team

Anthropic ผู้สร้าง AI ชื่อดังอย่าง Claude ได้ออกมาเปิดเผยข้อมูลที่น่าตกใจเกี่ยวกับขบวนการ Distillation Attack จาก AI ยักษ์ใหญ่ของจีนทั้งหมด 3 แห่ง ได้แก่ DeepSeek, Moonshot และ MiniMax ที่พยายามดึงเอาความสามารถของ Claude ไปใช้พัฒนาโมเดลของตัวเองอย่างผิดกฎหมาย

Distillation Attack คืออะไร ?

Distillation Attack คือการโจมตีแบบสกัดความรู้จากโมเดล LLM โดยผู้โจมตีจะสกัดเอาความรู้จากโมเดลใหญ่ ๆ ไปใส่ในโมเดลใหม่ที่กำลังพัฒนา หรือเป็นการลักวิชาความรู้ความเก่งของโมเดลโดยที่ไม่ต้องลงทุนลงแรงมาก โดยมีหลักการทำงานคือ

เขียนสคริปต์เพื่อส่งคำถามจำนวนมหาศาลยิงไปที่ API ของโมเดล เพื่อสกัดเอาความรู้พื้นฐานของโมเดลนั้น ๆ ออกมา
รวบข้อมูลที่สกัดออกมาได้จากโมเดลเป้าหมาย เพื่อสร้างข้อมูลคุณภาพสูงออกมา
นำข้อมูลที่ได้ไปเทรนโมเดลใหม่ ๆ โดยใช้ความรู้จากโมเดลที่ไปโจมตีมา เพื่อสร้างโมเดลเป็นของตัวเอง

แล้ว AI จีนโจมตีได้ Claude ได้อย่างไร ในเมื่อไม่ได้เปิดบริการในจีน ?

Anthropic อธิบายว่า บริษัทเหล่านี้ใช้ Proxy เพื่อเข้าถึง Claude และโมเดล AI อื่น ๆ บริการเหล่านี้ทำงานใต้สถาปัตกรรมที่เรียกว่า Hydra Cluster ซึ่งเป็นเครือข่ายบัญชีปลอม สามารถกระจายทราฟิกผ่าน API และแพลตฟอร์มอื่น ๆ ได้ หมายความว่า หากบัญชีใดบัญชีหนึ่งถูกแบน บัญชีใหม่ก็จะมาแทนที่ทันที

Anthropic ระบุว่า การโจมตี Distillation Attack ครั้งนี้ บริษัท AI จีนที่ถูกกล่าวอ้าง (DeepSeek, Moonshot, MiniMax) ใช้วิธีการที่คล้ายกันคือ ใช้บัญชีปลอมและบริการ Proxy เพื่อยิงคำถามใส่ Claude รวมแล้วกว่า 16 ล้านครั้ง เพื่อเก็บข้อมูลไปสอน AI ของตนเองในราคาที่ถูกกว่าและเร็วกว่าการวิจัยเองหลายเท่าตัว โดยมีตัวอย่าง Prompt เช่น

คุณคือผู้เชี่ยวชาญด้านการวิเคราะห์ข้อมูลที่ผสมผสานความแม่นยำทางสถิติเข้ากับความรู้เชิงลึกในอุตสาหกรรม เป้าหมายของคุณคือการนำเสนอข้อมูลเชิงลึกที่ขับเคลื่อนด้วยข้อมูล (ไม่ใช่แค่การสรุปหรือสร้างภาพกราฟิก) โดยต้องอิงจากข้อมูลจริง และสนับสนุนด้วยการให้เหตุผลที่สมบูรณ์และโปร่งใส

ส่วนวิธีการโจมตีของแต่ละค่ายที่ Anthropic กล่าวอ้าง มีดังนี้

DeepSeek

โจมตีมากกว่า 150,000 บทสนทนา

โจมตีทำไม ?

พุ่งเป้าไปที่ความสามารถในการให้เหตุผลในงานต่าง ๆ
ใช้ Claude เป็นคนตรวจให้คะแนน (Reward model สำหรับ Reinforcement Learning) การสร้างคำตอบที่หลบเลี่ยงการเซ็นเซอร์ได้

โจมตีอย่างไร ?

DeepSeek สร้างบัญชีหลายบัญชีโดยมีแพทเทิร์นการทำงานเหมือนกัน ใช้วิธีการชำระเงินแบบเดียวกัน และมีจังหวะดึงข้อมูลพร้อม ๆ กัน เพื่อเร่งความเร็วในการดูดข้อมูลให้ได้มากที่สุด

โดยสั่งให้ Claude จินตนาการและอธิบายกระบวนการคิดเบื้องหลังคำตอบแบบทีละขั้นตอน ซึ่งเป็นการสร้างข้อมูลฝึกสอนแบบ Chain-of-Thought ในสเกลที่ใหญ่มาก ซึ่งเท่ากับสั่งให้ Claude คายกระบวนการคิดออกมา เพื่อเอาไปสอน AI ให้คิดเป็นตรรกะแบบเดียวกัน

นอกจากนี้ ยังใช้ Claude สร้างคำตอบที่ปลอดภัยจากการถูกเซ็นเซอร์ในประเด็นอ่อนไหวทางการเมือง (เช่น เรื่องผู้นำพรรค หรือระบอบเผด็จการ) เพื่อนำไปสอน AI ของตัวเองให้รู้จักเลี่ยงหรือตอบคำถามเหล่านี้ได้อย่างปลอดภัยในประเทศจีน

หลังจากที่ Anthropic ตรวจสอบข้อมูล Metadata ก็สามารถแกะรอยย้อนกลับไปถึงนักวิจัยเฉพาะบุคคลในแล็บของ DeepSeek ได้ด้วย

Moonshot AI

โจมตีมากกว่า 3.4 ล้านบทสนทนา

โจมตีทำไม ?

พัฒนา Agentic reasoning และการใช้เครื่องมือ
พัฒนาการเขียนโค้ดและวิเคราะห์ข้อมูล
การพัฒนา Agent ที่ใช้งานคอมพิวเตอร์
พัฒนา Computer vision

โจมตีอย่างไร ?

สร้างบัญชีปลอมหลายร้อยบัญชี และใช้ช่องทางการเข้าถึงที่หลากหลาย ทำให้ตรวจจับพฤติกรรมการโจมตีได้ยาก ในช่วงหลังของการโจมตี Moonshot เปลี่ยนมาใช้วิธีที่เจาะจงมากขึ้น โดยพยายามที่จะดูดและประกอบร่างร่องรอยกระบวนการคิดของ Claude ขึ้นมาใหม่ เพื่อก๊อปปี้ความฉลาดเชิงตรรกะไปแบบเนียน ๆ

Anthropic แกะรอยผ่าน Metadata ของคำขอ ซึ่งพอเอาไปตรวจสอบกลับพบว่า ข้อมูลเหล่านี้ไปตรงกับ "โปรไฟล์สาธารณะของพนักงานระดับสูง" ของทาง Moonshot

Minimax

Distillation Attack มากกว่า 13 ล้านบทสนทนา

โจมตีทำไม ?

พัฒนา Agentic Coding
พัฒนาการใช้เครื่องมือ และการจัดการระบบ

โจมตีอย่างไร ?

Anthropic เล่าว่า ในช่วงที่ MiniMax กำลังรันแคมเปญดูดข้อมูลอยู่นั้น Antrhopic ได้อัปเดตและปล่อยโมเดลรุ่นใหม่ออกมา

พอ MiniMax ทราบข่าว พวกเขาใช้เวลาไม่ถึง 24 ชั่วโมงในการปรับระบบ และโยกทราฟฟิกคำสั่งปลอมเกือบครึ่งหนึ่งให้พุ่งเป้าไปดูดข้อมูลความสามารถจากโมเดลตัวใหม่ทันที

ที่น่าสนใจคือ Anthropic ตรวจพบการโจมตีครั้งนี้ตั้งแต่ตอนที่ MiniMax เทรนโมเดลตัวเองอยู่ (ตรวจเจอก่อนที่ MiniMax จะปล่อยโมเดลสู่สาธารณะ) ทำให้ Anthropic มองเห็นวงจรชีวิตของการทำ Distillation Attack แบบทะลุปรุโปร่งตั้งแต่ขั้นตอนการสร้างข้อมูล ไปจนถึงตอนที่โมเดลนั้นถูกเปิดตัว

Anthropic จะทำอย่างไรต่อ ?

Anthropic ระบุว่า จะเดินหน้าลงทุนอย่างหนักในระบบป้องกัน เพื่อทำให้การโจมตีแบบ Distillation ทำได้ยากขึ้น โดยมาตรการคือ

สร้าง Classifier และระบบระบุพฤติกรรมขึ้นมาหลายตัว เพื่อจับรูปแบบการโจมตีแบบ Distillation ในทราฟฟิก API รวมถึงการตรวจจับการดึงข้อมูลแบบ Chain-of-thought ที่ใช้สร้างข้อมูลสำหรับสอนกระบวนการคิด
แชร์ข่าวกรอง และเทคนิคการโจมตีให้กับผู้บริการคลาวด์และหน่วยงานที่เกี่ยวข้อง
เพิ่มความเข้มงวดในการยืนยันตัวตนสำหรับบัญชีภาคการศึกษา โครงการวิจัยด้านความปลอดภัย และสตาร์ทอัพ ซึ่งเป็นช่องทางที่มักถูกฉวยโอกาสนำไปเปิดบัญชีปลอมมากที่สุด
พัฒนาระบบป้องกันในระดับผลิตภัณฑ์ API และระดับโมเดล ที่ออกแบบมาเพื่อลดประสิทธิภาพของผลลัพธ์ที่จะถูกนำไปใช้ทำ Distillation อย่างผิดกฎหมาย

อ้างอิง : Anthropic

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

เข้าสู่ระบบ
ลงทะเบียน

ลืมรหัสผ่าน?

มีบัญชีแล้วหรือยัง ?

มีบัญชีอยู่แล้ว ?

No comment

รู้จัก CIC องค์กรที่สร้างระบบนิเวศ เพื่อเชื่อมโยงผู้คน ธุรกิจและนวัตกรรมเข้าด้วยกัน

CIC หรือ Cambridge Innovation Center เป็นองค์กรที่ก่อตั้งขึ้นในปี 1999 โดยมีเป้าหมายหลักคือการสนับสนุนการสร้างนวัตกรรมให้กับธุรกิจทุกระดับ ตั้งแต่สตาร์ทอัพ บริษัทที่กำลังเติบโต องค...

มิถุนายน 3, 2026 | By Techsauce Team

32 เครือข่ายร่วมกับ NIA อว. สร้าง 'Medical Innovation Hub' ลดพึ่งพาต่างชาติ ด้วยการสร้างและส่งออกนวัตกรรมการแพทย์เอง

NIA เปิดตัว 32 ภาคีเครือข่ายที่ร่วมยกระดับไทยจาก 'ผู้ให้บริการทางการแพทย์และผู้รับจ้างผลิต' สู่ 'ศูนย์กลางนวัตกรรมการแพทย์ (Medical Innovation Hub)' ที่สามารถออกแบบ พัฒนา และต่อยอด...

พฤษภาคม 30, 2026 | By Techsauce Team

ททท. จับมือ Visa เปิดตัว Visa Destinations ดันไทยสู่จุดหมายระดับโลกที่เที่ยวง่าย จ่ายคล่อง

วีซ่าจับมือ ททท. ดันไทยเป็นตลาดแรกและประเทศเดียวในเอเชียแปซิฟิกที่ได้สถานะ Visa Destinations ระดับประเทศ ยกระดับการท่องเที่ยวขาเข้าให้สะดวก ปลอดภัย และไร้รอยต่อ ครอบคลุม 8 เมืองหลั...

พฤษภาคม 30, 2026 | By Techsauce Team