DeepSeek แอบใช้ข้อมูลจาก Gemini ? เบื้องหลัง AI จีนที่กำลังมาแรง

DeepSeek เปิดตัวโมเดล R1-0528 ที่ทำผลงานได้โดดเด่นในด้านคณิตศาสตร์และการเขียนโค้ด จนถูกเปรียบเทียบกับโมเดลระดับโลกอย่าง GPT-4 และ Google Gemini อย่างไรก็ตาม แหล่งข้อมูลที่ใช้ฝึกโมเดลกลับไม่ถูกเปิดเผย ซึ่งทำให้เกิดข้อสงสัยในหมู่นักวิจัยว่า DeepSeek อาจใช้ข้อมูลจาก Gemini โดยไม่ได้รับอนุญาต

DeepSeek คือใคร และทำไมถึงถูกจับตา ?

DeepSeek เป็นหนึ่งในบริษัท AI สัญชาติจีนที่มาแรงในปี 2025 โดยมุ่งพัฒนาโมเดลที่เชี่ยวชาญด้านการให้เหตุผล การเขียนโปรแกรม และคณิตศาสตร์ขั้นสูง ความก้าวหน้าของ R1-0528 ทำให้หลายฝ่ายจับตามองว่า DeepSeek กำลังก้าวขึ้นมาเป็นผู้เล่นระดับโลก แต่ในขณะเดียวกัน ก็เกิดคำถามว่า โมเดลนี้ฉลาดเพราะพัฒนาเอง หรือมีการ “ยืมข้อมูล” จากคู่แข่งกันแน่ ?

พฤติกรรมโมเดลที่ “เหมือน Gemini” อย่างผิดปกติ

Sam Paech นักพัฒนา AI ระบุว่า R1-0528 ใช้ถ้อยคำและโทนภาษาใกล้เคียง Gemini 2.5 Pro อย่างมีนัยสำคัญ ขณะที่นักพัฒนานามแฝง “SpeechMap” พบร่องรอยการประมวลผลที่คล้าย Gemini ราวกับลอกมา

แม้ยังไม่มีหลักฐานฟันธง ข้อสังเกตเหล่านี้จุดประเด็นว่า DeepSeek อาจใช้เทคนิค distillation หรือการกลั่นข้อมูลจากโมเดลที่เก่งกว่า เช่น Gemini หรือ GPT เพื่อสร้างโมเดลของตนเอง ซึ่งเป็นเทคนิคที่นิยมใช้เพื่อลดต้นทุนฝึกโมเดล

อย่างไรก็ตาม แม้จะไม่ผิดทางวิทยาศาสตร์ การนำผลลัพธ์จากโมเดลคู่แข่งมาใช้โดยไม่ได้รับอนุญาตขัดกับข้อตกลงของ Google และ OpenAI ที่ห้ามใช้ outputs เพื่อสร้างโมเดลคู่แข่ง

ไม่ใช่ครั้งแรกที่ DeepSeek ถูกสงสัย

  • ปลายปี 2024 นักพัฒนาหลายรายสังเกตว่าโมเดล V3 ของ DeepSeek มักระบุว่าตัวเองคือ ChatGPT ซึ่งอาจเกิดจากการฝึกด้วยข้อมูลแชตของ OpenAI
  • ต้นปี 2025 OpenAI เผยกับ Financial Times ว่าพบหลักฐานเชื่อมโยง DeepSeek กับการใช้ distillation จาก GPT
  • ข้อมูลจาก Bloomberg ระบุว่า Microsoft ตรวจพบการ “ขโมยข้อมูล” ผ่านบัญชีนักพัฒนา OpenAI ในช่วงเวลาเดียวกัน ซึ่งเชื่อมโยงกับ DeepSeek

ปัญหาข้อมูล “ปนเปื้อน AI” บนโลกออนไลน์

นักวิจัยบางคนชี้ว่า ความคล้ายคลึงของโมเดล AI อาจไม่ได้เกิดจากการกลั่นข้อมูลโดยตรง แต่เป็นผลจากอินเทอร์เน็ตที่ “ปนเปื้อนด้วยเนื้อหา AI” มากขึ้นเรื่อย ๆ

Nathan Lambert นักวิจัยจาก AI2 ให้ความเห็นว่า หากเขาเป็น DeepSeek เขาก็จะ “ใช้ API ของโมเดลที่ดีที่สุด เช่น Gemini หรือ GPT สร้างข้อมูลสังเคราะห์จำนวนมากเพื่อฝึกโมเดลของตัวเอง” โดยเฉพาะเมื่อ DeepSeek มีเงินทุนแต่ขาด GPU ซึ่งถือเป็นการ “เพิ่มพลังประมวลผลทางอ้อม”

บริษัท AI เร่งป้องกันข้อมูลรั่วไหล

เพื่อรับมือกับความเสี่ยงจากการกลั่นข้อมูล บริษัท AI ชั้นนำต่างเพิ่มมาตรการป้องกัน เช่น:

  • OpenAI บังคับให้ผู้ใช้องค์กรต้องยืนยันตัวตนด้วยบัตรประชาชนประเทศที่ได้รับอนุญาต ซึ่ง “จีนไม่อยู่ในรายชื่อ”
  • Google เริ่มใช้การสรุปร่องรอยการประมวลผลของโมเดล Gemini บนแพลตฟอร์ม AI Studio เพื่อป้องกันไม่ให้คู่แข่งใช้ trace เหล่านี้ในการฝึกซ้ำ
  • Anthropic ก็เพิ่งประกาศในเดือนพฤษภาคมว่าจะใช้มาตรการเดียวกันเพื่อป้องกันข้อมูลลับของ Claude

อ้างอิง: techcrunch

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

Google Labs เปิดตัว ‘CC’ AI Agent สาย Productivity เลขาส่วนตัวอัจฉริยะ สรุปงาน–ส่งเมล–นัดประชุมให้เสร็จในคลิกเดียว

Google Labs เปิดตัว ‘CC’ AI Agent ผู้ช่วยสาย Productivity ที่เชื่อม Gmail, Calendar และ Drive เข้าด้วยกัน ช่วยสรุปงาน ร่างอีเมล และจัดการนัดหมายแบบอัตโนมัติ เปลี่ยน Inbox ให้กลายเป...

Responsive image

ATCI ชูความสำเร็จ 10 องค์กรไทย คว้า ‘ASOCIO Award 2025’ และรางวัล ‘APICTA 2025’ ตอกย้ำศักยภาพ Digital Thailand สู่เวทีโลก

10 องค์กรไทยและทัพสตาร์ทอัพ กวาดรางวัล ASOCIO และ APICTA 2025 ที่ไต้หวัน โชว์ศักยภาพ AI, HealthTech และ Digital Gov สู่เวทีโลก นำโดย ATCI...

Responsive image

Google เปิดตัวโมเดล AI ใหม่ ‘Gemini 3 Flash’ ชูจุดเด่น เร็ว-ฉลาด-ประหยัด พร้อมอัปเกรดให้ใช้ฟรีทั่วโลกแล้ว!

Google เปิดตัว Gemini 3 Flash โมเดล AI ใหม่ เร็วกว่า 3 เท่า ฉลาดระดับ Pro ในราคาประหยัด พร้อมอัปเกรดให้ใช้ฟรีในแอป Gemini และ Search แล้ววันนี้...