DeepSeek แอบใช้ข้อมูลจาก Gemini ? เบื้องหลัง AI จีนที่กำลังมาแรง

DeepSeek เปิดตัวโมเดล R1-0528 ที่ทำผลงานได้โดดเด่นในด้านคณิตศาสตร์และการเขียนโค้ด จนถูกเปรียบเทียบกับโมเดลระดับโลกอย่าง GPT-4 และ Google Gemini อย่างไรก็ตาม แหล่งข้อมูลที่ใช้ฝึกโมเดลกลับไม่ถูกเปิดเผย ซึ่งทำให้เกิดข้อสงสัยในหมู่นักวิจัยว่า DeepSeek อาจใช้ข้อมูลจาก Gemini โดยไม่ได้รับอนุญาต

DeepSeek คือใคร และทำไมถึงถูกจับตา ?

DeepSeek เป็นหนึ่งในบริษัท AI สัญชาติจีนที่มาแรงในปี 2025 โดยมุ่งพัฒนาโมเดลที่เชี่ยวชาญด้านการให้เหตุผล การเขียนโปรแกรม และคณิตศาสตร์ขั้นสูง ความก้าวหน้าของ R1-0528 ทำให้หลายฝ่ายจับตามองว่า DeepSeek กำลังก้าวขึ้นมาเป็นผู้เล่นระดับโลก แต่ในขณะเดียวกัน ก็เกิดคำถามว่า โมเดลนี้ฉลาดเพราะพัฒนาเอง หรือมีการ “ยืมข้อมูล” จากคู่แข่งกันแน่ ?

พฤติกรรมโมเดลที่ “เหมือน Gemini” อย่างผิดปกติ

Sam Paech นักพัฒนา AI ระบุว่า R1-0528 ใช้ถ้อยคำและโทนภาษาใกล้เคียง Gemini 2.5 Pro อย่างมีนัยสำคัญ ขณะที่นักพัฒนานามแฝง “SpeechMap” พบร่องรอยการประมวลผลที่คล้าย Gemini ราวกับลอกมา

แม้ยังไม่มีหลักฐานฟันธง ข้อสังเกตเหล่านี้จุดประเด็นว่า DeepSeek อาจใช้เทคนิค distillation หรือการกลั่นข้อมูลจากโมเดลที่เก่งกว่า เช่น Gemini หรือ GPT เพื่อสร้างโมเดลของตนเอง ซึ่งเป็นเทคนิคที่นิยมใช้เพื่อลดต้นทุนฝึกโมเดล

อย่างไรก็ตาม แม้จะไม่ผิดทางวิทยาศาสตร์ การนำผลลัพธ์จากโมเดลคู่แข่งมาใช้โดยไม่ได้รับอนุญาตขัดกับข้อตกลงของ Google และ OpenAI ที่ห้ามใช้ outputs เพื่อสร้างโมเดลคู่แข่ง

ไม่ใช่ครั้งแรกที่ DeepSeek ถูกสงสัย

  • ปลายปี 2024 นักพัฒนาหลายรายสังเกตว่าโมเดล V3 ของ DeepSeek มักระบุว่าตัวเองคือ ChatGPT ซึ่งอาจเกิดจากการฝึกด้วยข้อมูลแชตของ OpenAI
  • ต้นปี 2025 OpenAI เผยกับ Financial Times ว่าพบหลักฐานเชื่อมโยง DeepSeek กับการใช้ distillation จาก GPT
  • ข้อมูลจาก Bloomberg ระบุว่า Microsoft ตรวจพบการ “ขโมยข้อมูล” ผ่านบัญชีนักพัฒนา OpenAI ในช่วงเวลาเดียวกัน ซึ่งเชื่อมโยงกับ DeepSeek

ปัญหาข้อมูล “ปนเปื้อน AI” บนโลกออนไลน์

นักวิจัยบางคนชี้ว่า ความคล้ายคลึงของโมเดล AI อาจไม่ได้เกิดจากการกลั่นข้อมูลโดยตรง แต่เป็นผลจากอินเทอร์เน็ตที่ “ปนเปื้อนด้วยเนื้อหา AI” มากขึ้นเรื่อย ๆ

Nathan Lambert นักวิจัยจาก AI2 ให้ความเห็นว่า หากเขาเป็น DeepSeek เขาก็จะ “ใช้ API ของโมเดลที่ดีที่สุด เช่น Gemini หรือ GPT สร้างข้อมูลสังเคราะห์จำนวนมากเพื่อฝึกโมเดลของตัวเอง” โดยเฉพาะเมื่อ DeepSeek มีเงินทุนแต่ขาด GPU ซึ่งถือเป็นการ “เพิ่มพลังประมวลผลทางอ้อม”

บริษัท AI เร่งป้องกันข้อมูลรั่วไหล

เพื่อรับมือกับความเสี่ยงจากการกลั่นข้อมูล บริษัท AI ชั้นนำต่างเพิ่มมาตรการป้องกัน เช่น:

  • OpenAI บังคับให้ผู้ใช้องค์กรต้องยืนยันตัวตนด้วยบัตรประชาชนประเทศที่ได้รับอนุญาต ซึ่ง “จีนไม่อยู่ในรายชื่อ”
  • Google เริ่มใช้การสรุปร่องรอยการประมวลผลของโมเดล Gemini บนแพลตฟอร์ม AI Studio เพื่อป้องกันไม่ให้คู่แข่งใช้ trace เหล่านี้ในการฝึกซ้ำ
  • Anthropic ก็เพิ่งประกาศในเดือนพฤษภาคมว่าจะใช้มาตรการเดียวกันเพื่อป้องกันข้อมูลลับของ Claude

อ้างอิง: techcrunch

Sign in to read unlimited free articles

No comment

RELATED ARTICLE

Responsive image

OpenAI เปิดตัว Prism ปฏิวัติวงการวิจัยด้วย AI Workspace ขุมพลัง GPT-5.2 ที่ออกแบบมาเพื่อนักวิทยาศาสตร์โดยเฉพาะ

OpenAI เปิดตัว Prism หรือ AI Workspace สำหรับนักวิทยาศาสตร์ ขุมพลัง GPT-5.2 ที่ช่วยทำหน้าที่ได้ตั้งแต่การประเมินสมมติฐาน การขัดเกลาสำนวนภาษาในบทความวิจัย ไปจนถึงการสืบค้นงานวิจัยใน...

Responsive image

ประเทศไทยเป็นเจ้าภาพ IMF-World Bank 2026 ‘เวทีการเงินโลก’ ครั้งที่ 2 ในรอบ 35 ปี

ประเทศไทยประกาศความพร้อมอย่างเป็นทางการในการกลับมาเป็นเจ้าภาพจัดการประชุมระดับโลกอีกครั้งในรอบ 35 ปี กับงาน การประชุมประจำปีสภาผู้ว่าการกองทุนการเงินระหว่างประเทศ (IMF) และกลุ่มธนา...

Responsive image

Meta เตรียมเปิดตัวสมาชิกพรีเมียม บน Facebook, IG และ WhatsApp จ่ายเงินเพื่อปลดล็อกฟีเจอร์ลับ

Meta เตรียมทดสอบระบบสมาชิกพรีเมียมบน Facebook, IG และ WhatsApp ปลดล็อกขุมพลัง Manus AI และฟีเจอร์ลับสายส่องเพื่อสร้าง New S-Curve ท่ามกลางศึก Subscription Fatigue ในยุค AI...