DeepSeek แอบใช้ข้อมูลจาก Gemini ? เบื้องหลัง AI จีนที่กำลังมาแรง

DeepSeek เปิดตัวโมเดล R1-0528 ที่ทำผลงานได้โดดเด่นในด้านคณิตศาสตร์และการเขียนโค้ด จนถูกเปรียบเทียบกับโมเดลระดับโลกอย่าง GPT-4 และ Google Gemini อย่างไรก็ตาม แหล่งข้อมูลที่ใช้ฝึกโมเดลกลับไม่ถูกเปิดเผย ซึ่งทำให้เกิดข้อสงสัยในหมู่นักวิจัยว่า DeepSeek อาจใช้ข้อมูลจาก Gemini โดยไม่ได้รับอนุญาต

DeepSeek คือใคร และทำไมถึงถูกจับตา ?

DeepSeek เป็นหนึ่งในบริษัท AI สัญชาติจีนที่มาแรงในปี 2025 โดยมุ่งพัฒนาโมเดลที่เชี่ยวชาญด้านการให้เหตุผล การเขียนโปรแกรม และคณิตศาสตร์ขั้นสูง ความก้าวหน้าของ R1-0528 ทำให้หลายฝ่ายจับตามองว่า DeepSeek กำลังก้าวขึ้นมาเป็นผู้เล่นระดับโลก แต่ในขณะเดียวกัน ก็เกิดคำถามว่า โมเดลนี้ฉลาดเพราะพัฒนาเอง หรือมีการ “ยืมข้อมูล” จากคู่แข่งกันแน่ ?

พฤติกรรมโมเดลที่ “เหมือน Gemini” อย่างผิดปกติ

Sam Paech นักพัฒนา AI ระบุว่า R1-0528 ใช้ถ้อยคำและโทนภาษาใกล้เคียง Gemini 2.5 Pro อย่างมีนัยสำคัญ ขณะที่นักพัฒนานามแฝง “SpeechMap” พบร่องรอยการประมวลผลที่คล้าย Gemini ราวกับลอกมา

แม้ยังไม่มีหลักฐานฟันธง ข้อสังเกตเหล่านี้จุดประเด็นว่า DeepSeek อาจใช้เทคนิค distillation หรือการกลั่นข้อมูลจากโมเดลที่เก่งกว่า เช่น Gemini หรือ GPT เพื่อสร้างโมเดลของตนเอง ซึ่งเป็นเทคนิคที่นิยมใช้เพื่อลดต้นทุนฝึกโมเดล

อย่างไรก็ตาม แม้จะไม่ผิดทางวิทยาศาสตร์ การนำผลลัพธ์จากโมเดลคู่แข่งมาใช้โดยไม่ได้รับอนุญาตขัดกับข้อตกลงของ Google และ OpenAI ที่ห้ามใช้ outputs เพื่อสร้างโมเดลคู่แข่ง

ไม่ใช่ครั้งแรกที่ DeepSeek ถูกสงสัย

  • ปลายปี 2024 นักพัฒนาหลายรายสังเกตว่าโมเดล V3 ของ DeepSeek มักระบุว่าตัวเองคือ ChatGPT ซึ่งอาจเกิดจากการฝึกด้วยข้อมูลแชตของ OpenAI
  • ต้นปี 2025 OpenAI เผยกับ Financial Times ว่าพบหลักฐานเชื่อมโยง DeepSeek กับการใช้ distillation จาก GPT
  • ข้อมูลจาก Bloomberg ระบุว่า Microsoft ตรวจพบการ “ขโมยข้อมูล” ผ่านบัญชีนักพัฒนา OpenAI ในช่วงเวลาเดียวกัน ซึ่งเชื่อมโยงกับ DeepSeek

ปัญหาข้อมูล “ปนเปื้อน AI” บนโลกออนไลน์

นักวิจัยบางคนชี้ว่า ความคล้ายคลึงของโมเดล AI อาจไม่ได้เกิดจากการกลั่นข้อมูลโดยตรง แต่เป็นผลจากอินเทอร์เน็ตที่ “ปนเปื้อนด้วยเนื้อหา AI” มากขึ้นเรื่อย ๆ

Nathan Lambert นักวิจัยจาก AI2 ให้ความเห็นว่า หากเขาเป็น DeepSeek เขาก็จะ “ใช้ API ของโมเดลที่ดีที่สุด เช่น Gemini หรือ GPT สร้างข้อมูลสังเคราะห์จำนวนมากเพื่อฝึกโมเดลของตัวเอง” โดยเฉพาะเมื่อ DeepSeek มีเงินทุนแต่ขาด GPU ซึ่งถือเป็นการ “เพิ่มพลังประมวลผลทางอ้อม”

บริษัท AI เร่งป้องกันข้อมูลรั่วไหล

เพื่อรับมือกับความเสี่ยงจากการกลั่นข้อมูล บริษัท AI ชั้นนำต่างเพิ่มมาตรการป้องกัน เช่น:

  • OpenAI บังคับให้ผู้ใช้องค์กรต้องยืนยันตัวตนด้วยบัตรประชาชนประเทศที่ได้รับอนุญาต ซึ่ง “จีนไม่อยู่ในรายชื่อ”
  • Google เริ่มใช้การสรุปร่องรอยการประมวลผลของโมเดล Gemini บนแพลตฟอร์ม AI Studio เพื่อป้องกันไม่ให้คู่แข่งใช้ trace เหล่านี้ในการฝึกซ้ำ
  • Anthropic ก็เพิ่งประกาศในเดือนพฤษภาคมว่าจะใช้มาตรการเดียวกันเพื่อป้องกันข้อมูลลับของ Claude

อ้างอิง: techcrunch

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

ทรูมันนี่ จับมือ ร้านยากรุงเทพ เปิดมินิแอป ปรึกษาเภสัชกร-สั่งยา-ชำระเงินจบในแอปทรูมันนี่ ขยายประสบการณ์ดิจิทัลเพย์เมนท์ด้านสุขภาพ

ทรูมันนี่ จับมือ ร้านยากรุงเทพ เปิดบริการ Telepharmacy ผ่านมินิแอป ให้ผู้ใช้ปรึกษาเภสัชกร ซื้อสินค้า และชำระเงินได้ในแอปเดียว ยกระดับประสบการณ์ดิจิทัลเพย์เมนท์ด้านสุขภาพให้สะดวกและ...

Responsive image

มหิดลชูโมเดล MU Synergy ขับเคลื่อนอุตสาหกรรมอนาคต สร้าง GDP เร่งปั้นคนให้ตรงตลาดโลก

การขับเคลื่อนมหาวิทยาลัยในปัจจุบัน ไม่ได้จบแค่การผลิตองค์ความรู้ บุคคลากรหรือผลงานวิจัยอีกต่อไป แต่ต้องไปให้ถึงจุดที่สิ่งเหล่านั้น ‘สร้างผลกระทบจริง’ ต่อสังคม เศรษฐกิจและคุณภาพชีวิ...

Responsive image

เปิดแล้ว No Brand เซ็นทรัล บางนา สาขา Standalone แรกในไทย ขนทัพสินค้าเกาหลีราคาคุ้มค่า

No Brand สาขา Standalone แรกในไทยที่เซ็นทรัล บางนา! Central Retail (CRC) จับมือ Emart ขนทัพสินค้าเกาหลีคุณภาพดี ในราคาคุ้มค่า...