DeepSeek แอบใช้ข้อมูลจาก Gemini ? เบื้องหลัง AI จีนที่กำลังมาแรง

DeepSeek เปิดตัวโมเดล R1-0528 ที่ทำผลงานได้โดดเด่นในด้านคณิตศาสตร์และการเขียนโค้ด จนถูกเปรียบเทียบกับโมเดลระดับโลกอย่าง GPT-4 และ Google Gemini อย่างไรก็ตาม แหล่งข้อมูลที่ใช้ฝึกโมเดลกลับไม่ถูกเปิดเผย ซึ่งทำให้เกิดข้อสงสัยในหมู่นักวิจัยว่า DeepSeek อาจใช้ข้อมูลจาก Gemini โดยไม่ได้รับอนุญาต

DeepSeek คือใคร และทำไมถึงถูกจับตา ?

DeepSeek เป็นหนึ่งในบริษัท AI สัญชาติจีนที่มาแรงในปี 2025 โดยมุ่งพัฒนาโมเดลที่เชี่ยวชาญด้านการให้เหตุผล การเขียนโปรแกรม และคณิตศาสตร์ขั้นสูง ความก้าวหน้าของ R1-0528 ทำให้หลายฝ่ายจับตามองว่า DeepSeek กำลังก้าวขึ้นมาเป็นผู้เล่นระดับโลก แต่ในขณะเดียวกัน ก็เกิดคำถามว่า โมเดลนี้ฉลาดเพราะพัฒนาเอง หรือมีการ “ยืมข้อมูล” จากคู่แข่งกันแน่ ?

พฤติกรรมโมเดลที่ “เหมือน Gemini” อย่างผิดปกติ

Sam Paech นักพัฒนา AI ระบุว่า R1-0528 ใช้ถ้อยคำและโทนภาษาใกล้เคียง Gemini 2.5 Pro อย่างมีนัยสำคัญ ขณะที่นักพัฒนานามแฝง “SpeechMap” พบร่องรอยการประมวลผลที่คล้าย Gemini ราวกับลอกมา

แม้ยังไม่มีหลักฐานฟันธง ข้อสังเกตเหล่านี้จุดประเด็นว่า DeepSeek อาจใช้เทคนิค distillation หรือการกลั่นข้อมูลจากโมเดลที่เก่งกว่า เช่น Gemini หรือ GPT เพื่อสร้างโมเดลของตนเอง ซึ่งเป็นเทคนิคที่นิยมใช้เพื่อลดต้นทุนฝึกโมเดล

อย่างไรก็ตาม แม้จะไม่ผิดทางวิทยาศาสตร์ การนำผลลัพธ์จากโมเดลคู่แข่งมาใช้โดยไม่ได้รับอนุญาตขัดกับข้อตกลงของ Google และ OpenAI ที่ห้ามใช้ outputs เพื่อสร้างโมเดลคู่แข่ง

ไม่ใช่ครั้งแรกที่ DeepSeek ถูกสงสัย

  • ปลายปี 2024 นักพัฒนาหลายรายสังเกตว่าโมเดล V3 ของ DeepSeek มักระบุว่าตัวเองคือ ChatGPT ซึ่งอาจเกิดจากการฝึกด้วยข้อมูลแชตของ OpenAI
  • ต้นปี 2025 OpenAI เผยกับ Financial Times ว่าพบหลักฐานเชื่อมโยง DeepSeek กับการใช้ distillation จาก GPT
  • ข้อมูลจาก Bloomberg ระบุว่า Microsoft ตรวจพบการ “ขโมยข้อมูล” ผ่านบัญชีนักพัฒนา OpenAI ในช่วงเวลาเดียวกัน ซึ่งเชื่อมโยงกับ DeepSeek

ปัญหาข้อมูล “ปนเปื้อน AI” บนโลกออนไลน์

นักวิจัยบางคนชี้ว่า ความคล้ายคลึงของโมเดล AI อาจไม่ได้เกิดจากการกลั่นข้อมูลโดยตรง แต่เป็นผลจากอินเทอร์เน็ตที่ “ปนเปื้อนด้วยเนื้อหา AI” มากขึ้นเรื่อย ๆ

Nathan Lambert นักวิจัยจาก AI2 ให้ความเห็นว่า หากเขาเป็น DeepSeek เขาก็จะ “ใช้ API ของโมเดลที่ดีที่สุด เช่น Gemini หรือ GPT สร้างข้อมูลสังเคราะห์จำนวนมากเพื่อฝึกโมเดลของตัวเอง” โดยเฉพาะเมื่อ DeepSeek มีเงินทุนแต่ขาด GPU ซึ่งถือเป็นการ “เพิ่มพลังประมวลผลทางอ้อม”

บริษัท AI เร่งป้องกันข้อมูลรั่วไหล

เพื่อรับมือกับความเสี่ยงจากการกลั่นข้อมูล บริษัท AI ชั้นนำต่างเพิ่มมาตรการป้องกัน เช่น:

  • OpenAI บังคับให้ผู้ใช้องค์กรต้องยืนยันตัวตนด้วยบัตรประชาชนประเทศที่ได้รับอนุญาต ซึ่ง “จีนไม่อยู่ในรายชื่อ”
  • Google เริ่มใช้การสรุปร่องรอยการประมวลผลของโมเดล Gemini บนแพลตฟอร์ม AI Studio เพื่อป้องกันไม่ให้คู่แข่งใช้ trace เหล่านี้ในการฝึกซ้ำ
  • Anthropic ก็เพิ่งประกาศในเดือนพฤษภาคมว่าจะใช้มาตรการเดียวกันเพื่อป้องกันข้อมูลลับของ Claude

อ้างอิง: techcrunch

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

Google เปิดตัวฟีเจอร์ Rambler ลบ "เอ่อ-อ๋อ-เอ้ย" อัตโนมัติ จับไทยคำอังกฤษคำได้แม่นยำ

Google เปิดตัว Rambler ฟีเจอร์พิมพ์ด้วยเสียงพลัง Gemini บน Gboard! ฉลาดล้ำ ตัดคำอุทาน แก้ประโยคผิดได้เอง แถมพูดสลับไทย-อังกฤษได้ลื่นไหล ไม่ต้องโหลดแอปเพิ่ม...

Responsive image

Pause Point ฟีเจอร์ 'ดึงสติ' คนติดหน้าจอ ระบบใหม่ที่มากับ Android 17 ลดพฤติกรรมไถฟีดแบบไร้จุดหมาย

หลายครั้งที่เราหยิบโทรศัพท์เปิดแอปขึ้นมาเพื่อ ‘ดูแป๊บเดียว’ แต่กลับเผลอไถหน้าจอเพลินจนเสียเวลาไปเป็นวัน ล่าสุด Android ได้เปิดตัวฟีเจอร์ใหม่ชื่อ Pause Point เพื่อช่วยลดพฤติกรรมการไ...

Responsive image

The Android Show I/O Edition 2026 อัด 9 ประกาศใหญ่ก่อน Google I/O เปลี่ยน Android เป็นระบบอัจฉริยะ ที่ Gemini ช่วยทำงานข้ามแอปฯ ได้มากขึ้น

Google จัดงาน The Android Show I/O Edition ก่อนเวที Google I/O 2026 หนึ่งสัปดาห์ อัดประกาศใหญ่ทั้ง Gemini Multi-step ข้ามแอป Android 17 Screen Reactions Pause Point Quick Share จับ...