DeepSeek แอบใช้ข้อมูลจาก Gemini ? เบื้องหลัง AI จีนที่กำลังมาแรง

DeepSeek เปิดตัวโมเดล R1-0528 ที่ทำผลงานได้โดดเด่นในด้านคณิตศาสตร์และการเขียนโค้ด จนถูกเปรียบเทียบกับโมเดลระดับโลกอย่าง GPT-4 และ Google Gemini อย่างไรก็ตาม แหล่งข้อมูลที่ใช้ฝึกโมเดลกลับไม่ถูกเปิดเผย ซึ่งทำให้เกิดข้อสงสัยในหมู่นักวิจัยว่า DeepSeek อาจใช้ข้อมูลจาก Gemini โดยไม่ได้รับอนุญาต

DeepSeek คือใคร และทำไมถึงถูกจับตา ?

DeepSeek เป็นหนึ่งในบริษัท AI สัญชาติจีนที่มาแรงในปี 2025 โดยมุ่งพัฒนาโมเดลที่เชี่ยวชาญด้านการให้เหตุผล การเขียนโปรแกรม และคณิตศาสตร์ขั้นสูง ความก้าวหน้าของ R1-0528 ทำให้หลายฝ่ายจับตามองว่า DeepSeek กำลังก้าวขึ้นมาเป็นผู้เล่นระดับโลก แต่ในขณะเดียวกัน ก็เกิดคำถามว่า โมเดลนี้ฉลาดเพราะพัฒนาเอง หรือมีการ “ยืมข้อมูล” จากคู่แข่งกันแน่ ?

พฤติกรรมโมเดลที่ “เหมือน Gemini” อย่างผิดปกติ

Sam Paech นักพัฒนา AI ระบุว่า R1-0528 ใช้ถ้อยคำและโทนภาษาใกล้เคียง Gemini 2.5 Pro อย่างมีนัยสำคัญ ขณะที่นักพัฒนานามแฝง “SpeechMap” พบร่องรอยการประมวลผลที่คล้าย Gemini ราวกับลอกมา

แม้ยังไม่มีหลักฐานฟันธง ข้อสังเกตเหล่านี้จุดประเด็นว่า DeepSeek อาจใช้เทคนิค distillation หรือการกลั่นข้อมูลจากโมเดลที่เก่งกว่า เช่น Gemini หรือ GPT เพื่อสร้างโมเดลของตนเอง ซึ่งเป็นเทคนิคที่นิยมใช้เพื่อลดต้นทุนฝึกโมเดล

อย่างไรก็ตาม แม้จะไม่ผิดทางวิทยาศาสตร์ การนำผลลัพธ์จากโมเดลคู่แข่งมาใช้โดยไม่ได้รับอนุญาตขัดกับข้อตกลงของ Google และ OpenAI ที่ห้ามใช้ outputs เพื่อสร้างโมเดลคู่แข่ง

ไม่ใช่ครั้งแรกที่ DeepSeek ถูกสงสัย

  • ปลายปี 2024 นักพัฒนาหลายรายสังเกตว่าโมเดล V3 ของ DeepSeek มักระบุว่าตัวเองคือ ChatGPT ซึ่งอาจเกิดจากการฝึกด้วยข้อมูลแชตของ OpenAI
  • ต้นปี 2025 OpenAI เผยกับ Financial Times ว่าพบหลักฐานเชื่อมโยง DeepSeek กับการใช้ distillation จาก GPT
  • ข้อมูลจาก Bloomberg ระบุว่า Microsoft ตรวจพบการ “ขโมยข้อมูล” ผ่านบัญชีนักพัฒนา OpenAI ในช่วงเวลาเดียวกัน ซึ่งเชื่อมโยงกับ DeepSeek

ปัญหาข้อมูล “ปนเปื้อน AI” บนโลกออนไลน์

นักวิจัยบางคนชี้ว่า ความคล้ายคลึงของโมเดล AI อาจไม่ได้เกิดจากการกลั่นข้อมูลโดยตรง แต่เป็นผลจากอินเทอร์เน็ตที่ “ปนเปื้อนด้วยเนื้อหา AI” มากขึ้นเรื่อย ๆ

Nathan Lambert นักวิจัยจาก AI2 ให้ความเห็นว่า หากเขาเป็น DeepSeek เขาก็จะ “ใช้ API ของโมเดลที่ดีที่สุด เช่น Gemini หรือ GPT สร้างข้อมูลสังเคราะห์จำนวนมากเพื่อฝึกโมเดลของตัวเอง” โดยเฉพาะเมื่อ DeepSeek มีเงินทุนแต่ขาด GPU ซึ่งถือเป็นการ “เพิ่มพลังประมวลผลทางอ้อม”

บริษัท AI เร่งป้องกันข้อมูลรั่วไหล

เพื่อรับมือกับความเสี่ยงจากการกลั่นข้อมูล บริษัท AI ชั้นนำต่างเพิ่มมาตรการป้องกัน เช่น:

  • OpenAI บังคับให้ผู้ใช้องค์กรต้องยืนยันตัวตนด้วยบัตรประชาชนประเทศที่ได้รับอนุญาต ซึ่ง “จีนไม่อยู่ในรายชื่อ”
  • Google เริ่มใช้การสรุปร่องรอยการประมวลผลของโมเดล Gemini บนแพลตฟอร์ม AI Studio เพื่อป้องกันไม่ให้คู่แข่งใช้ trace เหล่านี้ในการฝึกซ้ำ
  • Anthropic ก็เพิ่งประกาศในเดือนพฤษภาคมว่าจะใช้มาตรการเดียวกันเพื่อป้องกันข้อมูลลับของ Claude

อ้างอิง: techcrunch

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

เจาะดีล Netflix เข้าซื้อ Warner Bros ทำไมถึงยอมจ่ายมากถึง 8.27 ล้านดอลลาร์สหรัฐ และทำไมหลายคนไม่เห็นด้วย

นับเป็นข่าวใหญ่ที่สะเทือนวงการบันเทิงหนัง Netflix เจ้าตลาดสตรีมมิ่งประกาศเข้าซื้อกิจการ Warner Bros. ซึ่งนับรวมถึงสตูดิโอสร้างภาพยนตร์-โทรทัศน์ และธุรกิจสตรีมมิ่ง HBO Max และ HBO ด...

Responsive image

ซีอีโอ AWS ชี้ AI Agents จะเปลี่ยนโลกยิ่งกว่าอินเทอร์เน็ต เราอาจได้เห็น AI Agent พันล้านตัวรันองค์กร

AWS ซีอีโอประกาศชัด AI Agents จะสร้างผลกระทบต่อโลกธุรกิจยิ่งกว่าอินเทอร์เน็ตและ Cloud พร้อมเปิดยุคที่ ‘AI Agent พันล้านตัว’ ทำงานอัตโนมัติอยู่หลังองค์กรทั่วโลก เร่งผลตอบแทนทางธุรกิ...

Responsive image

วิกฤตสมองไหลใน Apple ไม่จบ ! ล่าสุด Meta ดึงตัว Alan Dye หัวหน้าทีมดีไซน์ Apple ผู้คุมออกแบบ Liquid Glass ใน iOS26

เจาะลึกสมองไหลใน Apple ปี 2025 เมื่อผู้เชี่ยวชาญ AI หลายคนย้ายไป Meta, OpenAI และ Cohere ส่งผลต่ออนาคต Apple Intelligence...