ถ้าพูดถึงการเปิดตัว Deepseek R1 เชื่อว่าเป็นหนึ่งในข่าวใหญ่ของวงการ AI ที่ทำให้ทั้งโลกต้องหันมาจับตามอง เพราะนี่คือโมเดลจากฝั่งจีนที่มีการเคลมว่าทำงานได้ เหนือกว่า ChatGPT-O1 ซึ่งเป็นเรือธงจาก OpenAI ของสหรัฐฯ
สิ่งที่ทำให้ Deepseek R1 ไม่ใช่แค่ AI ธรรมดาที่แข่งกันเรื่องความฉลาดเท่านั้น จุดที่ทำให้ทั่วโลกต้องอึ้งคือ มันถูกพัฒนาขึ้นภายใต้ข้อจำกัดทางเทคโนโลยี โดยเฉพาะมาตรการกีดกันทางการค้าจากสหรัฐฯ ที่ทำให้จีนเข้าถึงฮาร์ดแวร์สำคัญอย่างชิปประมวลผลระดับสูงได้ยากขึ้น
แต่ Deepseek R1 กลับพัฒนาขึ้นอย่างมีประสิทธิภาพ ในต้นทุนที่ต่ำกว่า นี่อาจเป็นสัญญาณว่า จีนกำลังลดการพึ่งพาตะวันตก และก้าวสู่ยุค AI ของตัวเอง จนหลายๆ คนมองว่านี่คือ Game Changer ที่สำคัญของอุตสาหกรรม AI
เพื่อให้เห็นมุมมองที่รอบด้านมากขึ้น Techsauce ได้นำความเห็นของ ดร. พัทน์ ภัทรนุธาพร นักเทคโนโลยีแห่ง MIT Media Lab หรือที่หลายคนรู้จักกันในชื่อ ดร. พีพี ในฐานะนักวิจัยด้าน Human-AI Interaction ซึ่งมองว่า Deepseek อาจยังไม่ใช่การก้าวกระโดดของเทคโนโลยีขนาดนั้น แต่ก็เป็นพัฒนาการที่สำคัญของอุตสาหกรรม AI อย่างแน่นอน
***ดร. พัทน์ เน้นว่าการพิจารณาว่าอะไรคือ breakthrough เป็นเรื่องที่ขึ้นอยู่กับมุมมองของแต่ละบุคคล ซึ่งอาจเห็นต่างกันได้ และนี่เป็นเพียงความคิดเห็นของเขาในฐานะ นักวิจัยด้าน Human-AI Interaction ที่พิจารณาจากมิติของเทคโนโลยีและผลกระทบต่อวงการ AI โดยรวม***
ดร. พัทน์ ได้โพสต์ลงบนเฟสบุ๊คส่วนตัว (Pat Pataranutaporn) ในหัวข้อเรื่อง My take on DeepSeek: Innovation ? โดยเริ่มต้นด้วยการตั้งข้อสังเกตว่า DeepSeek อาจไม่ได้เป็นนวัตกรรมที่พลิกโฉมวงการอย่างที่หลายคนตื่นเต้นกัน
สิ่งที่ทำให้ข่าวนี้กลายเป็นกระแสอาจไม่ได้มาจากความล้ำหน้าของเทคโนโลยีโดยตรง แต่เกี่ยวข้องกับ ปัจจัยทางภูมิรัฐศาสตร์ (geopolitics) ของสหรัฐฯ ในช่วงนี้ ที่ส่งผลต่อการรับรู้ข่าวสารเกี่ยวกับ AI รวมถึงความรู้สึกของหลายคนที่อาจมีอคติต่อ Sam Altman ซีอีโอของ OpenAI ซึ่งอาจเป็นหนึ่งในเหตุผลที่ทำให้ DeepSeek ถูกพูดถึงเป็นพิเศษ
อีกจุดที่เขาชวนให้คิดคือ การที่ข่าวนี้ทำให้หุ้น Nvidia ร่วง 17% และส่งผลให้มูลค่าตลาดของบริษัทลดลงเกือบ 6 แสนล้านดอลลาร์สหรัฐฯ ไม่ได้แปลว่า DeepSeek เป็นนวัตกรรมที่แท้จริง เพราะกระแสตลาดหุ้นมักถูกขับเคลื่อนด้วยอารมณ์และปัจจัยอื่นๆ มากกว่าแค่ตัวเทคโนโลยีเอง
โดย ดร. พัทน์ ยกตัวอย่าง Elon Musk ที่เพียงแค่ทวีตข้อความก็สามารถทำให้ราคาหุ้นของบางบริษัทพุ่งขึ้นหรือลดลงได้ทันที ทั้งที่ตัวทวีตอาจไม่มีความเกี่ยวข้องกับเทคโนโลยีหรือการพัฒนาใหม่ๆ โดยตรง นี่สะท้อนให้เห็นว่า กระแสข่าวและตลาดการเงิน ไม่ใช่ตัวชี้วัดความเป็นนวัตกรรมเสมอไป
ดร. พัทน์ เผยว่า แนวคิดในการทำให้ AI โมเดลเล็กลงและสามารถรันได้บนอุปกรณ์ทั่วไป เช่น คอมพิวเตอร์ส่วนตัวหรือมือถือ ไม่ใช่เรื่องใหม่ แต่เป็นสิ่งที่มีการวิจัยและพัฒนามาต่อเนื่องตั้งแต่ปี 2020 หรืออาจจะก่อนหน้านั้นอีก
หนึ่งในวิธีที่ใช้กันอย่างแพร่หลายก็คือ Pruning ซึ่งเป็นกระบวนการตัดแต่งบางส่วนของโมเดลที่ไม่จำเป็นออกไป ทำให้โมเดลมีขนาดเล็กลงแต่ยังคงให้ผลลัพธ์ที่ดีพอ อีกเทคนิคหนึ่งคือ Distillation ซึ่งเป็นการให้โมเดลขนาดเล็กเรียนรู้จากโมเดลขนาดใหญ่ ช่วยให้สามารถใช้งานได้โดยไม่ต้องพึ่งพาทรัพยากรเครื่องสูงมาก
วิธีการเหล่านี้ถูกนำมาใช้โดยบริษัท AI รายใหญ่ เช่น OpenAI, Google และ Meta มานานแล้ว ดังนั้น การทำให้โมเดลเล็กลงจึงเป็นสิ่งที่เกิดขึ้นเป็นปกติในวงการ AI และไม่น่าจะถูกนับว่าเป็น "นวัตกรรมพลิกโฉม"
ประเด็นเรื่อง Base Model ของ DeepSeek คือ โมเดลที่ใช้งานจริงนั้น ไม่ได้ถูกพัฒนาใหม่ทั้งหมดตั้งแต่ต้น แต่ใช้วิธีนำโมเดลที่มีอยู่แล้วมาปรับปรุงต่อ ซึ่งทำให้ต้นทุนในการพัฒนา ต่ำกว่าการสร้างโมเดลใหม่ตั้งแต่ศูนย์ จากงานวิจัยของ DeepSeek จะเห็นว่ามี สองแนวทางหลัก ที่ถูกใช้:
ซึ่งทาง ดร.พัทน์ อธิบายเอาไว้ว่า ประเด็นที่ต้องเข้าใจคือ DeepSeek ไม่ได้เทรนโมเดลตั้งแต่เริ่มต้น (train from scratch) แต่ใช้โมเดลที่มีอยู่แล้วมาปรับปรุงต่อ (post-training) นี่จึงเป็นสาเหตุที่ทำให้ DeepSeek ใช้ทรัพยากรน้อยกว่า เช่น ใช้ GPU น้อยลงและมีค่าใช้จ่ายต่ำกว่าที่หลายคนคิด
แต่ถ้านำ DeepSeek ไปเปรียบเทียบกับ OpenAI อาจไม่ใช่การเปรียบเทียบที่ยุติธรรม เพราะ OpenAI สร้างโมเดลจากศูนย์ (train from scratch) ก่อนจะทำ post-training ซึ่งใช้ทรัพยากรมากกว่ามาก ดังนั้น การบอกว่า DeepSeek ประหยัดกว่าโดยไม่คำนึงถึงต้นทุนของโมเดลฐานที่ใช้ อาจไม่ใช่การเปรียบเทียบที่ถูกต้อง
Chain-of-Thought (CoT) คือเทคนิคที่ทำให้โมเดลคิดเป็นลำดับขั้นตอนก่อนให้คำตอบ ซึ่งช่วยให้คำตอบมีเหตุผลมากขึ้น แต่สุดท้ายแล้ว มันก็ยังเป็นแค่การ "เลียนแบบ" การให้เหตุผล มากกว่าที่จะเป็นการคิดจริงๆ ซึ่งทาง ดร. พัทน์ ชีว่าถ้าดูในรายละเอียดของงานวิจัย จะเห็นว่าการปรับปรุงนี้ทำโดยใช้ Reinforcement Learning (RL) เพื่อให้โมเดลเรียนรู้ที่จะตอบแบบมีโครงสร้างที่ดูเหมือนการให้เหตุผล แต่จริงๆ แล้วมันไม่ได้เข้าใจในความหมายที่แท้จริง
การให้เหตุผลแบบนี้เรียกว่า Probabilistic Reasoning หรือการคาดเดาคำตอบโดยอิงจากความน่าจะเป็นของข้อมูลที่เรียนรู้มา ซึ่งต่างจาก Symbolic Reasoning ที่ใช้ตรรกะและกฎที่ชัดเจน เช่น คณิตศาสตร์ หรือตรรกศาสตร์ ซึ่งสามารถให้เหตุผลอย่างเป็นระบบได้จริง
สิ่งสำคัญคือลักษณะนี้ไม่ใช่เรื่องใหม่ งานวิจัยแรกๆ เกี่ยวกับ Chain-of-Thought Prompting มีมาตั้งแต่ปี 2022 โดยทีมของ Google Brain ซึ่งแสดงให้เห็นว่า แม้จะไม่ได้ปรับแต่งโมเดลเพิ่มเติม (fine-tune) ก็สามารถทำให้โมเดลให้เหตุผลดีขึ้นได้เพียงแค่ใช้ Prompt ที่ออกแบบมาอย่างดี
ดังนั้น ถ้าหากต้องการให้โมเดลมีความสามารถในการให้เหตุผลจริงๆ ไม่ใช่แค่เลียนแบบ ก็ควรไปดูแนวทางที่เรียกว่า NeuroSymbolic ซึ่งจะช่วยให้ AI เข้าใจและให้เหตุผลแบบมีโครงสร้างมากขึ้น
ดร. พัทน์ อธิบายเพิ่มเติมถึงผลการทดสอบของ DeepSeek จากกราฟจะเห็นว่าพวกเขาเปรียบเทียบกับโมเดลอื่นๆ เพื่อแสดงให้เห็นว่าโมเดลของพวกเขาทำงานได้ดีแค่ไหน อย่างไรก็ตาม สิ่งที่ขาดไปคือการเปรียบเทียบกับวิธีง่ายๆ อย่างการใช้ Chain-of-Thought (CoT) เพียงอย่างเดียวโดยไม่ต้องใช้ Reinforcement Learning (RL)
เพราะน่าจะเป็นจุดที่น่าสงสัยว่า จริงๆ แล้วโมเดลของพวกเขาดีขึ้นเพราะ RL จริงๆ หรือแค่เพราะใช้เทคนิค Chain-of-Thought ซึ่งเป็นเทคนิคที่ช่วยให้โมเดลตอบคำถามได้ดีขึ้นอยู่แล้ว?
ตัวอย่างเช่น ลองให้ LLAMA ใช้ Chain-of-Thought อาจช่วยให้เราเห็นว่า จริงๆ แล้ว การที่ DeepSeek ทำงานได้ดีขึ้น มาจาก RL จริงๆ หรือแค่เพราะมี Chain-of-Thought และที่น่าสนใจคือ LLAMA รุ่นเล็กเพียง 8B พารามิเตอร์ ก็ทำได้ดีใน Benchmark อย่าง MMLU อยู่แล้ว ซึ่งหมายความว่า แม้ไม่ใช้ RL ก็สามารถพัฒนาโมเดลให้มีประสิทธิภาพสูงได้
นี่คือจุดที่ควรตรวจสอบให้ชัดเจนก่อนสรุปว่า RL เป็นปัจจัยหลักที่ช่วยเพิ่มประสิทธิภาพของ DeepSeek
ดร. พัทน์มองว่า กระแสความตื่นเต้นเกี่ยวกับ DeepSeek อาจจะทำให้เข้าใจผิดไปจากความเป็นจริง โดยเปรียบเทียบว่า เหมือนการเอารถแข่งมาติดเกวียน แล้วบอกว่าเกวียนสามารถวิ่งเร็วเท่ารถแข่ง ซึ่งหมายความว่า DeepSeek อาจไม่ได้มีความก้าวหน้าทางเทคโนโลยีที่แท้จริง แต่ใช้เทคนิคหรือบริบทบางอย่างมาทำให้ดูเหมือนว่าก้าวล้ำขึ้นมา
อย่างไรก็ตาม ดร. พัทน์ไม่ได้มองว่า Small Model หรือโมเดลขนาดเล็กเป็นสิ่งที่ไร้ประโยชน์ ตรงกันข้าม กลับมองว่าสิ่งที่น่าชื่นชมเกี่ยวกับแนวทางนี้คือ ผลกระทบต่อสิ่งแวดล้อมที่ลดลง ซึ่งเป็นประเด็นที่นักวิจัยอย่าง Kate Crawford ได้กล่าวถึงในหนังสือของเธอ การทำให้โมเดลเล็กลงช่วยลดการใช้พลังงานมหาศาลที่มาพร้อมกับการฝึกและใช้งาน AI ขนาดใหญ่ ซึ่งเป็นประเด็นที่วงการ AI เริ่มให้ความสำคัญมากขึ้น
สำหรับ DeepSeek เอง ดร. พัทน์ยอมรับว่า GRPO (Generalized Reward Prediction Optimization) และ Multi-token prediction เป็นองค์ความรู้ใหม่ที่มีคุณค่าจริง แต่ก็เป็นก้าวถัดไปที่สามารถคาดการณ์ได้อยู่แล้ว มากกว่าจะเป็นนวัตกรรมที่ปฏิวัติวงการ
สิ่งที่เขาตื่นเต้นมากกว่ากลับเป็น งานด้าน Mechanistic Interpretability ของ Anthropic ซึ่งช่วยให้เข้าใจว่า โมเดล AI ให้เหตุผลอย่างไรผ่านโครงสร้างของ Neural Clusters ทำให้มนุษย์สามารถ มองเห็นเบื้องหลังการทำงานของ AI ได้จริง
อีกประเด็นที่เขาตั้งข้อสังเกตคือ AI ทั่วโลกยังคงอยู่ภายใต้กรอบแนวคิดที่อเมริกาวางไว้ ซึ่งหมายความว่าแม้ว่าจีนจะพัฒนาโมเดล AI ใหม่ๆ ขึ้นมา แต่โมเดลเหล่านั้นก็ยังคงเป็น การปรับปรุงเล็กน้อยของสิ่งที่อเมริกาเคยทำไว้แล้ว หากจีนต้องการแสดงให้เห็นถึงความก้าวหน้าที่แท้จริง พวกเขาควรนำเสนอ โมเดลที่สามารถสร้างหมวดหมู่ใหม่ (new category) และเป็นผู้ชนะในหมวดหมู่นั้นจริงๆ ไม่ใช่แค่การต่อยอดจากแนวคิดเดิมที่มีอยู่
ขอขอบคุณ ดร. พัทน์ ภัทรนุธาพร สำหรับการแบ่งปันมุมมองและข้อมูลเชิงลึก
สามารถอ่านความคิดเห็นฉบับเต็มได้ที่: Facebook Post
ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด