นักวิจัยสหรัฐฯ สร้างคู่แข่ง AI จีน DeepSeek ด้วยต้นทุนแค่ 50 ดอลลาร์สหรัฐฯ

ทีมนักวิจัยจาก Stanford และ University of Washington สามารถฝึกโมเดล AI ด้านการให้เหตุผล (Reasoning) ด้วยต้นทุนไม่ถึง $50 หรือประมาณ 1,600 บาทผ่าน cloud compute credits (เครดิตประมวลผลบนคลาวด์) ตามรายงานวิจัยที่เผยแพร่เมื่อวันศุกร์ที่ผ่านมา

โมเดลที่พัฒนาขึ้นมีชื่อว่า s1 และทำงานได้ใกล้เคียงกับโมเดล reasoning ชั้นนำ เช่น o1 ของ OpenAI และ R1 ของ DeepSeek โดยผ่านการทดสอบความสามารถด้านคณิตศาสตร์และการเขียนโค้ด ปัจจุบัน s1 พร้อมให้ใช้งานบน GitHub พร้อมทั้งโค้ดและชุดข้อมูลที่ใช้ในการฝึก

พัฒนา s1 อย่างไร ถึงได้ต้นทุนที่ถูกขนาดนี้

ทีมวิจัยเริ่มต้นด้วย base model (โมเดลพื้นฐาน) ที่มีอยู่ในตลาด และปรับแต่งโดยใช้กระบวนการ Distillation ซึ่งเป็นเทคนิคการสกัดความสามารถด้านการให้เหตุผลจากโมเดล AI อื่นๆ ผ่านการฝึกจากคำตอบของโมเดลต้นแบบ

นักวิจัยเปิดเผยว่า s1 ได้รับการกลั่นมาจาก Gemini 2.0 Flash Thinking Experimental ซึ่งเป็นโมเดลด้านการให้เหตุผลของ Google เทคนิคเดียวกันนี้เคยถูกใช้โดยทีมนักวิจัยจาก Berkeley ในการสร้างโมเดล AI ด้านการให้เหตุผล ด้วยงบประมาณประมาณ 450 ดอลลาร์สหรัฐฯ เมื่อเดือนที่แล้ว

แม้ว่า Google จะเปิดให้ใช้งาน Gemini 2.0 Flash Thinking Experimental ได้ฟรีผ่านแพลตฟอร์ม Google AI Studio (โดยมีข้อจำกัดรายวัน) แต่ข้อกำหนดของ Google ห้ามการ reverse-engineering (วิศวกรรมย้อนกลับ) เพื่อนำไปพัฒนาโมเดลแข่งกับบริการ AI ของบริษัท

ทีมวิจัยใช้โมเดลพื้นฐานจาก Qwen ซึ่งเป็น AI Lab ของ Alibaba ที่เปิดให้ดาวน์โหลดฟรี จากนั้นพวกเขาสร้าง ชุดข้อมูลเพียง 1,000 คำถาม โดยแต่ละคำถามมีคำตอบ พร้อมกระบวนการคิดที่ได้จาก Gemini 2.0 Flash Thinking Experimental

TechCrunch รายงานว่า ตามที่ Niklas Muennighoff นักวิจัยจาก Stanford บอก การฝึก s1 ใช้เวลาไม่ถึง 30 นาที โดยรันบน 16 Nvidia H100 GPUs และมีค่าใช้จ่ายเพียง 20 ดอลลาร์สหรัฐฯ เท่านั้น 

เทคนิคใหม่ของ s1

นักวิจัยของ s1 ต้องการหาแนวทางที่ง่ายที่สุดในการสร้าง reasoning performance (ความสามารถด้านเหตุผล) และ test-time scaling (ความสามารถในการเพิ่มเวลาคิดของ AI ก่อนตอบคำถาม) ซึ่งเป็นหนึ่งในนวัตกรรมของ OpenAI o1 ที่ DeepSeek และ AI Lab อื่น ๆ กำลังพยายามเลียนแบบ

งานวิจัยชี้ให้เห็นว่า โมเดล reasoning สามารถถูกกลั่นด้วยชุดข้อมูลขนาดเล็ก ผ่านกระบวนการที่เรียกว่า Supervised Fine-Tuning (SFT) หรือการฝึก AI ให้เลียนแบบพฤติกรรมเฉพาะจากชุดข้อมูล ซึ่ง SFT มีต้นทุนต่ำกว่าการใช้ Reinforcement Learning (RL) ซึ่งเป็นวิธีที่ DeepSeek ใช้สร้างโมเดล R1 เพื่อแข่งขันกับ OpenAI o1

แต่สุดท้ายแล้วแม้ว่าการใช้ Distillation จะช่วยสร้างโมเดล AI ทรงพลังได้ในราคาถูก แต่มันยังไม่สามารถสร้าง นวัตกรรมใหม่ที่เหนือกว่าโมเดลปัจจุบัน ได้ ดังนั้น การลงทุนระดับมหาศาลก็อาจยังคงจำเป็นเพื่อขยายขีดจำกัดของ AI ต่อไป

อ้างอิง: techcrunch

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

Reed Hastings ผู้ก่อตั้ง Netflix เตรียมลงจากตำแหน่งกลางปีนี้ ปิดตำนาน 27 ปี ผู้เปลี่ยนโลกการดูหนัง

Reed Hastings ผู้ร่วมก่อตั้งและประธานบอร์ดของ Netflix กำลังจะก้าวลงจากตำแหน่งกรรมการบริษัทที่เขาสร้างขึ้นมาตั้งแต่ต้น หลังจากอยู่กับองค์กรมาอย่างยาวนานกว่า 27 ปี โดยการเปลี่ยนแปลงน...

Responsive image

สวีเดนสั่งยกเลิกหน้าจอในห้องเรียน กลับไปใช้หนังสือและปากกา

สวีเดนประกาศเลิกใช้หน้าจอในเด็กเล็ก กลับไปเน้นอ่านเขียนบนกระดาษเพื่อกู้คะแนน PISA เกิดอะไรขึ้นกับระบบการศึกษาที่เคยดีที่สุดในโลก?...

Responsive image

Opus 4.7 สรุปความเก่งของโมเดลล่าสุดจาก Anthropic คิดเองได้ว่าโค้ดผิดตรงไหน เถียงผู้ใช้ได้ ทำงานลากยาวได้โดยไม่ต้องคอยคุม

ลองนึกภาพว่าถ้าคุณเป็น Developer ที่ต้องเขียนเขียนระบบแปลงข้อความเป็นเสียงพูด (Text-to-Speech) ด้วยภาษา Rust โดยต้องเขียนตั้งแต่ Neural Model, การจัดการประมวลผลระดับฮาร์ดเแวร์, ทำ ...