ไม่ต้องเขียนโค้ดก็สร้างเกมได้! Google เปิดตัว Project Genie เนรมิตโลก 3D ที่เดินเล่นได้จริงผ่าน AI

Generative AI ได้เปลี่ยนนิยามของการสร้างสรรค์ผลงานศิลปะ จากการตวัดปลายพู่กันมาสู่การป้อนชุดคำสั่งหรือ Prompt เพื่อให้ได้มาซึ่งภาพนิ่งอันวิจิตรตระการตา หรือวิดีโอสั้นที่น่าตื่นตาตื่นใจ แต่ดูเหมือนว่าความทะเยอทะยานของ Google DeepMind จะไม่ได้หยุดอยู่เพียงแค่การสร้างสื่อที่ทำได้เพียง 'มองดู' เท่านั้น ล่าสุดยักษ์ใหญ่แห่งวงการเทคโนโลยีรายนี้ได้เปิดประตูสู่พรมแดนใหม่ด้วยการแนะนำ 'Project Genie' โครงการทดลองสุดล้ำที่อนุญาตให้ผู้ใช้งานสามารถเนรมิตโลกเสมือนจริงที่สามารถเข้าไปสำรวจและโต้ตอบได้ราวกับหลุดเข้าไปในวิดีโอเกมที่ไม่มีวันจบสิ้น

รุ่งอรุณแห่ง World Models ยุคใหม่

หัวใจสำคัญที่ขับเคลื่อน Project Genie ไม่ใช่เพียงแค่โมเดลภาษาขนาดใหญ่ทั่วไป แต่คือสิ่งที่เรียกว่า 'General-purpose world model' หรือโมเดลโลกอเนกประสงค์ในชื่อ Genie 3 ซึ่งถือเป็นวิวัฒนาการก้าวกระโดดจากโครงการทดลองในอดีต หากเราย้อนกลับไปมองความสำเร็จของ Google DeepMind เรามักจะคุ้นเคยกับปัญญาประดิษฐ์ที่เก่งกาจเฉพาะทาง เช่น AlphaGo ที่เอาชนะแชมป์โลกโกะ หรือ AlphaStar ในเกม StarCraft II ซึ่งล้วนทำงานอยู่ภายใต้กฎเกณฑ์ที่ตายตัวของเกมนั้นๆ แต่โจทย์ของ Project Genie นั้นยิ่งใหญ่กว่ามาก เพราะเป้าหมายคือการปูทางไปสู่ปัญญาประดิษฐ์ที่มีความฉลาดระดับมนุษย์หรือ AGI (Artificial General Intelligence) ซึ่งจำเป็นต้องมีความเข้าใจในพลวัตอันซับซ้อนและหลากหลายของโลกแห่งความเป็นจริง

ความแตกต่างที่ชัดเจนที่สุดของเทคโนโลยีนี้คือความสามารถในการ 'ทำนายอนาคต' ของเฟรมถัดไป Genie 3 ไม่ได้ทำการเรนเดอร์กราฟิกสามมิติแบบเกมเอนจินทั่วไปที่มีการเขียนโค้ดกำกับฟิสิกส์ไว้อย่างชัดเจน แต่ระบบเรียนรู้ที่จะจำลองปฏิกิริยาตอบสนองจากการสังเกตข้อมูลจำนวนมหาศาล ทำให้มันเข้าใจว่าหากตัวละครกระโดดจะต้องตกลงมาด้วยแรงโน้มถ่วง หรือหากเดินชนวัตถุ วัตถุนั้นควรจะขยับหรือหยุดนิ่ง ทั้งหมดนี้เกิดขึ้นในรูปแบบเรียลไทม์ ผู้ใช้งานจึงไม่ได้เป็นเพียงผู้ชม แต่เป็นผู้สำรวจที่ทุกย่างก้าวจะถูกสร้างขึ้นสดๆ ตรงหน้า วินาทีต่อวินาที

สามประสานแห่งขุมพลัง Genie 3, Nano Banana Pro และ Gemini

เบื้องหลังความมหัศจรรย์ของแอปพลิเคชันต้นแบบบนเว็บนี้ เกิดจากการผสานพลังของเทคโนโลยีสามส่วนเข้าด้วยกัน ได้แก่ Genie 3 ที่ทำหน้าที่เป็นมันสมองหลักในการจำลองกฎฟิสิกส์และสภาพแวดล้อม ทำงานร่วมกับ Nano Banana Pro และ Gemini ซึ่งเข้ามาช่วยเสริมประสิทธิภาพในการทำความเข้าใจคำสั่งของผู้ใช้และการประมวลผลที่ลื่นไหล ผลลัพธ์ที่ได้คือเครื่องมือที่เปิดโอกาสให้จินตนาการไร้ขอบเขต ไม่ว่าคุณจะต้องการสร้างฉากเมืองไซไฟในโลกอนาคต ป่าดงดิบที่มีสัตว์ประหลาด หรือแม้แต่จำลองเหตุการณ์ทางประวัติศาสตร์เพื่อการเรียนรู้ ระบบสามารถแปลงแนวคิดเหล่านั้นให้กลายเป็นโลกที่เดินสำรวจได้จริง

สิ่งที่น่าทึ่งคือความสามารถในการรักษา 'ความต่อเนื่อง' ของโลกที่สร้างขึ้น ในอดีต AI มักจะมีปัญหาเรื่องความจำระยะสั้น ทำให้ฉากหลังหรือวัตถุเปลี่ยนไปมาเมื่อมุมกล้องขยับ แต่ Genie 3 ได้รับการพัฒนาให้จดจำสถานะของโลกจำลองนั้นๆ ทำให้ประสบการณ์การสำรวจมีความสมจริงและต่อเนื่อง ยิ่งไปกว่านั้น มันยังเปิดโอกาสให้ผู้ใช้สามารถ 'Remix' หรือดัดแปลงโลกของตัวเองได้ตลอดเวลา ทำให้เกิดความเป็นไปได้ใหม่ๆ ในการเล่าเรื่องและการสร้างสรรค์คอนเทนต์แบบอินเทอร์แอกทีฟ

สู่อนาคตที่ไร้ขีดจำกัด

ในขณะนี้ Project Genie ยังคงสถานะเป็นโครงการวิจัยต้นแบบ (Research Prototype) ที่เปิดให้เฉพาะสมาชิก Google AI Ultra ในสหรัฐอเมริกาที่มีอายุ 18 ปีขึ้นไปได้ทดลองใช้ ซึ่งสะท้อนให้เห็นว่าเทคโนโลยีนี้ยังอยู่ในช่วงเริ่มต้นของการขัดเกลา แต่ศักยภาพที่แสดงออกมานั้นได้ส่งสัญญาณที่ชัดเจนไปยังอุตสาหกรรมต่างๆ ไม่ใช่แค่วงการเกมที่อาจถูกปฏิวัติด้วยเครื่องมือที่ช่วยลดระยะเวลาการสร้างฉากจากเดือนเป็นนาที แต่อาจรวมถึงวงการหุ่นยนต์ที่สามารถใช้โลกจำลองนี้ในการฝึกฝนหุ่นยนต์ให้เรียนรู้การเดินหรือหยิบจับสิ่งของในสภาพแวดล้อมที่หลากหลายโดยไม่ต้องเสี่ยงกับความเสียหายจริง หรือวงการภาพยนตร์ที่ผู้กำกับสามารถร่างฉากในจินตนาการออกมาเดินสำรวจได้ก่อนเริ่มถ่ายทำ

ที่มา: Blog Google

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

อดีตพนักงานแฉ Oracle สุ่มเลิกจ้างด้วยอัลกอริทึม มุ่งเป้ากลุ่มหัวกะทิที่ถือหุ้นเยอะ

ดราม่า Oracle ปลดพนักงาน 30,000 ตำแหน่ง! อดีตพนักงานแฉบริษัทใช้ ‘อัลกอริทึม’ คัดเฉพาะตัวท็อปเงินเดือนสูงและถือหุ้นเยอะออกก่อน...

Responsive image

Google เปิดตัว ‘Gemma 4’ AI Open Model ที่ทรงพลังที่สุด รองรับ 140 ภาษา รันได้บนมือถือ Android ยันเซิร์ฟเวอร์ระดับองค์กร

Gemma 4 สุดยอดโมเดล AI แบบเปิด (Open Model) จาก Google ที่เก่งที่สุด พร้อมฟีเจอร์ให้เหตุผลขั้นสูง รองรับกว่า 140 ภาษา รันได้ตั้งแต่มือถือไปจนถึงพีซีส่วนตัว เปิดโอกาสให้นักพัฒนาต่อย...

Responsive image

Microsoft เปิดตัว ‘MAI’ 3 AI โมเดลใหม่ Transcribe-1, Voice-1, Image-2 แปลงเสียง-สร้างวิดีโอสุดล้ำ ราคาถูกกว่าคู่แข่ง

ไมโครซอฟท์เปิดตัว 3 โมเดลปัญญาประดิษฐ์พื้นฐานใหม่ MAI-Transcribe-1, Voice-1 และ Image-2 ชูจุดเด่นฟีเจอร์ล้ำหน้าในราคาที่ถูกกว่าคู่แข่งอย่างกูเกิลและโอเพ่นเอไอ พร้อมวิสัยทัศน์เพื่อม...