เราไม่เคยอ่านตำราฟิสิกส์ตอนอายุขวบปีแรก แต่เรารู้ว่าถ้าปล่อยแก้วจากมือ มันจะตก ไม่ใช่ลอยขึ้น
ความเข้าใจนั้นไม่ได้มาจากการท่องจำ แต่มาจากประสบการณ์ที่เราเคยทำแก้วหล่นจริงๆ เคยเห็นน้ำกระจาย เคยโดนดุ เคยเรียนรู้จากผลลัพธ์จริงซ้ำแล้วซ้ำเล่า
สมองของเราสะสมประสบการณ์เหล่านั้นแล้วสร้างแบบจำลองของโลกขึ้นมาในหัว แบบจำลองที่ช่วยให้เราคาดการณ์ได้ล่วงหน้าว่าโลกจะตอบสนองต่อการกระทำแต่ละอย่างของเราอย่างไร
แต่ AI ส่วนใหญ่ที่เราใช้อยู่ในวันนี้ ไม่ได้มีแบบจำลองลักษณะนี้อยู่ภายในตัว

Large Language Model (LLM) ถูกฝึกจากข้อมูลข้อความระดับมหาศาล อ่านข้อความมาแล้วหลายล้านล้านตัวอักษร พวกมันเข้าใจกฎของเทอร์โมไดนามิกส์ อธิบายวิถีกระสุนได้ หรือแม้แต่ตอบได้ว่าทำไมท้องฟ้าถึงเป็นสีฟ้า
แต่ความรู้เหล่านั้นล้วนมาจากสิ่งเดียวกัน คือ ข้อความที่มนุษย์เขียนขึ้น
ภาษาคือการแปลงโลกจริงให้อยู่ในรูปของสัญลักษณ์ และ LLM ก็เรียนรู้จากสัญลักษณ์เหล่านั้น ไม่ได้เรียนรู้จากโลกจริงโดยตรง
ลองนึกถึงคนที่อ่านตำราว่ายน้ำมาทั้งชีวิต รู้ทุกเทคนิค เข้าใจแรงต้านของน้ำ รู้จังหวะการหายใจอย่างถูกต้อง แต่ไม่เคยลงสระจริงเลย
และนี่คือจุดที่แนวคิด World Model เข้ามา
แทนที่จะให้ AI เรียนรู้โลกผ่านคำอธิบายเพียงอย่างเดียว นักวิจัยเริ่มตั้งคำถามใหม่ว่า จะเกิดอะไรขึ้นถ้า AI สามารถสร้าง “แบบจำลองของโลก” ขึ้นมาในตัวเอง แล้วทดลองกับโลกนั้นได้เหมือนกับที่มนุษย์เรียนรู้ผ่านประสบการณ์จริง
ก่อนจะไปถึงเรื่องเทคนิค ลองเข้าใจแนวคิดนี้ผ่านชีวิตประจำวันก่อน
เวลาคุณขับรถ คุณไม่ได้แค่ “เห็นแล้วตอบสนอง” แต่คุณกำลังคาดการณ์อยู่ตลอดเวลา
คุณเห็นรถคันหน้าชะลอ สมองคุณประเมินทันทีว่าอีกไม่กี่วินาทีความเร็วจะลดลงแค่ไหน ระยะห่างจะเปลี่ยนอย่างไร และเท้าคุณเริ่มขยับไปหาเบรกก่อนที่คุณจะคิดเป็นคำพูดเสียอีก สิ่งที่เกิดขึ้นคือ สมองกำลังรัน “แบบจำลองของโลก” อยู่เบื้องหลัง นั่นคือ World Model ในหัวคุณกำลังทำงาน
World Model คือความสามารถในการสร้างโลกจำลองขึ้นมาในตัวเอง แล้วใช้โลกนั้นเพื่อคาดการณ์ว่า “ถ้าทำแบบนี้ อะไรจะเกิดขึ้นต่อไป”
แนวคิดนี้ไม่ใช่เรื่องใหม่ มันถูกพูดถึงในแวดวงวิจัยมานาน แต่เริ่มถูกนำมาใช้อย่างจริงจังใน AI ประมาณปี 2018 จากงานของ David Ha ที่เสนอให้โมเดลสามารถเรียนรู้โลกผ่านการจำลอง ไม่ใช่แค่การอ่านข้อมูล
ความแตกต่างสำคัญระหว่าง World Model กับ LLM อยู่ที่วิธีคิด LLM เริ่มจากคำถามว่า "คำถามนี้ควรตอบว่าอะไร?" แต่ World Model ถามว่า "ถ้าฉันทำแบบนี้ โลกจะเปลี่ยนไปอย่างไร?"
จากการ “ตอบ” ไปสู่การ “จำลองและคาดการณ์” นี่คือแกนของการเปลี่ยนผ่านครั้งสำคัญใน AI
ถ้า LLM เจอคำถามว่า "ถ้าผลักลูกบอลออกไป จะเกิดอะไร?" มันค้นหาคำตอบจากข้อความที่เคยอ่าน แล้วตอบว่า "ลูกบอลจะกลิ้งออกไปตามแรงที่ผลัก" ซึ่งถูกต้อง แต่มันรู้เรื่องนี้เพราะเคยอ่าน ไม่ใช่เพราะเคยผลักลูกบอลเอง
ในทางกลับกัน World Model ไม่ได้ค้นหาคำตอบ มันจำลองฉากนั้นขึ้นมาในหัว คำนวณแรง มวล แรงเสียดทาน แล้ว "เห็น" ว่าลูกบอลจะกลิ้งไปตรงไหน เหมือนมีโลกจำลองอยู่ในหัวที่รันอยู่ตลอดเวลา
วิธีที่จะนึกภาพให้ง่ายที่สุดคือ World Model คือเกมในหัวของ AI ที่มันสามารถ "ลองเล่น" สถานการณ์ต่างๆ ก่อนที่จะลงมือทำจริง
ในปี 2018 David Ha เสนอแนวคิด World Model ในเชิงโครงสร้างที่ชัดเจน โดยแยกระบบออกเป็น 3 ส่วนที่ทำงานร่วมกัน
ส่วนแรกคือ Vision Model ทำหน้าที่เป็น “ตา” ของระบบ ใช้เทคนิคอย่าง Variational Autoencoder (VAE) เพื่อรับภาพจากสภาพแวดล้อม แล้วบีบอัดให้เหลือเฉพาะ Feature ที่สำคัญจริง ๆ แทนที่จะจำทุกพิกเซล โมเดลจะเรียนรู้แก่นของสิ่งที่เห็น เช่น “มีรถอยู่ใกล้ขอบถนน” มากกว่ารายละเอียดทั้งหมดของตัวรถ
ส่วนที่สองคือ Memory Model (MDN-RNN) ซึ่งเป็นหัวใจของระบบ ทำหน้าที่เก็บลำดับเหตุการณ์ที่ผ่านมา และใช้มันในการคาดการณ์อนาคต หากเฟรมก่อนหน้าลูกบอลกำลังเคลื่อนที่ไปทางซ้าย โมเดลจะทำนายตำแหน่งในเฟรมถัดไปได้ และที่สำคัญคือมันสามารถ “จินตนาการต่อ” ได้โดยไม่ต้องพึ่งภาพจริง คล้ายกับที่มนุษย์สามารถหลับตาแล้วนึกภาพได้ว่าถ้าโยนลูกบอลขึ้นไป จะตกลงมาตรงไหน
ส่วนสุดท้ายคือ Controller หรือ “มือ” ของระบบ ที่นำข้อมูลจากทั้ง Vision และ Memory มาตัดสินใจว่าจะลงมือทำอะไร เช่น เลี้ยวซ้าย หยิบวัตถุ หรือหลบสิ่งกีดขวาง ทำให้โมเดลไม่ได้แค่รับรู้โลก แต่สามารถโต้ตอบกับโลกได้
จุดที่ทำให้แนวทางนี้โดดเด่นคือ เมื่อโมเดลเรียนรู้โครงสร้างของโลกได้ดีพอแล้ว มันสามารถตัดการเชื่อมต่อจากสภาพแวดล้อมจริง และฝึกต่อใน “โลกจำลอง” ที่มันสร้างขึ้นเองได้
ทั้งหมดนี้เกิดขึ้นด้วยโมเดลที่มีขนาดไม่ถึง 5 ล้านพารามิเตอร์ ซึ่งเล็กมากเมื่อเทียบกับ LLM ที่มีขนาดตั้งแต่หลักพันล้านไปจนถึงแสนล้านพารามิเตอร์ สะท้อนให้เห็นว่าการ “เข้าใจโลกผ่านการจำลอง” อาจไม่ได้ต้องพึ่งขนาดโมเดลเพียงอย่างเดียว แต่ขึ้นอยู่กับโครงสร้างและวิธีการเรียนรู้ด้วย
ถ้าคุณบอก LLM ว่า “หยิบแก้วน้ำให้หน่อย” มันสามารถอธิบายขั้นตอนได้ ว่าต้องเอื้อมมือ จับแก้ว แล้วยกขึ้น ซึ่งในเชิงภาษา นั่นคือคำตอบที่ถูกต้อง
แต่เมื่อย้ายจาก “คำอธิบาย” ไปสู่ “การลงมือทำ” ความซับซ้อนจะเพิ่มขึ้นทันที
หุ่นยนต์ต้องรู้ว่าแก้วอยู่ตรงไหน ระยะห่างเท่าไหร่ น้ำหนักเป็นอย่างไร ต้องใช้แรงแค่ไหน ถ้าจับแรงเกินไปจะหลุดหรือแตกไหม และถ้าวางลงบนพื้นผิวที่ไม่เรียบ แก้วจะล้มหรือไม่ คำถามเหล่านี้ไม่ได้มีคำตอบอยู่ในตำรา แต่เกิดจากการเข้าใจโลกในเชิงเหตุและผล
และนี่คือจุดที่ World Model เข้ามามีบทบาท เพราะมันเปิดให้ AI สามารถ “ลอง” สถานการณ์เหล่านี้ในโลกจำลอง เรียนรู้จากผลลัพธ์ และปรับพฤติกรรมได้ก่อนลงมือจริง
นั่นจึงเป็นเหตุผลที่ World Models กลายเป็น Backbone สำคัญของเทคโนโลยีอย่าง Robotics, Autonomous vehicles และระบบ AI ที่ต้องโต้ตอบกับโลกกายภาพ ไม่ใช่แค่ตอบคำถามบนหน้าจอ
หาก World Model ขยับจากแนวคิดเชิงทฤษฎี ไปสู่การใช้งานระดับอุตสาหกรรมจริง เราจะได้เห็นอะไรบ้าง?
7 ปีหลังจากผลงานของ David Ha แนวคิด World Model ไม่ได้หยุดอยู่แค่ในงานวิจัยอีกต่อไป แต่เริ่มพัฒนาไปสู่ระดับ Infrastructure ของอุตสาหกรรม
หนึ่งในความเคลื่อนไหวสำคัญคือการมาของ World Foundation Models ที่ถูกออกแบบให้เป็นโมเดลกลางสำหรับนำไปต่อยอดได้
Nvidia เปิดตัว Cosmos ในฐานะแพลตฟอร์มสำหรับสร้างโลกจำลอง โดยเวอร์ชัน Cosmos v2 ต้นปี 2026 เพิ่มความสามารถด้านการจำลองฟิสิกส์แบบ Dynamic ทำให้สามารถใช้ฝึกระบบในโลกจำลองได้ใกล้เคียงความจริงมากขึ้น ตัวอย่างเช่น Toyota ใช้ Cosmos จำลองการขับรถระยะทางระดับล้านไมล์ภายในเวลาเพียงไม่กี่ชั่วโมง
ฝั่ง Google เลือกใช้เส้นทางของ Environment-based learning ผ่าน SIMA ที่เปิดตัวในปี 2024 ให้ AI agent เรียนรู้จากเกมจำนวนมาก ก่อนจะพัฒนาต่อเป็น Genie 3 และ Genie 4 ที่สามารถสร้างโลก 3D แบบ Interactive จากข้อความหรือภาพได้แบบ Real-time พร้อมฟิสิกส์ที่สมจริง
ในขณะเดียวกัน Fei-Fei Li ซึ่งเป็นหนึ่งในนักวิจัยสำคัญของวงการ ได้ก่อตั้ง World Labs และพัฒนา Marble โมเดลที่สร้างโลกจำลองจาก Gaussian Splats ที่มีองค์ประกอบระดับอนุภาคจำนวนมหาศาลให้โต้ตอบได้ ก่อนจะต่อยอดเป็น Marble 2 ที่เพิ่มความสามารถด้านการควบคุมและขยายไปสู่ Use case อย่าง AR
อีกด้านหนึ่ง Yann LeCun ยังคงผลักดันแนวคิด World Model อย่างต่อเนื่องผ่านบริษัทใหม่ AMI โดย JEPA 2.0 ในปี 2026 แสดงให้เห็นศักยภาพในการทำนายโลกจากวิดีโอในลักษณะ Hierarchical จากภาพรวมไปสู่รายละเอียด และสามารถทำคะแนนด้าน Physical reasoning ได้ดีกว่า LLM อย่างมีนัยสำคัญ
ภาพรวมที่เกิดขึ้นคือ World Model กำลังเปลี่ยนจากแนวคิดทางวิจัยไปสู่เทคโนโลยีพื้นฐาน ที่ถูกนำไปใช้จริงในหลากหลายอุตสาหกรรม และกำลังกลายเป็นอีกหนึ่งเสาหลักของระบบ AI ยุคถัดไป
ขณะที่ World Models พัฒนาไปอย่างรวดเร็ว ฝั่ง LLM ก็ไม่ได้หยุดนิ่ง
จุดเปลี่ยนเริ่มตั้งแต่ GPT-4 ในปี 2023 ที่เปิดประตูสู่ Multimodality ทำให้โมเดลสามารถเข้าใจทั้งภาพและภาษา และต่อยอดมาถึง GPT-5 ในปลายปี 2025 ที่เริ่ม Reasoning จากวิดีโอและเสียงได้ ขณะที่ Gemini 2.0 ถูกออกแบบให้ทำงานร่วมกับอุปกรณ์อย่าง Project Astra ซึ่งมี Spatial awareness แบบ Real-time ทำให้ AI เริ่ม “รับรู้โลก” ได้ใกล้เคียงความจริงมากขึ้น
ในอีกด้านหนึ่ง World Models เองก็ไม่ได้แยกตัวออกจาก LLM แต่เริ่มดึงความสามารถด้านภาษาเข้ามาเป็นส่วนหนึ่งของระบบ เกิดเป็นแนวทางที่เรียกว่า Vision-Language-Action (VLA) ซึ่งผสาน Vision Transformer เข้ากับ LLM เพื่อให้ AI สามารถเข้าใจคำสั่งภาษาธรรมชาติ และแปลงเป็นการกระทำได้โดยตรง
ตัวอย่างที่เห็นชัดคือ Neo หุ่นยนต์ที่กลายเป็นกระแสในช่วงปลายปี 2025 ซึ่งใช้สถาปัตยกรรมลักษณะนี้ในการเชื่อม การมองเห็น + การเข้าใจภาษา + การลงมือทำ เข้าด้วยกัน
ภาพของอุตสาหกรรมในปี 2026 จึงไม่ใช่การแข่งขันระหว่าง LLM กับ World Model อีกต่อไป แต่เป็นการผสานกันเป็น Stack เดียว เช่น การใช้ Cosmos ร่วมกับโมเดลภาษาอย่าง Llama โดยให้ LLM รับผิดชอบการคิดเชิงนามธรรมและการวางแผนระดับสูง ขณะที่ World Model ดูแลความเข้าใจฟิสิกส์และการโต้ตอบกับโลกจริงในระดับล่าง
LLM อาจอธิบายได้อย่างครบถ้วนว่า “การว่ายน้ำต้องทำอย่างไร” ตั้งแต่ท่าทาง การหายใจ ไปจนถึงหลักฟิสิกส์ของการลอยตัว เพราะมันเรียนรู้จากตำราและคำอธิบายจำนวนมหาศาล แต่มันไม่เคย “ลงสระ” จริง ๆ
ในขณะที่ World Model เรียนรู้เรื่องเดียวกันผ่านอีกวิธีหนึ่ง ผ่านการทดลองในโลกจำลอง ลองขยับแขน ขยับขา ปรับจังหวะการหายใจ ซ้ำแล้วซ้ำเล่า จนเข้าใจว่าอะไรทำให้ลอย อะไรทำให้จม
ทั้งสองรู้ปลายทาง แต่มาถึงมันด้วยวิธีที่ต่างกันโดยสิ้นเชิง และคำถามที่แวดวง AI กำลังตอบอยู่ตอนนี้ไม่ใช่ว่าอันไหนดีกว่า แต่คือทำอย่างไรให้ทั้งคู่ทำงานร่วมกันได้ดีที่สุด
อ้างอิง: Business Insider, Scientific American
ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด