"ทำไม LLM ไม่ใช่คำตอบสุดท้าย และ World Model คืออนาคตของ AI" สรุปสาระสำคัญจาก Yann LeCun บนเวที AI Impact Summit India 2026

Yann LeCun นักวิทยาศาสตร์ด้าน AI ระดับตำนานและผู้ได้รับรางวัล Turing Award ขึ้นเวที AI Impact Summit India 2026 พร้อมมุมมองที่ท้าทายกระแสหลักของวงการ ตั้งแต่การโจมตี LLMs ไปจนถึงการประกาศว่า AGI ไม่ใช่เป้าหมายที่ถูกต้อง และการเสนอแนวทางใหม่ที่เขาเชื่อว่าจะพาเราไปสู่ AI ที่เข้าใจโลกได้จริง

AGI ไม่ใช่เป้าหมาย เพราะมนุษย์เองก็ไม่ได้ "ฉลาดรอบด้าน"

เปิดงานด้วยการท้าทายความเชื่อที่ว่าเป้าหมายของ AI คือการสร้าง AGI (Artificial General Intelligence) อย่างตรงไปตรงมา โดยให้เหตุผลว่า มนุษย์เองก็ไม่ได้มีความฉลาดแบบทั่วไป แต่เชี่ยวชาญเฉพาะทางสูงมากในแบบที่เราไม่ทันสังเกต

คอมพิวเตอร์เอาชนะมนุษย์ในการค้นหาเส้นทาง การคำนวณซับซ้อน หรือการเล่นหมากรุกและโกะมานานแล้ว สิ่งที่เราคิดว่าคือ 'ความฉลาดทั่วไป' อาจเป็นแค่ขอบเขตจินตนาการที่จำกัดของมนุษย์เอง เป้าหมายที่ถูกต้องกว่าในมุมมองของ Yann LeCun จึงไม่ใช่ AGI แต่คือ Human-level AI หรือ AI ที่ฉลาดเท่ามนุษย์ในด้านที่มนุษย์ฉลาด และนำมันมาใช้เพื่อขยายขีดความสามารถของมนุษย์ ไม่ใช่แทนที่มนุษย์

AI สอบผ่านเนติบัณฑิตได้ แต่ยังสู้แมวไม่ได้

Yann LeCun ยกตัวอย่างที่คมที่สุดในงาน นั่นคือ AI ปัจจุบันสามารถสอบผ่านเนติบัณฑิต ชนะโอลิมปิกคณิตศาสตร์ และทำสิ่งที่น่าทึ่งได้มากมาย แต่เรายังไม่มีหุ่นยนต์ตัวไหนที่ทำสิ่งที่ 'แมว' ทำได้ ไม่ว่าจะเป็นการเข้าใจโลกทางกายภาพหรือการควบคุมร่างกายอย่างคล่องแคล่วในสภาพแวดล้อมที่ไม่คุ้นเคย

LLMs มีข้อจำกัดขั้นพื้นฐานที่ยังแก้ไม่ได้ ทั้งการขาดความจำระยะยาว ความสามารถในการวางแผน การใช้เหตุผลในโลกจริง และความปลอดภัยที่ควบคุมได้

Yann LeCun ยกตัวอย่างที่เห็นภาพชัดมาก โดย เด็กอายุ 17 ปีเรียนขับรถได้ใน 20 ชั่วโมง แต่ระบบ AI ที่ฝึกด้วยข้อมูลการขับรถนับล้านชั่วโมงยังทำได้ไม่เทียบเท่า และงานง่ายๆ ที่เด็กอายุ 10 ขวบทำได้ตั้งแต่ครั้งแรกที่ถูกขอ หุ่นยนต์ยังทำไม่ได้ นั่นคือช่องว่างขนาดใหญ่ที่บ่งบอกว่าเรากำลังมองปัญหาผิดจุด

LLM คิดเท่ากันทุกคำถาม ไม่ว่าจะง่ายหรือยาก

หนึ่งในข้อวิจารณ์ที่คมที่สุดของ LeCun คือเรื่องวิธีที่ LLM คิด ง่ายๆ คือมันใช้พลังงานในการคิดเท่ากันทุกคำถาม ไม่ว่าจะถามว่า "2+2 เท่ากับ 4 ใช่ไหม" หรือ "P เท่ากับ NP ใช่ไหม" ซึ่งเป็นหนึ่งในปัญหาที่ยังไม่มีคำตอบในวิทยาการคอมพิวเตอร์ ระบบประมวลผลทั้งสองคำถามด้วยทรัพยากรเท่ากัน ทั้งที่ความยากต่างกันคนละโลก ซึ่ง Yann LeCun มองว่าไม่สมเหตุสมผล เพราะคำถามที่ยากกว่าควรต้องใช้ความพยายามในการคิดมากกว่า

วิธีแก้ชั่วคราวที่วงการใช้กันอยู่คือ Chain of Thought ให้ AI สร้าง Token มากขึ้นเพื่อจำลองการ 'คิดทีละขั้น' แต่ LeCun มองว่านี่ไม่ใช่คำตอบที่แท้จริง เพราะข้อมูลที่ส่งต่อระหว่างขั้นตอนการคิดแต่ละขั้นมีขนาดเพียง 3 bytes ต่อ Token ซึ่งน้อยมากเมื่อเทียบกับความซับซ้อนของการคิดจริงๆ

มนุษย์ไม่ได้คิดด้วยภาษา แต่คิดด้วย Mental Model และภาพในหัว ลองนึกภาพลูกบาศก์ลอยอยู่ในอากาศแล้วหมุน 90 องศา คุณทำได้ทันทีโดยไม่ต้องแปลงเป็นคำพูดในหัวแม้แต่คำเดียว นั่นคือสิ่งที่ LLM ทำไม่ได้ และนั่นคือสิ่งที่ World Model ถูกออกแบบมาเพื่อแก้

World Model คืออะไร และทำไมถึงสำคัญกว่า LLM

Yan LeCun เสนอแนวคิด World Model ซึ่งเขาพัฒนามากว่า 10 ปี เพื่อเป็นทางออกที่แท้จริง World Model คือระบบที่สามารถตอบคำถามว่า "ถ้าฉันทำสิ่งนี้ในสถานการณ์นี้ ผลที่จะเกิดขึ้นคืออะไร" และใช้การทำนายนั้นเพื่อวางแผนลำดับการกระทำที่ดีที่สุดเพื่อบรรลุเป้าหมาย

มนุษย์และสัตว์ส่วนใหญ่มี World Model ในหัวอยู่แล้วโดยไม่รู้ตัว เราเรียนรู้ว่าแรงโน้มถ่วงทำงานอย่างไรตั้งแต่อายุ 9 เดือน และใช้โมเดลนั้นปรับตัวกับสถานการณ์ใหม่ได้เกือบทันที โดยไม่ต้องเห็นตัวอย่างซ้ำนับล้านครั้ง

LLM ทำแบบนี้ไม่ได้ เพราะในหัวของมันไม่มีโมเดลของโลก มีแค่รูปแบบทางสถิติของภาษาที่เคยเห็น มันรู้ว่าคำไหนมักตามหลังคำไหน แต่ไม่รู้ว่าโลกทำงานอย่างไร และนั่นคือความแตกต่างที่สำคัญที่สุด

ความปลอดภัยของ AI ต้องมาจากเป้าหมายที่ชัดเจน

Yann LeCun ยังโต้แย้งมุมมองเรื่องความปลอดภัยของ AI อย่างตรงไปตรงมา โดยไม่เห็นด้วยกับแนวคิดที่ว่า AI ที่ปลอดภัยคือ AI ที่ไม่มีเป้าหมาย เขามองว่านั่นคือความเข้าใจที่ผิด เขามองตรงกันข้ามว่า ระบบที่ปลอดภัยและควบคุมได้ต้องมี Objective Function ที่ชัดเจนที่มนุษย์ออกแบบให้ บวกกับ Guardrail ที่การันตีว่า AI จะไม่ทำสิ่งที่สร้างผลเสียต่อมนุษย์ระหว่างทาง แล้วปล่อยให้ระบบค้นหาเส้นทางที่ดีที่สุดภายใต้ข้อจำกัดเหล่านั้น นี่ต่างหากคือวิธีสร้าง AI ที่ควบคุมได้จริง ไม่ใช่การปล่อยให้ระบบทำงานโดยไม่มีทิศทาง

และนั่นยิ่งสำคัญขึ้นไปอีกในยุค Agentic AI เพราะ Yann LeCun เชื่อว่าเราไม่มีทางสร้าง Agentic System ที่มีประสิทธิภาพได้เลย ถ้าระบบนั้นไม่สามารถทำนายผลของการกระทำตัวเองได้ก่อน และนั่นก็คือเหตุผลที่เขาย้อนกลับมาที่ World Model 

ทำไมต้องเลิกใช้ Generative Models และหันมาใช้ JEPA?

Yann LeCun ประกาศชัดว่าถึงเวลาเลิกใช้โมเดลแบบ Generative ที่พยายามทำนายทุกพิกเซลในภาพหรือทุกเฟรมในวิดีโอแล้ว เพราะโลกส่วนใหญ่ไม่สามารถทำนายได้ในระดับรายละเอียด หากแพนกล้องในห้องประชุม ไม่มี AI ไหนบนโลกที่จะทำนายหน้าตาของผู้ฟังทุกคนได้ การบังคับให้ AI ทำสิ่งที่เป็นไปไม่ได้ตั้งแต่ต้น ก็ไม่แปลกที่โมเดลจะทำงานได้ไม่ดี

Generative Model ใช้ได้กับภาษาเพราะภาษาเป็น Discrete มีคำจำกัด เลือกทำนายได้ แต่ไม่ได้ผลกับวิดีโอหรือสัญญาณเซนเซอร์ที่เป็นข้อมูลต่อเนื่องและซับซ้อนกว่ามาก

ทางออกที่เขาเสนอคือ JEPA (Joint Embedding Predictive Architecture) แทนที่จะพยายามทำนายทุกรายละเอียด ให้ทำนายเฉพาะ "แก่นของเหตุการณ์" ในระดับ Abstract และตัดทิ้งสิ่งที่ไม่สามารถทำนายได้ออกไปตั้งแต่ต้น เหมือนกับที่มนุษย์ไม่ได้จำทุกพิกเซลที่เห็น แต่จำความหมายและโครงสร้างของสิ่งที่เห็นแทน

แนวทางนี้ Yann LeCun ทดลองมากว่า 15 ปี ล้มเหลวใน 10 ปีแรก และเริ่มได้ผลในช่วง 5 ปีหลัง ผลงานล่าสุดอย่าง V-JEPA สามารถบอกได้ว่าเหตุการณ์ในวิดีโอนั้น 'เป็นไปไม่ได้; หรือไม่ เช่น ถ้าลูกบอลหายไปกลางอากาศกะทันหัน ค่า Prediction Error ในโมเดลจะพุ่งขึ้นทันที เพราะระบบรู้ว่านั่นไม่ใช่สิ่งที่ควรเกิดขึ้นในโลกจริง

ข้อความบนอินเทอร์เน็ตทั้งหมดสู้ภาพที่เด็ก 4 ขวบเห็นไม่ได้

Yan LeCun ยกตัวเลขที่น่าตกใจมากเพื่อพิสูจน์ประเด็นนี้ ข้อความทั้งหมดที่มีอยู่บนอินเทอร์เน็ตมีปริมาณประมาณ 10¹⁴ bytes ฟังดูมากมาย แต่นั่นเท่ากับข้อมูลภาพที่เด็กอายุ 4 ขวบได้รับในช่วง 4 ปีแรกของชีวิตเท่านั้น และยังเท่ากับวิดีโอที่ถูกอัปโหลดขึ้น YouTube ในเวลาเพียง 30 นาที

มนุษย์เรียนรู้โลกผ่านการมองเห็นและการสัมผัสเป็นหลัก ไม่ใช่ผ่านภาษา และข้อมูลวิดีโอที่ดูเหมือนซ้ำซาก อย่างคลื่นทะเลที่ซัดซ้ำๆ หรือคนเดินไปมา กลับเป็นสิ่งที่ระบบต้องการ เพราะความซ้ำซากนั้นเองที่ช่วยให้ระบบค้นพบกฎและโครงสร้างที่ซ่อนอยู่ในโลก ถ้าข้อมูลสุ่มทั้งหมด ระบบก็ไม่มีอะไรให้เรียนรู้ 

ดังนั้น AI ที่ฝึกแค่กับข้อความจึงไม่มีวันเข้าใจโลกได้ในระดับเดียวกับมนุษย์ ไม่ใช่เพราะขาดข้อมูล แต่เพราะขาดข้อมูลที่ถูกประเภท

Hardware ไม่ใช่ปัญหา แต่การสัมผัสคือช่องโหว่ใหญ่

เมื่อถูกถามเรื่อง Robotics Yann LeCun บอกตรงๆ ว่าปัญหาหลักตอนนี้ไม่ใช่ Hardware อีกต่อไปแล้ว หุ่นยนต์ปัจจุบันทำตีลังกาและท่ากังฟูได้แล้ว แต่สิ่งที่หลายคนอาจไม่รู้คือทั้งหมดนั้นเป็นการ 'วางแผนไว้ล่วงหน้า' ด้วยสมการที่มนุษย์เขียนขึ้นทุกท่าทาง ไม่ใช่หุ่นยนต์ที่เข้าใจโลกและปรับตัวได้เอง

สิ่งที่ยังขาดและยังแก้ไม่ได้คือ การสัมผัส Yann LeCun ชี้ให้เห็นว่ามนุษย์อยู่รอดได้โดยไม่มีการมองเห็นหรือการได้ยิน แต่อยู่ไม่ได้โดยไม่มีการสัมผัส ลองทำให้มือชาแล้วหยิบแก้วน้ำ คุณจะทำได้ยากมากทันที เซนเซอร์การสัมผัสในหุ่นยนต์ยังล้าหลังมาก และนั่นคืออุปสรรคใหญ่ที่ยังไม่มีทางออกที่ดี

Yann LeCun ยังพูดถึงบริษัทยักษ์ใหญ่ที่กำลังแข่งกันสร้างหุ่นยนต์เลียนแบบมนุษย์อยู่ตอนนี้ว่า ยังไม่มีใครรู้วิธีทำให้หุ่นยนต์ฉลาดพอจะใช้งานได้จริง" นอกเหนือจากงานที่แคบมากๆ ที่เก็บข้อมูลมาสอนแบบซ้ำๆ

การปฏิวัติ AI ครั้งที่ 3 กำลังจะมา

LeCun ปิดท้ายด้วยการประกาศว่าเขากำลังสร้างบริษัทใหม่ชื่อ AMI (Advanced Machine Intelligence) ซึ่งแปลว่า 'เพื่อน' ในภาษาฝรั่งเศส เพื่อพัฒนา AI สำหรับโลกจริงโดยใช้ Hierarchical JEPA เป็นแกนหลัก 

เขามองว่าวงการ AI ผ่านการปฏิวัติใหญ่มาแล้ว 2 ครั้ง ครั้งแรกคือ Deep Learning ที่เปลี่ยนวิธีที่เครื่องจักรเรียนรู้ และครั้งที่สองคือ LLM ที่เปลี่ยนวิธีที่เครื่องจักรใช้ภาษา แต่ทั้งสองครั้งยังไม่ได้แก้ปัญหาที่แท้จริง

การปฏิวัติครั้งที่ 3 ที่กำลังจะมาคือ AI ที่เข้าใจโลกทางกายภาพจริงๆ ผ่านข้อมูลเซนเซอร์และวิดีโอ สามารถใช้เหตุผลและวางแผนได้ ไม่ใช่แค่ทำนายคำถัดไป แล

สิ่งที่ Yann LeCun กำลังสร้าง ไม่ใช่ AI ที่รู้ทุกอย่างจากข้อความ แต่คือ AI ที่เข้าใจโลกในแบบที่มนุษย์เข้าใจมาตั้งแต่เกิด


ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

รู้จัก Indus AI แชตบอตสายเลือดอินเดียแท้ ๆ จุดเด่นคือเข้าใจ ‘อังกฤษแบบอินเดีย’ ประกาศเอกราชเทคฯ ด้วยข้อมูลในประเทศ

ทำความรู้จัก Indus แชตบอตใหม่จาก Sarvam AI ที่สร้างเพื่อคนอินเดียโดยเฉพาะ ชูจุดเด่นเข้าใจ ‘อังกฤษสำเนียงอินเดีย’ และภาษาท้องถิ่น พร้อมก้าวสำคัญสู่การเป็น AI อธิปไตยที่เทรนด้วยข้อมู...

Responsive image

World Labs ปิดดีลระดมทุน 1 พันล้านดอลลาร์! เมื่อ AI เข้าใจฟิสิกส์และมิติสัมพันธ์

World Labs สตาร์ทอัพ AI ของ Fei-Fei Li ระดมทุนเพิ่ม 1 พันล้านดอลลาร์! หลัง Autodesk ทุ่มงบร่วมพัฒนา Spatial AI ปฏิวัติการทำงาน 3 มิติและอุตสาหกรรมบันเทิง...

Responsive image

Microsoft คิดค้นระบบเก็บข้อมูลบนแผ่นแก้ว อยู่ได้นาน 10,000 ปี ก้าวใหม่สู่เทคโนโลยีข้อมูลอมตะที่อาจปฏิวัติ Data Center

Microsoft เผยความก้าวหน้า Project Silica ระบบเก็บข้อมูลบนแผ่นแก้วที่อยู่ได้นาน 10,000 ปี ใช้เลเซอร์สลักข้อมูลความจุ 4.8TB ต่อแผ่น อาจปฏิวัติการจัดเก็บข้อมูลใน Data Center และการเก็...