นี่คือคำกล่าวจาก Fei-Fei Li (เฟย์-เฟย์ หลี่) ผู้บุกเบิกด้าน AI ที่กำลังอธิบายถึง ‘ยุคใหม่’ ของ AI ยุคที่ปัญญาประดิษฐ์จะไม่เพียงแค่ประมวลผลข้อมูล แต่จะเข้าใจ ‘โลกแห่งความเป็นจริง’ ผ่านสิ่งที่เรียกว่า Spatial Intelligence
Photo: TED
เมื่อปี 2015 แม้ตอนนั้นโลกจะมีเทคโนโลยีกล้องหลักล้านพิกเซล มองเห็นทุกอย่างได้ชัดเจน แต่ Fei-Fei Li กลับบอกว่าเป็นเรื่อง ‘ยากมาก’ ที่จะทำให้คอมพิวเตอร์เข้าใจสิ่งที่มันมองเห็น
พิกเซลในรูปไม่ได้มีความหมายในตัวเอง คอมพิวเตอร์มองเห็นเป็นแค่ตัวเลข ดังนั้น มนุษย์ต้องเป็นฝ่าย ‘สอน’ ให้คอมพิวเตอร์เข้าใจโลกเหมือนสอนเด็ก ลองจินตนาการว่าเราสอนคอมพิวเตอร์ให้รู้จักแมว เราก็ต้องแสดงภาพแมวหลากหลายท่าทาง และรูปร่าง เพื่อให้คอมพิวเตอร์เรียนรู้ว่าแมวมีหน้าตาอย่างไร
Photo: TED
ดูเหมือนง่าย แต่ความจริงแล้วซับซ้อน แมวแต่ละตัวมีเอกลักษณ์เฉพาะตัว รูปร่าง ท่าทาง สีสัน ลวดลาย ต่างๆ กันไป คอมพิวเตอร์ต้องเรียนรู้ที่จะแยกแยะความแตกต่างเหล่านี้ และเข้าใจว่าแมวตัวไหนเป็นตัวไหน ยิ่งไปกว่านั้น แมวไม่ได้อยู่นิ่ง พวกมันเคลื่อนไหว เปลี่ยนท่าทาง ซ่อนตัว คอมพิวเตอร์ต้องเรียนรู้ที่จะมองเห็นแมวในทุกสถานการณ์ นั่นหมายความว่าข้อมูลมหาศาลต้องถูกนำมาใช้ เพื่อให้คอมพิวเตอร์รู้รู้จัก และแยกแยะสิ่งมีชีวิตที่เรียกว่าแมวได้ด้วยตัวเอง
เด็ก ๆ ต่างจากคอมพิวเตอร์ พวกเขาเห็นวัตถุต่างๆ มากมายในชีวิตประจำวัน เรียนรู้ที่จะแยกแยะความแตกต่างระหว่างวัตถุ รูปร่าง สีสัน เธอจึงพัฒนาโครงการ ImageNet ที่จะรวบรวมชุดข้อมูลขนาดใหญ่ เพื่อนำมาเทรนคอมพิวเตอร์ให้รู้จักสิ่งของบนโลก และสามารถวิเคราะห์ข้อมูลได้ด้วยตนเอง แต่ในตอนนั้นการแยกวัตถุยังคงเป็นเรื่องที่ยากสำหรับคอมพิวเตอร์ แม้แต่แมว กับม้าลาย ก็ถูกมองรวมเป็นสัตว์ชนิดเดียวกัน
เวลาผ่านพ้นไป 9 ปี Fei-Fei Li กลับมาอัปเดตความคืบหน้าของ AI ที่ในตอนนี้ ‘มองเห็น’ และ ‘เข้าใจโลก’ ได้อย่างชาญฉลาดเทียบเท่า หรือ ‘ดีกว่า มนุษย์เป็นที่เรียบร้อยแล้ว สิ่งที่ทำให้ AI เก่งไวขนาดนี้ นอกจากการที่มนุษย์ต้องการให้ AI มองเห็นได้ดีกว่าเราแล้ว ยังเกิดมาจากพลังสำคัญ 3 อย่างที่พัฒนาไปไกลไม่แพ้กัน คือ Neural Network, GPU และ Big Data
แต่ก่อนการที่ AI มองเห็นภาพ และแยกแยะประเภทของวัตถุได้ ก็ถือเป็นเรื่องที่ดูล้ำแล้ว ในตอนนี้เราสามารถสั่ง AI ให้สามารถสร้างรูปที่เราต้องการได้เพียงแค่พิมพ์คำสั่ง (Prompts) ลงไป แถมยังสามารถสร้างวิดีโอเคลื่อนไหวจาก Prompts ไม่กี่คำ ซึ่งเป็นสิ่งที่แสดงให้ถึงความก้าวหน้าของ AI ที่ไม่ได้แค่แยกแยะวัตถุเป็น แต่ยังเข้าใจคำสั่งของมนุษย์ได้อย่างถ่องแท้ รู้ว่าเราต้องการสร้างรูปอะไร เข้าใจว่าองค์ประกอบแต่ละอย่างควรอยู่ตรงจุดไหน เพื่อให้ได้ภาพที่มนุษย์ต้องการ
Photo: TED
นอกจากการสร้างรูป และวิดีโอ ตอนนี้ AI ไปไกลจนสามารถมองโลกได้แบบ 3 มิติเหมือนกับมนุษย์ เมื่อเร็วๆ นี้ กลุ่มนักวิจัยจาก Google สามารถพัฒนาอัลกอริทึม ที่แปลงภาพถ่ายจำนวนมากให้กลายเป็นภาพ 3 มิติ แต่ทีมวิจัยของ Fei-Fei Li ใช้รูป 2 มิติเพียงรูปเดียว AI ก็สามารถแปลงเป็นภาพ 3 มิติได้ทันที
AI กำลังพัฒนาความสามารถที่เรียกว่า Spatial Intelligence ซึ่งประกอบไปด้วย การรับรู้ เข้าใจ และ ตีความ ข้อมูลเกี่ยวกับสภาพแวดล้อม 3 มิติ พร้อมวางแผน และควบคุมการเคลื่อนที่ในสภาพแวดล้อมนั้น เพื่อโต้ตอบ กับวัตถุและสิ่งต่างๆ
ตอนนี้ทีมวิจัยของ Fei-Fei Li กำลังฝึกให้ AI เข้าใจถึงพฤติกรรม และการกระทำที่เหมาะสมในโลกจริง ในโครงการที่ชื่อ Behavior มีหุ่นยนต์ที่เข้าใจภาษา เข้าใจโลก สามารถปฏิบัติงานตามคำสั่งเสียง เช่น การเปิดลิ้นชัก การถอดปลั๊กโทรศัพท์ที่ชาร์จเต็มแล้ว ไปจนถึงการทำแซนวิซโดยใช้ขนมปัง ผักกาดหอม มะเขือเทศ แถมจัดเสิร์ฟพร้อมทิชชู่ให้แบบเสร็จสรรพ
พลังของ Spatial Intelligence จะช่วยแบ่งเบาภาระมนุษย์ และส่งผลกระทบเชิงบวกต่อชีวิตมากมาย ยกตัวอย่างในวงการแพทย์ เราสามารถตรวจจับแพทย์ที่ล้างมือไม่สะอาด ติดตามเครื่องมือผ่าตัด รวมถึงการแจ้งเตือนกรณีผู้ป่วยเสี่ยงล้ม
หรือจะเป็นการสร้างหุ่นยนต์อัตโนมัติเพื่อขนส่งอุปกรณ์ทางแพทย์ และเทคโนโลยี Augmented Reality ที่จะช่วยนำทางให้ศัลยแพทย์ผ่าตัดได้อย่างรวดเร็ว และปลอดภัย ไปจนถึงการช่วยผู้ป่วยอัมพฤกษ์ ที่สามารถควบคุมหุ่นยนต์ด้วยความคิด เพื่อทำกิจวัตรประจำวันได้ด้วยตนเอง
ทั้งหมดนี้เป็นเพียงตัวอย่างความก้าวหน้าของ Spatial Intelligence อนาคตที่ปัญญาประดิษฐ์สามารถรับรู้ เข้าใจมนุษย์ได้อย่างลึกซึ้ง และทำงานร่วมกับมนุษย์ได้อย่างราบรื่น อนาคตนี้ไม่ใช่แค่ฝัน แต่เป็นสิ่งที่ ‘ใกล้เป็นจริง’ มากขึ้นทุกวัน
ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด