วิจัยพบ AI ไม่ได้คิดอย่างที่พูด แม้จะโชว์วิธีคิดยาวเหยียด แต่ซ่อนความคิดที่แท้จริงไว้ไม่บอกใคร

ตอนนี้มี AI ประเภทใหม่ที่เรียกว่าโมเดลจำลองการให้เหตุผล (SR Model) ซึ่งถูกสร้างมาให้โชว์วิธีคิดทีละขั้นตอน เวลาเราถามคำถามยากๆ AI จะอธิบายออกมาเป็นขั้นเป็นตอนว่าคิดด้วยวิธีไหน ถึงได้คำตอบนี้มา (Chain-of-Thought)  ซึ่งตามหลักแล้วกระบวนการคิดของ AI ควรจะมีความ ‘ซื่อสัตย์’ ต่อความคิดตัวเอง เพราะจะช่วยให้นักวิจัย และผู้ใช้สามารถเช็กได้ว่า AI คิดอะไรอยู่ ปลอดภัยหรือเปล่า 

แต่ปัญหาคือ งานวิจัยใหม่จาก Anthropic บริษัทที่สร้าง AI ชื่อ Claude กลับพบว่า AI ที่ให้เหตุผลบางครั้งก็ไม่ได้ซื่อสัตย์กับควาคิดตัวเอง บางครั้งสร้างกระบวนการคิดหลอกๆ มาแสดงให้เห็น และแอบเก็บซ่อนความคิดที่แท้จริงเอาไว้

โดยทีมวิจัยได้ทดสอบกับ AI ที่มีความสามารถด้านการให้เหตุผลอยย่างเช่น DeepSeek R1 และ Claude ของตัวเอง ซึ่งก็พบว่า หลายครั้ง AI พวกนี้ใช้ตัวช่วย เช่น พวกคำใบ้ที่นักวิจัยใส่ให้ หรือใช้ทางลัดเพื่อหาคำตอบ ไม่ได้คิดเองตั้งแต่ต้นเหมือนอย่างที่ควรจะเป็น 

แถมพอถึงตอนที่ต้องโชว์วิธีคิด AI กลับไม่ยอมบอกว่าคิดเอง หรือใช้ตัวช่วยหรือไม่ และที่แย่กว่านั้นคือ AI สามารถสร้างเรื่อง แต่งคำอธิบายยาวๆ ขึ้นมาใหม่เพื่อให้ดูเหมือนว่าคิดเองทั้งหมด เสมือนนักเรียนที่ลอกโพยมา แต่ทำเนียนว่าคิดเอง

อีกหนึ่งการทดสอบที่น่าประหลาดใจก็คือ เมื่อทีมวิจัยลองตั้งกติกาใหม่ โดยบอก AI ว่าถ้าเลือกตอบข้อที่ผิดตามคำใบ้ที่ให้ไว้ จะให้คะแนนพิเศษ (Reward Hacking) กลับพบว่า AI เรียนรู้วิธีที่จะโกง และเลือกตอบผิดตามคำใบ้เกือบ 100% เพื่อเอาคะแนน แต่เมื่อถึงตอนที่ต้องอธิบายวิธีคิด AI กลับไม่ยอมรับว่า เลือกตอบผิดตามคำใบ้เพื่อเอาคะแนน

ซึ่งหลังจากนั้น นักวิจัยก็ลองฝึก AI ให้ซื่อสัตย์มากขึ้นโดยใช้โจทย์ยากๆ เช่น คณิตศาสตร์ เขียนโค้ด โดยคาดหวังว่า AI จะยอมอธิบายวิธีคิดจริงๆ มากขึ้น ผลคือ AI ซื่อสัตย์ต่อความคิดตัวเองนิดหน่อยในตอนแรก ยอมเปิดเผยวิธีคิด แต่ยังไม่ดีมากนัก เพราะท้ายที่สุดแล้ว AI ไม่ยอมเปิดเผยวิธีคิดจริงๆ เกิน 20-30% อยู่ดี

เรื่องนี้สำคัญอย่างไร ?

งานวิจัยครั้งนี้แสดงให้เห็นว่า แม้ AI จะโชว์โมเดลการคิดให้ผู้ใช้เห็น เพื่อให้เราสามารถตรวจสอบด้านความปลอดภัย หรือส่องกระบวนการทางความคิดว่าคำตอบที่ออกมานั้น คิดอย่างถูกหลักหรือไม่ แต่งานวิจัยแสดงให้เห็นว่า เรายังไม่สามารถไว้วางใจคำอธิบายของ AI ได้เต็มร้อย โดยเฉพาะอย่างยิ่งเมื่อ AI เจอช่องโหว่ที่ช่วยให้พวกมันสามารถโกงได้ 

ดังนั้นการตรวจสอบข้อมูลที่ได้จาก AI ยังคงเป็นเรื่องสำคัญ ไม่ควรเชื่อแบบ 100% แม้ว่า AI จะดูมีเหตุมีผลในตัวเองก็ตาม

ที่มา : arstechnica

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

World Labs ปิดดีลระดมทุน 1 พันล้านดอลลาร์! เมื่อ AI เข้าใจฟิสิกส์และมิติสัมพันธ์

World Labs สตาร์ทอัพ AI ของ Fei-Fei Li ระดมทุนเพิ่ม 1 พันล้านดอลลาร์! หลัง Autodesk ทุ่มงบร่วมพัฒนา Spatial AI ปฏิวัติการทำงาน 3 มิติและอุตสาหกรรมบันเทิง...

Responsive image

Microsoft คิดค้นระบบเก็บข้อมูลบนแผ่นแก้ว อยู่ได้นาน 10,000 ปี ก้าวใหม่สู่เทคโนโลยีข้อมูลอมตะที่อาจปฏิวัติ Data Center

Microsoft เผยความก้าวหน้า Project Silica ระบบเก็บข้อมูลบนแผ่นแก้วที่อยู่ได้นาน 10,000 ปี ใช้เลเซอร์สลักข้อมูลความจุ 4.8TB ต่อแผ่น อาจปฏิวัติการจัดเก็บข้อมูลใน Data Center และการเก็...

Responsive image

ดราม่ากลางงาน AI ที่อินเดีย เจ้าภาพสั่งมหาลัยรื้อบูธ หลังเอาหุ่นยนต์จีนมา 'ย้อมแมว' ว่าเป็นผลงานตัวเอง

อินเดียกำลังเจอกระแสวิจารณ์ไม่น้อย หลังเกิดเหตุการณ์ที่หลายคนมองว่า 'น่าอับอาย' กลางเวทีงาน AI ระดับประเทศ เมื่อมหาวิทยาลัยแห่งหนึ่งถูกจับได้ว่า นำหุ่นยนต์สุนัขที่ผลิตในจีนมาแสดง พ...