Gemini 3 Flash ฉลาดแต่ไม่ซื่อสัตย์ ปัญหาใหญ่คือเน้นตอบให้ได้ มากกว่าตอบให้ถูก

แม้จะเพิ่งเปิดให้ใช้งานสาธารณะได้ไม่ถึงสัปดาห์ แต่ Gemini 3 Flash โมเดล Generative AI รุ่นล่าสุดจาก Google ก็กลายเป็นประเด็นร้อนในวงการเทคโนโลยีทันที เนื่องจากพฤติกรรมที่ถูกตรวจพบว่า แม้จะฉลาดและให้คำตอบได้รวดเร็ว แต่โมเดลหลีกเลี่ยงที่จะ ‘ยอมรับว่าไม่รู้’ และเลือกสร้างคำตอบขึ้นมาเองแทน

ต้นตอของกระแสวิจารณ์มาจากผลประเมินของ Artificial Analysis ซึ่งทดสอบโมเดล AI หลายค่าย ทั้ง Gemini รุ่นก่อนหน้า, ChatGPT, Claude และโมเดลอื่น ๆ ผ่านเกณฑ์วัดที่เรียกว่า AA-Omniscience Benchmark ผลลัพธ์ที่ได้คือ Gemini 3 Flash มี Hallucination Rate สูงถึง 91% หรือที่เรียกว่าอาการ ‘หลอน’

แม่นยำที่สุด ต่อเมื่อ ‘รู้จริง’ เท่านั้น 

Artificial Analysis อธิบายชัดเจนว่า ตัวเลข 91% ไม่ได้หมายความว่า Gemini 3 Flash ตอบผิด 91% ของคำตอบทั้งหมด แต่หมายความว่าใน 91% ของกรณีที่โมเดลไม่รู้คำตอบจริง และควรตอบว่า “ฉันไม่รู้” โมเดลกลับเลือกสร้างคำตอบสมมติขึ้นมาแทน

ความย้อนแย้งคือ รายงานฉบับเดียวกันนี้ยังระบุว่า Gemini 3 Flash เป็นโมเดลที่มี Knowledge Accuracy สูงที่สุดในบรรดาโมเดลทั้งหมดที่ถูกทดสอบ นั่นหมายความว่า เมื่อคำถามอยู่ในขอบเขตข้อมูลที่โมเดลมีอยู่ คำตอบของมันถือว่าแม่นยำและเชื่อถือได้อย่างยิ่ง

กล่าวอีกแบบคือ ถ้า Gemini 3 Flash ‘รู้จริง’ มันจะให้คำตอบที่แม่นยำมาก แต่ ‘ไม่รู้’ มันกลับเลือกสร้างข้อมูลที่ไม่มีอยู่จริงมาตอบอย่างมั่นใจ แทนการยอมรับว่าไม่รู้

ปัญหาจึงไม่ใช่เรื่องของความฉลาดแต่เป็น ‘ท่าทีต่อความไม่รู้’ โดย Gemini เลือกจะตอบให้ได้ มากกว่ายอมหยุดเมื่อข้อมูลไม่เพียงพอ

ทำไม AI ถึงเลือก ‘ตอบมั่ว’ มากกว่ายอมรับว่าไม่รู้

กรณีของ Gemini 3 Flash ไม่ได้เกิดขึ้นกับ Google เพียงรายเดียว โดยธรรมชาติแล้ว โมเดล Generative AI ถูกฝึกให้ทำนาย ‘คำถัดไปที่น่าจะเหมาะสม’ ไม่ใช่ประเมินว่าเนื้อหานั้นจริงหรือไม่ หรือยอมรับความไม่แน่นอน การตอบว่า ‘ไม่รู้’ จึงมักไม่ได้รับรางวัลจากระบบฝึกเท่ากับคำตอบที่ดูสมบูรณ์ แม้จะผิดก็ตาม

ฝั่ง OpenAI เองก็ยอมรับโจทย์นี้ และระบุว่า การทำให้โมเดลรู้จักขอบเขตความรู้ของตัวเองเป็นหนึ่งในเป้าหมายสำคัญของการพัฒนา AI รุ่นถัดไป

ใกล้เป็น Search Engine ใหม่ของ Google

จุดเด่นสำคัญของ Gemini 3 Flash คือความสามารถในการตอบคำถามได้เร็วใกล้เคียงกับ Google Search แบบดั้งเดิม ซึ่งถือเป็นก้าวสำคัญ เพราะหนึ่งในข้อจำกัดใหญ่ของ AI Chatbot มาโดยตลอดคือความล่าช้าในการให้คำตอบ

เมื่อมองจากมุมนี้ Gemini 3 Flash กำลังเข้าใกล้บทบาทของการเป็น ‘Search Engine ทางเลือก’ มากขึ้นเรื่อย ๆ อย่างไรก็ตาม ต้องยอมรับว่า Search Engine ที่ตอบผิดอย่างมั่นใจ อันตรายกว่า Search Engine ที่เลือกไม่ตอบเมื่อไม่แน่ใจ

ความเสี่ยงจะยิ่งสูง เมื่อ Gemini ฝังอยู่ในทุกบริการของ Google

แม้ Gemini จะพยายามอ้างอิงแหล่งข้อมูลเมื่อทำได้ แต่ผลทดสอบชี้ว่า มันยังไม่รู้จักหยุดในจังหวะที่ควรหยุด และเมื่อ Gemini ถูกนำไปใช้ในบริการหลักอย่าง Search, Workspace หรือ Assistant ความมั่นใจแบบผิด ๆ นี้อาจส่งผลในวงกว้างกว่าที่คิด

Gemini 3 Flash สะท้อนภาพชัดเจนของจุดตัดระหว่าง ความเร็ว ความฉลาด และความซื่อสัตย์ และสุดท้ายแล้ว นี่อาจเป็นการเลือกระหว่าง ประสบการณ์ที่ลื่นไหล กับ ความถูกต้อง

ในโลกที่ AI กำลังกลายเป็นแหล่งข้อมูลหลักของผู้คนจำนวนมาก ความสามารถในการยอมพูดว่า “ฉันไม่รู้” อาจเป็นคุณสมบัติที่สำคัญไม่แพ้ความฉลาด และนี่คือโจทย์ใหญ่ของผู้พัฒนาโมเดล AI ที่ต้องหาจุดสมดุลให้ได้

อย่างไรก็ตามบทเรียนสำคัญยังคงเหมือนเดิม แม้ AI จะเก่งขึ้นเรื่อย ๆ แต่ การตรวจสอบซ้ำโดยมนุษย์ยังจำเป็นเสมอ โดยเฉพาะเมื่อคำตอบนั้นดูมั่นใจเกินไปในเรื่องที่ไม่ควรมั่นใจ

อ้างอิง: TechRadar

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

Clawdbot ลอกคราบ ปลี่ยนชื่อเป็น Moltbot รุกคืบสู่สังเวียน AI Agent แต่อาจเก่งเกินจนเป็น ‘ดาบสองคม’

Moltbot หรือ Clawdbot เดิม เปิดฉาก AI Agent ที่ทำงานเองได้จริง ตั้งแต่เฝ้างานถึงสื่อสารกับผู้ใช้ พร้อมความเสี่ยงด้านความปลอดภัยที่ไม่อาจมองข้าม...

Responsive image

เปิดจดหมายเตือน 20,000 คำ Dario Amodei ซีอีโอ Anthropic AI เก่งขึ้นแน่ใน 2 ปี พวกเราไม่ต้องกังวล แต่ ‘คนเตรียมรับมือ’ หรือยังกับผลที่จะตามมา

สรุปบทความ 2 หมื่นคำจาก Dario Amodei ซีอีโอ Anthropic: AI จะฉลาดเท่ามนุษย์ใน 2 ปี! พร้อมข้อเสนอสุดโต่งถึงมหาเศรษฐี และทางรอดของแรงงานโลกที่ต้องเตรียมรับแรงกระแทก...

Responsive image

OpenAI เปิดตัว Prism ปฏิวัติวงการวิจัยด้วย AI Workspace ขุมพลัง GPT-5.2 ที่ออกแบบมาเพื่อนักวิทยาศาสตร์โดยเฉพาะ

OpenAI เปิดตัว Prism หรือ AI Workspace สำหรับนักวิทยาศาสตร์ ขุมพลัง GPT-5.2 ที่ช่วยทำหน้าที่ได้ตั้งแต่การประเมินสมมติฐาน การขัดเกลาสำนวนภาษาในบทความวิจัย ไปจนถึงการสืบค้นงานวิจัยใน...