Gemini 3 Flash ฉลาดแต่ไม่ซื่อสัตย์ ปัญหาใหญ่คือเน้นตอบให้ได้ มากกว่าตอบให้ถูก

แม้จะเพิ่งเปิดให้ใช้งานสาธารณะได้ไม่ถึงสัปดาห์ แต่ Gemini 3 Flash โมเดล Generative AI รุ่นล่าสุดจาก Google ก็กลายเป็นประเด็นร้อนในวงการเทคโนโลยีทันที เนื่องจากพฤติกรรมที่ถูกตรวจพบว่า แม้จะฉลาดและให้คำตอบได้รวดเร็ว แต่โมเดลหลีกเลี่ยงที่จะ ‘ยอมรับว่าไม่รู้’ และเลือกสร้างคำตอบขึ้นมาเองแทน

ต้นตอของกระแสวิจารณ์มาจากผลประเมินของ Artificial Analysis ซึ่งทดสอบโมเดล AI หลายค่าย ทั้ง Gemini รุ่นก่อนหน้า, ChatGPT, Claude และโมเดลอื่น ๆ ผ่านเกณฑ์วัดที่เรียกว่า AA-Omniscience Benchmark ผลลัพธ์ที่ได้คือ Gemini 3 Flash มี Hallucination Rate สูงถึง 91% หรือที่เรียกว่าอาการ ‘หลอน’

แม่นยำที่สุด ต่อเมื่อ ‘รู้จริง’ เท่านั้น 

Artificial Analysis อธิบายชัดเจนว่า ตัวเลข 91% ไม่ได้หมายความว่า Gemini 3 Flash ตอบผิด 91% ของคำตอบทั้งหมด แต่หมายความว่าใน 91% ของกรณีที่โมเดลไม่รู้คำตอบจริง และควรตอบว่า “ฉันไม่รู้” โมเดลกลับเลือกสร้างคำตอบสมมติขึ้นมาแทน

ความย้อนแย้งคือ รายงานฉบับเดียวกันนี้ยังระบุว่า Gemini 3 Flash เป็นโมเดลที่มี Knowledge Accuracy สูงที่สุดในบรรดาโมเดลทั้งหมดที่ถูกทดสอบ นั่นหมายความว่า เมื่อคำถามอยู่ในขอบเขตข้อมูลที่โมเดลมีอยู่ คำตอบของมันถือว่าแม่นยำและเชื่อถือได้อย่างยิ่ง

กล่าวอีกแบบคือ ถ้า Gemini 3 Flash ‘รู้จริง’ มันจะให้คำตอบที่แม่นยำมาก แต่ ‘ไม่รู้’ มันกลับเลือกสร้างข้อมูลที่ไม่มีอยู่จริงมาตอบอย่างมั่นใจ แทนการยอมรับว่าไม่รู้

ปัญหาจึงไม่ใช่เรื่องของความฉลาดแต่เป็น ‘ท่าทีต่อความไม่รู้’ โดย Gemini เลือกจะตอบให้ได้ มากกว่ายอมหยุดเมื่อข้อมูลไม่เพียงพอ

ทำไม AI ถึงเลือก ‘ตอบมั่ว’ มากกว่ายอมรับว่าไม่รู้

กรณีของ Gemini 3 Flash ไม่ได้เกิดขึ้นกับ Google เพียงรายเดียว โดยธรรมชาติแล้ว โมเดล Generative AI ถูกฝึกให้ทำนาย ‘คำถัดไปที่น่าจะเหมาะสม’ ไม่ใช่ประเมินว่าเนื้อหานั้นจริงหรือไม่ หรือยอมรับความไม่แน่นอน การตอบว่า ‘ไม่รู้’ จึงมักไม่ได้รับรางวัลจากระบบฝึกเท่ากับคำตอบที่ดูสมบูรณ์ แม้จะผิดก็ตาม

ฝั่ง OpenAI เองก็ยอมรับโจทย์นี้ และระบุว่า การทำให้โมเดลรู้จักขอบเขตความรู้ของตัวเองเป็นหนึ่งในเป้าหมายสำคัญของการพัฒนา AI รุ่นถัดไป

ใกล้เป็น Search Engine ใหม่ของ Google

จุดเด่นสำคัญของ Gemini 3 Flash คือความสามารถในการตอบคำถามได้เร็วใกล้เคียงกับ Google Search แบบดั้งเดิม ซึ่งถือเป็นก้าวสำคัญ เพราะหนึ่งในข้อจำกัดใหญ่ของ AI Chatbot มาโดยตลอดคือความล่าช้าในการให้คำตอบ

เมื่อมองจากมุมนี้ Gemini 3 Flash กำลังเข้าใกล้บทบาทของการเป็น ‘Search Engine ทางเลือก’ มากขึ้นเรื่อย ๆ อย่างไรก็ตาม ต้องยอมรับว่า Search Engine ที่ตอบผิดอย่างมั่นใจ อันตรายกว่า Search Engine ที่เลือกไม่ตอบเมื่อไม่แน่ใจ

ความเสี่ยงจะยิ่งสูง เมื่อ Gemini ฝังอยู่ในทุกบริการของ Google

แม้ Gemini จะพยายามอ้างอิงแหล่งข้อมูลเมื่อทำได้ แต่ผลทดสอบชี้ว่า มันยังไม่รู้จักหยุดในจังหวะที่ควรหยุด และเมื่อ Gemini ถูกนำไปใช้ในบริการหลักอย่าง Search, Workspace หรือ Assistant ความมั่นใจแบบผิด ๆ นี้อาจส่งผลในวงกว้างกว่าที่คิด

Gemini 3 Flash สะท้อนภาพชัดเจนของจุดตัดระหว่าง ความเร็ว ความฉลาด และความซื่อสัตย์ และสุดท้ายแล้ว นี่อาจเป็นการเลือกระหว่าง ประสบการณ์ที่ลื่นไหล กับ ความถูกต้อง

ในโลกที่ AI กำลังกลายเป็นแหล่งข้อมูลหลักของผู้คนจำนวนมาก ความสามารถในการยอมพูดว่า “ฉันไม่รู้” อาจเป็นคุณสมบัติที่สำคัญไม่แพ้ความฉลาด และนี่คือโจทย์ใหญ่ของผู้พัฒนาโมเดล AI ที่ต้องหาจุดสมดุลให้ได้

อย่างไรก็ตามบทเรียนสำคัญยังคงเหมือนเดิม แม้ AI จะเก่งขึ้นเรื่อย ๆ แต่ การตรวจสอบซ้ำโดยมนุษย์ยังจำเป็นเสมอ โดยเฉพาะเมื่อคำตอบนั้นดูมั่นใจเกินไปในเรื่องที่ไม่ควรมั่นใจ

อ้างอิง: TechRadar

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

ROLI ‘AI Music Coach’ AI ที่เห็นวิธีการเล่นเปียโนของผู้ใช้ พร้อมวิเคราะห์ท่าทางและเทคนิคแบบ Real-time

ROLI เปิดตัว AI Music Coach และฮาร์ดแวร์ Airwave ที่ใช้กล้องอินฟราเรดตรวจจับท่าทางการวางมือ 27 จุดแบบเรียลไทม์ ช่วยสอนและแก้ไขเทคนิคการเล่นเปียโนได้เหมือนมีครูส่วนตัว พร้อมระบบโต้ต...

Responsive image

ก.พ.ร. จับมือภาครัฐ ปรับการบริการให้เร็วขึ้น มุ่งสู่มาตรฐาน B-READY ของธนาคารโลก

ก.พ.ร.ได้จัดประชุม เรื่อง Business Ready: ปรับบริการรัฐ เปลี่ยนธุรกิจให้ง่ายขึ้น ณ ห้องพญาไท 4 ชั้น 6 โรงแรมอีสติน แกรนด์ พญาไท กรุงเทพฯ โดยมีวัตถุประสงค์เพื่อสื่อสารสร้างการรับรู้...

Responsive image

OpenAI เปิดตัว GPT-5.3-Codex เอเจนต์อัจฉริยะ เร็วขึ้น 25% ใช้โทเคนน้อยลง ทำงานครบตั้งแต่เขียนโค้ดถึงวางแผน

OpenAI ประกาศเปิดตัว GPT-5.3-Codex โมเดลปัญญาประดิษฐ์รุ่นใหม่ที่ยกระดับความสามารถของ Codex จากเดิมที่เป็นผู้ช่วยเขียนและตรวจโค้ด ให้กลายเป็นเอเจนต์อัจฉริยะที่สามารถทำงานระดับมืออาช...