แชทบอท Bard ของ Google เคยบอกว่า กล้องเจมส์เว็บบ์ เป็นกล้องโทรทรรศน์ตัวแรกของโลกที่ถ่ายรูปดาวเคราะห์นอกระบบสุริยะได้ ทั้งๆ ที่ไม่จริง
(ข้อมูลที่ถูกต้องคือ ภาพแรกของดาวเคราะห์นอกระบบสุริยะถูกถ่ายเมื่อปี 2004 โดยใช้กล้องโทรทรรศน์ VLT/NACO ร่วมกับเทคโนโลยี adaptive optics)
นี่คือตัวอย่างอาการ 'หลอน' ของปัญญาประดิษฐ์ คือ สถานการณ์ที่ AI โดยเฉพาะโมเดล LLM (Large Language Model) สร้างผลลัพธ์ที่ไม่เกี่ยวข้อง ไม่ถูกต้อง ไร้เหตุผล แปลกประหลาด แต่ข้อมูลที่ออกมากลับดู ‘สมเหตุสมผล’ และ ‘น่าเชื่อถือ’ ซึ่งผู้ใช้ไม่อาจรู้ได้เลยว่าข้อมูลที่ได้จาก AI เป็นเรื่องจริง หรือเป็นข้อมูลที่ระบบ ‘หลอนขึ้นมา’
ในบางครั้งอาการ AI หลอนก็มาในรูปแบบของการเสริมเติมแต่งข้อมูลมากเกินไปทั้งๆ ที่ผู้ใช้ยังไม่ได้ถาม ตัวอย่างเช่นในคำถามว่า “กรุงเทพฯ เป็นเมืองหลวงของประเทศอะไร ?" AI อาจจะตอบว่า ‘กรุงเทพฯ เป็นเมืองหลวงของประเทศไทย เป็นเมืองที่สวยงาม มีประวัติศาสตร์ยาวนาน’
แม้ว่าคำตอบข้อแรกจะถูกต้อง แต่คำตอบข้อสองเป็นอาการ ‘หลอน’ ของระบบ ที่อาจส่งผลต่อความเข้าใจต่อผู้ใช้งาน รวมถึงอาจส่งผลต่อคำถาม และคำตอบที่กำลังจะเกิดขึ้นต่อไปด้วย จากตัวอย่างด้านบน เมื่อ AI บอกไปก่อนแล้วว่า กรุงเทพฯ เป็นเมืองที่สวยงาม ผู้ใช้อาจไม่ถาม AI ต่อว่า กรุงเทพฯ มีความน่าสนใจอย่างไร เพราะรู้แล้วว่าเมืองดังกล่าวมีความสวยงาม แม้ว่าคำตอบนั้นจาก AI อาจจะจริงหรือไม่จริงก็ตาม
มีการอธิบายถึงปัจจัยทางเทคนิคที่ทำให้ AI เกิดปัญหาดังกล่าวเอาไว้ทั้งหมด 5 ข้อ ได้แก่
1. ข้อมูลที่ใช้ฝึกระบบ (Training Data):
ระบบ AI ถูกฝึกโดยใช้ข้อมูลมหาศาล ข้อมูลเหล่านี้อาจจะมีข้อผิดพลาด หรือ ผิดเพี้ยน ส่งผลให้ระบบเรียนรู้ข้อมูลผิดๆ และสร้างเรื่องแต่งขึ้นมา
2. ลักษณะการทำงานที่อาศัยความน่าจะเป็น (Probabilistic Nature):
Credit : packtpub
AI บางตัวมีคาดคะเนคำตอบโดยอิงจากข้อความต่างๆ ในบริบทที่ผู้ใช้ถาม ซึ่งการคาดคะเนนี้อาจจะผิดพลาด ทำให้ระบบตอบไม่ตรงกับความจริง เช่น หากเราถามว่า 'เมื่อพระอาทิตย์ตกดิน ดาวจะ…?' AI อาจตอบว่า
ส่องแสง, ปรากฏ, โผล่ขึ้นมา, ระยิบระยับ, สว่างไสว - คำตอบเหล่านี้มีความน่าจะเป็นที่ AI จะตอบ แต่อาจเป็นการตอบคำถามที่ผิดพลาดได้
3. ไม่มีคำตอบที่ถูกต้องตายตัว (Lack of Ground Truth):
เวลาสอนระบบ AI เราจะให้คำตอบที่ตายตัวเพื่อทำการเทรน (เช่น กรุงเทพฯ อยู่ประเทศไทย) แต่เมื่อมีการนำ AI มาใช้ในงาน Generate จะไม่มีคำตอบที่ถูกต้องตายตัวเหมือนตอนเทรน จึงทำบางครั้งมีการสร้างเรื่องแต่ง หรือข้อมูลเท็จเพื่อตอบผู้ช้ เพราะไม่รู้ว่าคำตอบที่ถูกต้องคืออะไรกันแน่
4. ปัญหาในการปรับแต่ง (Optimization Challenges):
การปรับแต่งระบบ AI อาจจะไม่ละเอียดพอ ทำให้ระบบเรียนรู้รูปแบบที่ผิด และสร้างเรื่องแต่งขึ้นมา
5. ความซับซ้อนของระบบ (Model Complexity):
ระบบ AI บางระบบมีความซับซ้อนสูง อาจจะจำรูปแบบที่ผิดๆ หรือ ไม่เกี่ยวข้องมาใช้ตอบ ส่งผลให้ระบบสร้างเรื่องแต่งขึ้นมา
คำว่า “Hallucination” ในวงการ AI เคยเป็นที่รู้จักในเชิงบวก หมายถึงการสร้างภาพที่คมชัดขึ้น หรือการเติมเต็มส่วนที่หายไปของภาพด้วย AI และมักจะถูกพูดถึงเฉพาะในวงการคอมพิวเตอร์เสียเป็นส่วนใหญ่ จนกระทั่งเกิดการพัฒนาโมเดล LLM แบบก้าวกระโดดที่เขย่าวงการ AI เช่น ChatGPT ที่เปิดตัวเมื่อวันที่ 30 พ.ย. 2022 ความหมายของคำนี้จึงเริ่มเปลี่ยนไป อาการหลอนของปัญญาประดิษฐ์ กลับเป็นสิ่งที่บ่งบอกถึงความผิดพลาดที่ส่งผลต่อความน่าเชื่อถือของระบบ AI รวมทั้งยังเป็นปัญหาใหญ่ที่มนุษย์ยุค AI กำลังเจอในหลากหลายวงการ
ตัวอย่างผลกระทบจาก AI หลอน ที่น่าจะเห็นได้ชัดเจนที่สุดคือ กรณีที่เกิดขึ้นกับ Steven Schwartz ทนายความชาวอเมริกัน ผู้มีประสบการณ์ว่าความกว่า 30 ปี ที่ใช้ ChatGPT หาข้อมูลเพื่อฟ้องร้องสายการบินอเวียนคา แต่ผลปรากฏว่าข้อมูลที่ AI มอบให้เพื่อใช้ประกอบการฟ้องร้องกลับเป็นข้อมูลปลอม ทั้งเอกสารอ้างอิง คำพิพากษา จนผลสุดท้ายถูกศาลสั่งปรับเงิน และยกฟ้องคดีไปในท้ายที่สุด
หรือจะเป็นทางฝั่งผู้ให้บริการอย่าง สายการบิน Air Canada ที่เคยเปิดตัวแชทบอท AI เพื่อตอบคำถามของลูกค้าเกี่ยวกับเรื่องต่างๆ ที่ให้ข้อมูลผิดพลาดให้กับผู้โดยสารที่ต้องการจองตั๋วเครื่องบินไปงานศพคุณยาย โดยแชทบอทแนะนำให้จองตั๋วราคาเต็มราคาไปก่อนแล้วค่อยมาขอส่วนลด 'bereavement fare' (ส่วนลดสำหรับผู้สูญเสียบุคคลอันเป็นที่รัก) ภายหลัง
ปรากฎว่า Air Canada ปฏิเสธที่จะให้ส่วนลด โดยอ้างว่าแชทบอทให้ข้อมูลผิด และระบุว่าผู้โดยสารควรไปอ่านข้อมูลที่ถูกต้องจากลิงค์ที่แชทบอทแนะนำ แต่สุดท้ายแล้วศาลกลับไม่เห็นด้วยกับข้ออ้างของสายการบิน และสั่งให้ชดใช้ค่าเสียหายให้แก่ลูกค้า จนสุดท้ายแล้วแชทบอทดังกล่าวต้องถูกปิดตัวไปในที่สุด
เมื่อต้นปี 2024 มีการเปิดเผยผลทดสอบแชทบอทของ UK ในชื่อ GOV.UK Chat แชทบอทที่ถูกออกแบบมาเพื่อตอบคำถามทั่วไปที่เกี่ยวกับประชาชนแบบ One-stop-service โดยใช้ LLM วิเคราะห์ข้อมูลจากเว็บไซต์ GOV.UK เพื่อตอบคำถาม โดยทดสอบกับผู้ใช้จำนวน 1,000 รายก่อนเปิดให้ประชาชนใช้งานจริง
ผลการทดสอบพบว่า AI ยังมีข้อจำกัดในเรื่องของความแม่นยำของคำตอบ โดยเฉพาะคำตอบที่ต้องอาศัยเนื้อหาจากเว็บไซต์ที่มีข้อความยาว ๆ บางครั้ง AI ไม่สามารถหาคำตอบที่ถูกต้องได้ และที่น่าสนใจคือ บางครั้ง AI เกิดอาการหลอนเมื่อต้องตอบคำถามที่กำกวม ส่งผลให้สร้างคำตอบขึ้นมาเองแม้จะเป็นข้อมูลที่ผิด แต่แอบอ้างว่าเป็นข้อมูลจริง
โดยทาง GOV.UK เว็บไซต์ที่ดูแลโดยสหราชอาณาจักร และเป็นผู้เปิดเผยผลทดสอบนี้ด้วยตนเอง แสดงความกังวลอย่างชัดเจนว่า อาการ AI หลอนอาจทำเกิดความเข้าใจผิดได้ง่าย ผู้ใช้บางคนที่ไม่ทราบว่าแชทบอทดังกล่าวเป็น AI อาจคิดว่าข้อมูลมีความน่าเชื่อถือสูงเพราะเป็นระบบของ GOV.UK ซึ่งอาจนำไปสู่ ‘การวางใจในระบบมากเกินไป’
บทความวิจัยฉบับหนึ่งได้ทดลองให้ ChatGPT แนะนำหัวข้อวิจัยทางการแพทย์ 50 เรื่อง โดยหัวข้อวิจัยต้องต้องผ่านเกณฑ์ FINER (Feasible ทำได้จริง, Interesting น่าสนใจ, Novel ใหม่, Ethical มีจริยธรรม, Relevant มีความเกี่ยวข้อง) รวมทั้งสั่งให้ AI ลองเขียนแผนวิจัยแบบละเอียด มีแหล่งข้อมูลอ้างอิง และต้องมีรหัส DOI (รหัสติดตามเอกสารวิชาการ)
ผลการทดสอบระบุว่า ข้อมูลที่ ChatGPT สร้างขึ้นมีความน่าเชื่อถือ (จากการประเมินโดยนักวิจัย) รวมทั้งระบบสามารถสร้างหัวข้อวิจัย 50 เรื่องได้ตามเกณฑ์ FINER แม้จะฟังดูดี แต่ในเรื่องของความถูกต้อง ยังถือว่ายังน่าเป็นห่วง
การทดสอบครั้งนี้พบว่า ข้อมูลอ้างอิงที่ ChatGPT ใช้นั้น บางรายการไม่มีรหัส DOI หรือบางครั้งแม้จะมีรหัส DOI แต่นักวิจัยกลับไม่สามารถค้นหาเอกสารวิชาการฉบับจริงได้ และที่น่าสนใจคือ บางครั้ง ChatGPT กลับมีการอ้างอิงจากเว็บไซต์ และหนังสือ แทนที่จะเป็นข้อมูลจากเอกสารวิจัย
“มันแก้ไม่ได้หรอก”
Emily Bender อาจารย์ด้านภาษาศาสตร์ และผู้อำนวยการห้องปฏิบัติการภาษาศาสตร์เชิงคำนวนจากมหาวิทชาลัยวอชิงตัน อธิบายว่า AI หลอนเป็นปัญหาที่ฝังรากลึกมาจากความไม่สอดคล้องกันระหว่างเทคโนโลยี และการใช้งานที่คาดหวัง
เมื่อปี 2022 ซีอีโอของ OpenAI อย่าง Sam Altman ก็เคยถูกตั้งคำถามจากนักวิยาศาสตร์ที่พยายามใช้ AI เพื่อสร้างสูตรอาหาร ซึ่งเป็นกังวลว่า AI อาจสร้างสูตรอาหารที่ ‘มโน’ ขึ้นมาเอง และอาจส่งผลเสียต่อวงการอาหารได้ โดยเจ้าตัวยอมรับว่า
การที่ ChatGPT สร้างข้อมูลผิด ๆ อาจจะพอรับได้ แต่ถ้ามันเกิดกับสูตรอาหาร มันกลายเป็นปัญหาร้ายแรงได้เลย
แต่ทาง OpenAI ก็ได้แสดงความเห็น และความหวังว่า ปัญหา AI หลอนจะสามารถแก้ไขได้ แม้อาจต้องใช้เวลาอีกสักหน่อย
“ผมเชื่อว่าเราจะแก้ไขปัญหาด้านการสร้างข้อมูลผิดของ AI ได้ดีขึ้นมาก ๆ ภายในเวลาประมาณ 1 ปีครึ่งถึง 2 ปี หลังจากนั้น ปัญหาเหล่านี้อาจจะไม่ใช่เรื่องที่เราต้องมานั่งคุยกันอีก AI จำเป็นต้องเรียนรู้ความสมดุลระหว่างความคิดสร้างสรรค์กับความแม่นยำ เพื่อที่จะปรับรูปแบบการทำงานให้ตรงกับความต้องการ ไม่ว่าผู้ใช้ต้องการความคิดสร้างสรรค์หรือความแม่นยำเป็นหลัก"
การหวังพึ่งให้ผู้พัฒนาแก้ปัญหานี้เพียงฝั่งเดียว คงไม่ทันยุคที่ AI ไปไกลในทุกวินาที เพราะสุดท้ายเราต้องแก้ไขที่ ‘ผู้ใช้งาน’
ตั้งกฏง่าย ๆ ว่า ทุกครั้งที่ตอบคำถาม ต้องหาคำตอบเพิ่มด้วย
Jensen Huang ซีอีโอจาก Nvidia ระบุว่า AI หลอนสามารถแก้ไขได้เพียงเพิ่มกฏนี้ให้กับ AI ให้ไปค้นหาคำตอบจากแหล่งที่น่าเชื่อถืออีกครั้ง เพื่อให้คำตอบมีความถูกต้อง แม่นยำ และน่าเชื่อถือ ซึ่งเป็นวิธีที่เรียกว่า Retrieval-augmented generation
แต่จะดีกว่าไหมหาก ‘กฏ’ ที่ว่านี้ไม่ได้ใช้แค่กับ AI ฝั่งเดียว แต่ต้องบังคับใช้กับ ‘User’ หรือมนุษย์อย่างเราด้วยเช่นกัน กฏของ Huang เปรียบเสมือนแนวทางที่จะช่วยให้เราอยู่รอดในยุคที่ข้อมูลข่าวสารท่วมท้น และอาจเกิดความสับสนได้ง่ายจากการเติบโตอย่างรวดของ Generative AI จึงทำให้สุดท้ายแล้ว
การคิดวิเคราะห์ ค้นคว้า และตรวจสอบ จะเป็นกุญแจสำคัญที่ทำให้เราแก้ปัญหา AI หลอนได้ด้วยตัวเราเอง
ที่มา : IBM, builtin, packtpub, inside.gov.uk, yahoo, fortune, voa, bbc, Fergal McGovern, AI Hallucinations: A Misnomer Worth Clarifying, On Early Detection of Hallucinations in Factual Question Answering, Exploring the Boundaries of Reality: Investigating the Phenomenon of Artificial Intelligence Hallucination in Scientific Writing Through ChatGPT
ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด