OpenAI เปิดตัว LifeSciBench ชุดทดสอบ AI 750 โจทย์วิจัยชีววิทยาระดับผู้เชี่ยวชาญ ที่แม้แต่โมเดลเก่งสุดยังสอบผ่านแค่ 36%

GPT-Rosalind โมเดลที่ OpenAI ปั้นขึ้นมาเพื่องานวิทยาศาสตร์ชีวภาพโดยเฉพาะ ทำคะแนนนำโมเดลแนวหน้าทุกตัวในการทดสอบชุดใหม่ที่ชื่อ LifeSciBench แต่ตัวเลขนั้นกลับเล่าความจริงอีกด้านหนึ่ง เพราะมันสอบผ่านโจทย์วิจัยจริงไปได้เพียง 36.1% เท่านั้น พูดง่าย ๆ คือจากโจทย์ระดับผู้เชี่ยวชาญ 10 ข้อ AI ที่เก่งที่สุดในเวลานี้ยังทำตกไปถึง 6 ถึง 7 ข้อ

กลางเดือนมิถุนายน 2026 OpenAI ปล่อยงานวิจัยพร้อมชุดทดสอบมาตรฐาน (Benchmark) ตัวใหม่ในชื่อ LifeSciBench ที่รวมโจทย์เอาไว้ 750 ข้อ เขียนขึ้นด้วยมือของนักวิทยาศาสตร์ตัวจริง 173 คน เป้าหมายคือตอบคำถามเดียวที่คนในวงการยาและเทคโนโลยีชีวภาพอยากรู้มานาน นั่นคือโมเดลภาษาขนาดใหญ่ (Large Language Model หรือ LLM) ทำงานวิจัยชีววิทยาในระดับที่นักวิจัยมืออาชีพทำกันจริงได้ดีแค่ไหน ไม่ใช่แค่ตอบคำถามแบบท่องจำจากตำรา

ทำไมต้องมี Benchmark ตัวใหม่

ปัญหาของชุดทดสอบ AI สายชีววิทยาที่มีอยู่เดิมคือมันแคบเกินไป ส่วนใหญ่เป็นคำถามที่วัดความรู้เชิงข้อเท็จจริง มีคำตอบตายตัวสะอาดสะอ้าน ถามมาตอบไปจบในข้อเดียว แต่งานวิจัยจริงไม่ได้เป็นแบบนั้น นักวิทยาศาสตร์ต้องชั่งน้ำหนักหลักฐานที่ไม่สมบูรณ์ ตัดสินใจบนความไม่แน่นอน และเลือกทางเดินจากข้อมูลที่กำกวม ทีมวิจัยของ OpenAI ระบุว่ายังไม่มี benchmark ตัวไหนในวงการที่ครอบคลุมทั้งความกว้างและความลึกพอจะวัดความสามารถระดับมืออาชีพได้จริง

LifeSciBench จึงถูกออกแบบมาเพื่ออุดช่องว่างนั้น สิ่งที่ทำให้มันต่างจากของเดิมคือโจทย์ถูกปล่อยให้เปิดกว้างแบบไม่เป๊ะ เลียนแบบสถานการณ์จริงที่คนถามมักไม่ได้เขียนโจทย์มาอย่างชัดเจนสมบูรณ์ โมเดลต้องตีความบริบทที่กำกวมเอง ต้องอ่านหลักฐานหลายรูปแบบ ทั้งภาพ เอกสาร ไฟล์ลำดับพันธุกรรม โครงสร้างโมเลกุล ไปจนถึงลิงก์เว็บ แล้วยังต้องรู้ด้วยว่าคำตอบที่ดีควรลงรายละเอียดแค่ไหนถึงจะพอดี ไม่มากไปไม่น้อยไป

โครงสร้าง 750 โจทย์ 7 กระบวนการ 7 สาขา

โจทย์ทั้ง 750 ข้อถูกจัดกลุ่มตามกระบวนการทำงาน (Workflow) ของนักวิทยาศาสตร์ 7 แบบ ตั้งแต่การจัดการหลักฐาน การวิเคราะห์ข้อมูล การออกแบบและปรับแต่งการทดลอง การให้เหตุผลเชิงวิทยาศาสตร์ การตรวจสอบและวางแผนปฏิบัติการ การเชื่อมโยงผลวิจัยไปสู่การใช้รักษาคนไข้ ไปจนถึงการสื่อสารผลงานวิจัยให้คนกลุ่มต่าง ๆ เข้าใจ และยังครอบคลุม 7 สาขาวิชา ทั้งจีโนมิกส์ เคมีและเคมียา ชีววิทยาโปรตีนและโครงสร้าง ชีววิทยาระดับโมเลกุลและเซลล์ การออกแบบการทดสอบและคัดกรองสาร ชีวสารสนเทศ และวิทยาศาสตร์เชิงคลินิก

หัวใจของ benchmark นี้อยู่ที่ระบบให้คะแนน แต่ละโจทย์มาพร้อมเกณฑ์การให้คะแนน (Rubric) ที่เขียนโดยผู้เชี่ยวชาญเฉพาะทาง รวมกันทั้งชุดมีเกณฑ์ย่อยมากถึง 19,020 ข้อ เฉลี่ยโจทย์ละ 25 ข้อ เกณฑ์พวกนี้ไม่ได้ดูแค่ว่าคำตอบสุดท้ายถูกหรือผิด แต่ไล่ดูตั้งแต่ว่าโมเดลใช้หลักฐานถูกตัวไหม ให้เหตุผลครบขั้นตอนหรือเปล่า ระบุข้อสมมติและข้อควรระวังไว้หรือไม่ และคำนวณตัวเลขออกมาอยู่ในช่วงที่ยอมรับได้หรือเปล่า เพราะในงานวิทยาศาสตร์ คำตอบที่ได้ข้อสรุปกว้าง ๆ ถูกต้องแต่ลืมเงื่อนไขสำคัญไปข้อเดียว ก็ถือว่ายังไม่สมบูรณ์อยู่ดี

ความหนักของโจทย์สะท้อนจากตัวเลข มากกว่าครึ่งหนึ่ง หรือ 53% ต้องอ่านไฟล์ประกอบ (Artifact) อย่างน้อยหนึ่งไฟล์ รวมแล้วมีไฟล์ประกอบในระบบถึง 1,062 ไฟล์ และ 79% ของโจทย์ต้องใช้การให้เหตุผลหรือการตัดสินใจหลายขั้น เฉลี่ยข้อละราว 4 ขั้นตอน การทดสอบใช้รูปแบบตอบครั้งเดียวจบ (Single-Turn) โมเดลได้รับโจทย์กับไฟล์ประกอบไปครั้งเดียวแล้วต้องส่งคำตอบสุดท้ายเลย ห้ามถามกลับหรือขอแก้ และจะนับว่าสอบผ่านก็ต่อเมื่อทำคะแนนได้ถึงเกณฑ์ 70% ของโจทย์ข้อนั้น

ผ่านการตรวจสอบโดยผู้เชี่ยวชาญอีก 453 คน

จุดที่ OpenAI พยายามสร้างความน่าเชื่อถือคือกระบวนการตรวจสอบ คนที่เขียนโจทย์ต้องจบปริญญาเอกในสาขาที่เกี่ยวข้องและมีประสบการณ์ทำงานจริงในอุตสาหกรรมยาหรือเทคโนโลยีชีวภาพอย่างน้อย 2 ปี จากนั้นโจทย์แต่ละข้อยังถูกส่งให้ผู้เชี่ยวชาญอีกชุดหนึ่งซึ่งไม่ใช่คนเขียนมาตรวจซ้ำ รวม 453 คน ในจำนวนนี้ 97% จบปริญญาเอกหรือเทียบเท่า มีประสบการณ์ในสายงานเฉลี่ย 12 ปี และมีผลงานตีพิมพ์เฉลี่ยคนละ 14 ชิ้น

คุณ Joy Jiao หนึ่งในทีมวิจัยของ OpenAI อธิบายหลักการนี้ไว้ว่า 'เกณฑ์การให้คะแนนถูกออกแบบโดยผู้เชี่ยวชาญภายนอกในสาขาของตัวเอง และตรวจสอบยืนยันโดยผู้เชี่ยวชาญอีกกลุ่มที่แยกขาดจากกัน' ผลการตรวจออกมาในทางบวก ผู้เชี่ยวชาญ 98.3% เห็นว่าโจทย์สะท้อนงานวิจัยในโลกจริง และ 96.6% มองว่าเป็นโจทย์ที่ใช้วัดความสามารถของโมเดลได้ดี

โมเดลไหนทำได้ดีที่สุด

OpenAI เอาโมเดลแนวหน้า 5 ตัวมาลงสนาม ได้แก่ GPT-5.4, GPT-5.5, GPT-Rosalind, Gemini 3.1 Pro และ Grok 4.3 ผลที่ออกมา GPT-Rosalind ครองอันดับหนึ่งด้วยคะแนนปรับมาตรฐาน 0.576 และอัตราสอบผ่าน 36.1% ตามมาด้วย GPT-5.5 ที่ 0.519 และ 25.7%, Gemini 3.1 Pro ที่ 0.515 และ 23.6%, GPT-5.4 ที่ 0.479 และ 20.7% ส่วน Grok 4.3 รั้งท้ายที่ 0.399 และ 13.0%

แต่ที่น่าสนใจคืออันดับรวมไม่ได้เล่าทั้งเรื่อง แม้ GPT-Rosalind จะทำคะแนนเฉลี่ยต่อข้อสูงสุดใน 386 โจทย์จาก 750 ข้อ แต่ Gemini 3.1 Pro กลับทำได้ดีกว่าใครในอีก 214 โจทย์ โดยเฉพาะงานที่ต้องการคำตอบเป๊ะ ๆ อย่างการจัดการลำดับพันธุกรรมหรือโครงสร้างโมเลกุล ซึ่งความต่างเล็กน้อยในการเขียนคำตอบชี้เป็นชี้ตายได้เลยว่าผ่านหรือไม่ผ่าน ทีมวิจัยจึงย้ำว่าโมเดลที่คะแนนรวมด้อยกว่าเล็กน้อย อาจเหมาะกับงานบางประเภทมากกว่าก็ได้

จุดที่ AI เริ่มเอาอยู่

เมื่อไล่ดูเป็นประเภทงาน จุดแข็งของโมเดลรุ่นใหม่โผล่ชัดในงานที่ต้องตีความและให้ความเห็นเชิงผู้เชี่ยวชาญ GPT-Rosalind ทำคะแนนได้สูงถึง 0.712 ในกลุ่มงานเชื่อมโยงผลวิจัยสู่การรักษา (Translation) ที่ต้องโยงหลักฐานทางชีววิทยาไปยังความหมายทางคลินิก ความปลอดภัย หรือการออกแบบการทดลองกับคนไข้ และทำได้ 0.718 ในกลุ่มงานสื่อสารวิทยาศาสตร์ ถึงแม้กลุ่มหลังจะมีโจทย์ไม่มากจนต้องตีความอย่างระมัดระวัง

เมื่อเทียบรุ่นต่อรุ่น GPT-Rosalind พัฒนาขึ้นจาก GPT-5.5 มากที่สุดในงานอธิบายกลไกทางชีววิทยา การออกแบบการทดลอง และการวิจารณ์ตรวจสอบงาน ซึ่งล้วนเป็นงานที่ต้องคิดต่อยอดมากกว่าแค่จำข้อมูลมาตอบ สรุปสั้น ๆ คือ AI เก่งที่สุดเวลาโจทย์มีขอบเขตหลักฐานชัดเจนและถามหาการตัดสินใจเชิงวิทยาศาสตร์ที่มีโครงสร้าง

จุดที่ AI ยังไปไม่ถึง

แต่พอโจทย์เริ่มต้องลงมือกับของจริง ช่องว่างก็เผยตัว งานที่ต้องอ่านไฟล์ประกอบยากกว่างานข้อความล้วนอย่างเห็นได้ชัด GPT-Rosalind ทำคะแนนสอบผ่านในโจทย์ข้อความล้วนได้ 45.1% แต่พอเป็นโจทย์ที่ต้องเปิดไฟล์แนบหรือเข้าเว็บ คะแนนร่วงเหลือ 28.1% ส่วน GPT-5.5 ก็ตกในรูปแบบเดียวกัน จาก 29.9% เหลือ 21.9% ปัญหามักเกิดตอนที่โมเดลต้องดึงข้อมูลออกจากไฟล์ขนาดใหญ่หรือภาพที่ซับซ้อน แล้วเอามาประกอบเป็นการตัดสินใจสุดท้าย

อีกด่านที่หินคืองานที่ต้องการคำตอบแบบเป๊ะ ๆ เช่น การเขียนลำดับพันธุกรรมหรือโครงสร้างเคมีในรูปแบบเฉพาะ กลุ่มนี้ทำคะแนนต่ำสุดในทุกโมเดล อัตราผ่านเกณฑ์ด้านลำดับและโครงสร้างไล่ตั้งแต่ 46.9% ของ GPT-Rosalind ลงไปถึง 18.0% ของ Grok และที่น่าคิดคือ GPT-Rosalind พัฒนาเหนือ GPT-5.5 ในงานสร้างคำตอบเป๊ะ ๆ แบบนี้แค่ 0.001 เท่านั้น แปลว่าความเก่งที่เพิ่มขึ้นของโมเดลรุ่นใหม่ไปกระจุกอยู่ที่การให้เหตุผลทั่วไป มากกว่าการผลิตคำตอบเชิงเทคนิคที่แม่นยำ

ภาพรวมจึงยังเหลือช่องว่างให้พัฒนาอีกมาก โจทย์ถึง 171 ข้อ หรือ 22.8% ไม่มีโมเดลตัวไหนทำผ่านได้เลยสักตัว และถ้านับเฉพาะโจทย์ที่แม้แต่โมเดลเก่งสุดยังทำผ่านได้ต่ำกว่า 20% ก็มีถึง 261 ข้อ หรือ 34.8% ของทั้งหมด โดยกระจุกตัวอยู่ในกลุ่มงานออกแบบ ปรับแต่ง คาดการณ์ และงานวิเคราะห์ ที่น่าสนใจอีกอย่างคือมีถึง 109 โจทย์ที่ GPT-Rosalind ทำคะแนนเกณฑ์ย่อยได้เกินครึ่ง แต่กลับสอบไม่ผ่าน เพราะพลาดเงื่อนไขสำคัญ ใช้หลักฐานผิด หรือคำนวณไม่ครบ คือมาถูกทางแต่ไปไม่สุด

Benchmark นี้บอกอะไรกับวงการ

ข้อสรุปของงานวิจัยชิ้นนี้ตรงไปตรงมา โมเดลแนวหน้าในเวลานี้เริ่มมีประโยชน์จริงกับงานสังเคราะห์ข้อมูลและการตีความเชิงผู้เชี่ยวชาญ แต่ยังอ่อนเรื่องการให้เหตุผลจากหลักฐานที่เป็นไฟล์จริง การผลิตคำตอบเป๊ะ ๆ การออกแบบภายใต้ข้อจำกัด และการตัดสินใจเชิงปฏิบัติการ ทีมวิจัยชี้ว่าคอขวดที่แท้จริงไม่ใช่ความรู้ทางชีววิทยาที่ขาดหาย แต่เป็นความน่าเชื่อถือเมื่อต้องทำงานภายใต้เงื่อนไขจริงของงานวิจัย

OpenAI ยอมรับข้อจำกัดของ benchmark ตัวเองด้วยว่า การทดสอบนี้ใช้รูปแบบตอบครั้งเดียวจบ ทั้งที่การใช้งาน AI จริงมักเป็นการคุยโต้ตอบหลายรอบ และตัวเลขที่ได้สะท้อนความสามารถระดับโจทย์เท่านั้น ยังไม่ได้วัดผลกระทบจริงในห้องแล็บที่กำลังทำวิจัยอยู่ อีกประเด็นที่ทีมงานระบุไว้เองคือ LifeSciBench พัฒนาโดย OpenAI และมีโมเดลของ OpenAI ร่วมอยู่ในการทดสอบด้วย ผลลัพธ์จึงควรอ่านโดยคำนึงถึงบริบทนี้

ในมุมการใช้งานจริง คุณ Yunyun Wang จากทีม OpenAI บอกว่าผู้ใช้น่าจะได้ผลงานที่ดีขึ้นและสม่ำเสมอขึ้นในงานวิจัยสายวิทยาศาสตร์ชีวภาพเมื่อใช้ GPT-Rosalind ซึ่งสอดคล้องกับทิศทางที่ OpenAI ดันโมเดลตัวนี้ให้เป็นเครื่องมือเฉพาะทางสำหรับการค้นพบและพัฒนายา

LifeSciBench เปิดให้วงการได้เห็นภาพชัดขึ้นว่า AI อยู่ตรงไหนบนเส้นทางสู่การเป็นผู้ช่วยวิจัยชีววิทยาตัวจริง คำตอบในวันนี้คือมันเริ่มเก่งในงานคิดวิเคราะห์และสื่อสาร แต่ยังต้องพิสูจน์ตัวเองอีกไกลในงานที่ต้องลงมือแม่นยำและรับผิดชอบการตัดสินใจ และนั่นคือโจทย์ของโมเดลรุ่นต่อ ๆ ไป

ที่มา: OpenAI, MarkTechPost, R&D World

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

รู้จัก ‘Loop Engineering’ เลิกพิมพ์สั่ง AI ทีละคำ เปลี่ยนมาออกแบบลูปให้ AI ทำงานเองจนจบ

Loop Engineering คือเทรนด์ใหม่ที่เปลี่ยนวิธีใช้ AI จากการพิมพ์สั่งทีละคำ มาเป็นการออกแบบลูปให้ AI ทำงานเองจนจบ พร้อมห้าหลักการออกแบบลูป และบทเรียนบิลค่า AI ที่พุ่งทะลุเพดานเมื่อลูป...

Responsive image

Microsoft Copilot Cowork เปิดให้ใช้งานเต็มระบบทั่วโลกแล้ว เอเจนต์ AI ที่รับงานยาว ๆ ทำเองจนจบ

Microsoft เปิด Copilot Cowork ให้ใช้ทั่วโลก เอเจนต์ AI ที่รับงานซับซ้อนยาว ๆ ทำเองจนจบ Fortune 500 กว่าครึ่งใช้แล้ว รันบนโมเดล Anthropic คิดเงินตามการใช้จริงในหน่วยเครดิต Copilot พ...

Responsive image

Fable 5 อาจถูกแบนเพราะจีน หลังสหรัฐฯ หวั่นจีนเข้าถึงโมเดลขั้นสูง และทำให้ AI กลายเป็นความเสี่ยงระดับชาติ

โมเดล AI ตัวหนึ่งถูกถอดออกจากตลาดภายในไม่กี่วันหลังเปิดให้ใช้งาน เพราะรัฐบาลสหรัฐฯ มองว่าความสามารถด้านไซเบอร์ของมันอาจแตะระดับความมั่นคงแห่งชาติ นี่คือสิ่งที่เกิดขึ้นกับ Anthro...