OpenAI เปิดตัว LifeSciBench ชุดทดสอบ AI 750 โจทย์วิจัยชีววิทยาระดับผู้เชี่ยวชาญ ที่แม้แต่โมเดลเก่งสุดยังสอบผ่านแค่ 36%

มิถุนายน 18, 2026 | By Techsauce Team

GPT-Rosalind โมเดลที่ OpenAI ปั้นขึ้นมาเพื่องานวิทยาศาสตร์ชีวภาพโดยเฉพาะ ทำคะแนนนำโมเดลแนวหน้าทุกตัวในการทดสอบชุดใหม่ที่ชื่อ LifeSciBench แต่ตัวเลขนั้นกลับเล่าความจริงอีกด้านหนึ่ง เพราะมันสอบผ่านโจทย์วิจัยจริงไปได้เพียง 36.1% เท่านั้น พูดง่าย ๆ คือจากโจทย์ระดับผู้เชี่ยวชาญ 10 ข้อ AI ที่เก่งที่สุดในเวลานี้ยังทำตกไปถึง 6 ถึง 7 ข้อ

กลางเดือนมิถุนายน 2026 OpenAI ปล่อยงานวิจัยพร้อมชุดทดสอบมาตรฐาน (Benchmark) ตัวใหม่ในชื่อ LifeSciBench ที่รวมโจทย์เอาไว้ 750 ข้อ เขียนขึ้นด้วยมือของนักวิทยาศาสตร์ตัวจริง 173 คน เป้าหมายคือตอบคำถามเดียวที่คนในวงการยาและเทคโนโลยีชีวภาพอยากรู้มานาน นั่นคือโมเดลภาษาขนาดใหญ่ (Large Language Model หรือ LLM) ทำงานวิจัยชีววิทยาในระดับที่นักวิจัยมืออาชีพทำกันจริงได้ดีแค่ไหน ไม่ใช่แค่ตอบคำถามแบบท่องจำจากตำรา

ทำไมต้องมี Benchmark ตัวใหม่

ปัญหาของชุดทดสอบ AI สายชีววิทยาที่มีอยู่เดิมคือมันแคบเกินไป ส่วนใหญ่เป็นคำถามที่วัดความรู้เชิงข้อเท็จจริง มีคำตอบตายตัวสะอาดสะอ้าน ถามมาตอบไปจบในข้อเดียว แต่งานวิจัยจริงไม่ได้เป็นแบบนั้น นักวิทยาศาสตร์ต้องชั่งน้ำหนักหลักฐานที่ไม่สมบูรณ์ ตัดสินใจบนความไม่แน่นอน และเลือกทางเดินจากข้อมูลที่กำกวม ทีมวิจัยของ OpenAI ระบุว่ายังไม่มี benchmark ตัวไหนในวงการที่ครอบคลุมทั้งความกว้างและความลึกพอจะวัดความสามารถระดับมืออาชีพได้จริง

LifeSciBench จึงถูกออกแบบมาเพื่ออุดช่องว่างนั้น สิ่งที่ทำให้มันต่างจากของเดิมคือโจทย์ถูกปล่อยให้เปิดกว้างแบบไม่เป๊ะ เลียนแบบสถานการณ์จริงที่คนถามมักไม่ได้เขียนโจทย์มาอย่างชัดเจนสมบูรณ์ โมเดลต้องตีความบริบทที่กำกวมเอง ต้องอ่านหลักฐานหลายรูปแบบ ทั้งภาพ เอกสาร ไฟล์ลำดับพันธุกรรม โครงสร้างโมเลกุล ไปจนถึงลิงก์เว็บ แล้วยังต้องรู้ด้วยว่าคำตอบที่ดีควรลงรายละเอียดแค่ไหนถึงจะพอดี ไม่มากไปไม่น้อยไป

โครงสร้าง 750 โจทย์ 7 กระบวนการ 7 สาขา

โจทย์ทั้ง 750 ข้อถูกจัดกลุ่มตามกระบวนการทำงาน (Workflow) ของนักวิทยาศาสตร์ 7 แบบ ตั้งแต่การจัดการหลักฐาน การวิเคราะห์ข้อมูล การออกแบบและปรับแต่งการทดลอง การให้เหตุผลเชิงวิทยาศาสตร์ การตรวจสอบและวางแผนปฏิบัติการ การเชื่อมโยงผลวิจัยไปสู่การใช้รักษาคนไข้ ไปจนถึงการสื่อสารผลงานวิจัยให้คนกลุ่มต่าง ๆ เข้าใจ และยังครอบคลุม 7 สาขาวิชา ทั้งจีโนมิกส์ เคมีและเคมียา ชีววิทยาโปรตีนและโครงสร้าง ชีววิทยาระดับโมเลกุลและเซลล์ การออกแบบการทดสอบและคัดกรองสาร ชีวสารสนเทศ และวิทยาศาสตร์เชิงคลินิก

หัวใจของ benchmark นี้อยู่ที่ระบบให้คะแนน แต่ละโจทย์มาพร้อมเกณฑ์การให้คะแนน (Rubric) ที่เขียนโดยผู้เชี่ยวชาญเฉพาะทาง รวมกันทั้งชุดมีเกณฑ์ย่อยมากถึง 19,020 ข้อ เฉลี่ยโจทย์ละ 25 ข้อ เกณฑ์พวกนี้ไม่ได้ดูแค่ว่าคำตอบสุดท้ายถูกหรือผิด แต่ไล่ดูตั้งแต่ว่าโมเดลใช้หลักฐานถูกตัวไหม ให้เหตุผลครบขั้นตอนหรือเปล่า ระบุข้อสมมติและข้อควรระวังไว้หรือไม่ และคำนวณตัวเลขออกมาอยู่ในช่วงที่ยอมรับได้หรือเปล่า เพราะในงานวิทยาศาสตร์ คำตอบที่ได้ข้อสรุปกว้าง ๆ ถูกต้องแต่ลืมเงื่อนไขสำคัญไปข้อเดียว ก็ถือว่ายังไม่สมบูรณ์อยู่ดี

ความหนักของโจทย์สะท้อนจากตัวเลข มากกว่าครึ่งหนึ่ง หรือ 53% ต้องอ่านไฟล์ประกอบ (Artifact) อย่างน้อยหนึ่งไฟล์ รวมแล้วมีไฟล์ประกอบในระบบถึง 1,062 ไฟล์ และ 79% ของโจทย์ต้องใช้การให้เหตุผลหรือการตัดสินใจหลายขั้น เฉลี่ยข้อละราว 4 ขั้นตอน การทดสอบใช้รูปแบบตอบครั้งเดียวจบ (Single-Turn) โมเดลได้รับโจทย์กับไฟล์ประกอบไปครั้งเดียวแล้วต้องส่งคำตอบสุดท้ายเลย ห้ามถามกลับหรือขอแก้ และจะนับว่าสอบผ่านก็ต่อเมื่อทำคะแนนได้ถึงเกณฑ์ 70% ของโจทย์ข้อนั้น

ผ่านการตรวจสอบโดยผู้เชี่ยวชาญอีก 453 คน

จุดที่ OpenAI พยายามสร้างความน่าเชื่อถือคือกระบวนการตรวจสอบ คนที่เขียนโจทย์ต้องจบปริญญาเอกในสาขาที่เกี่ยวข้องและมีประสบการณ์ทำงานจริงในอุตสาหกรรมยาหรือเทคโนโลยีชีวภาพอย่างน้อย 2 ปี จากนั้นโจทย์แต่ละข้อยังถูกส่งให้ผู้เชี่ยวชาญอีกชุดหนึ่งซึ่งไม่ใช่คนเขียนมาตรวจซ้ำ รวม 453 คน ในจำนวนนี้ 97% จบปริญญาเอกหรือเทียบเท่า มีประสบการณ์ในสายงานเฉลี่ย 12 ปี และมีผลงานตีพิมพ์เฉลี่ยคนละ 14 ชิ้น

คุณ Joy Jiao หนึ่งในทีมวิจัยของ OpenAI อธิบายหลักการนี้ไว้ว่า 'เกณฑ์การให้คะแนนถูกออกแบบโดยผู้เชี่ยวชาญภายนอกในสาขาของตัวเอง และตรวจสอบยืนยันโดยผู้เชี่ยวชาญอีกกลุ่มที่แยกขาดจากกัน' ผลการตรวจออกมาในทางบวก ผู้เชี่ยวชาญ 98.3% เห็นว่าโจทย์สะท้อนงานวิจัยในโลกจริง และ 96.6% มองว่าเป็นโจทย์ที่ใช้วัดความสามารถของโมเดลได้ดี

โมเดลไหนทำได้ดีที่สุด

OpenAI เอาโมเดลแนวหน้า 5 ตัวมาลงสนาม ได้แก่ GPT-5.4, GPT-5.5, GPT-Rosalind, Gemini 3.1 Pro และ Grok 4.3 ผลที่ออกมา GPT-Rosalind ครองอันดับหนึ่งด้วยคะแนนปรับมาตรฐาน 0.576 และอัตราสอบผ่าน 36.1% ตามมาด้วย GPT-5.5 ที่ 0.519 และ 25.7%, Gemini 3.1 Pro ที่ 0.515 และ 23.6%, GPT-5.4 ที่ 0.479 และ 20.7% ส่วน Grok 4.3 รั้งท้ายที่ 0.399 และ 13.0%

แต่ที่น่าสนใจคืออันดับรวมไม่ได้เล่าทั้งเรื่อง แม้ GPT-Rosalind จะทำคะแนนเฉลี่ยต่อข้อสูงสุดใน 386 โจทย์จาก 750 ข้อ แต่ Gemini 3.1 Pro กลับทำได้ดีกว่าใครในอีก 214 โจทย์ โดยเฉพาะงานที่ต้องการคำตอบเป๊ะ ๆ อย่างการจัดการลำดับพันธุกรรมหรือโครงสร้างโมเลกุล ซึ่งความต่างเล็กน้อยในการเขียนคำตอบชี้เป็นชี้ตายได้เลยว่าผ่านหรือไม่ผ่าน ทีมวิจัยจึงย้ำว่าโมเดลที่คะแนนรวมด้อยกว่าเล็กน้อย อาจเหมาะกับงานบางประเภทมากกว่าก็ได้

จุดที่ AI เริ่มเอาอยู่

เมื่อไล่ดูเป็นประเภทงาน จุดแข็งของโมเดลรุ่นใหม่โผล่ชัดในงานที่ต้องตีความและให้ความเห็นเชิงผู้เชี่ยวชาญ GPT-Rosalind ทำคะแนนได้สูงถึง 0.712 ในกลุ่มงานเชื่อมโยงผลวิจัยสู่การรักษา (Translation) ที่ต้องโยงหลักฐานทางชีววิทยาไปยังความหมายทางคลินิก ความปลอดภัย หรือการออกแบบการทดลองกับคนไข้ และทำได้ 0.718 ในกลุ่มงานสื่อสารวิทยาศาสตร์ ถึงแม้กลุ่มหลังจะมีโจทย์ไม่มากจนต้องตีความอย่างระมัดระวัง

เมื่อเทียบรุ่นต่อรุ่น GPT-Rosalind พัฒนาขึ้นจาก GPT-5.5 มากที่สุดในงานอธิบายกลไกทางชีววิทยา การออกแบบการทดลอง และการวิจารณ์ตรวจสอบงาน ซึ่งล้วนเป็นงานที่ต้องคิดต่อยอดมากกว่าแค่จำข้อมูลมาตอบ สรุปสั้น ๆ คือ AI เก่งที่สุดเวลาโจทย์มีขอบเขตหลักฐานชัดเจนและถามหาการตัดสินใจเชิงวิทยาศาสตร์ที่มีโครงสร้าง

จุดที่ AI ยังไปไม่ถึง

แต่พอโจทย์เริ่มต้องลงมือกับของจริง ช่องว่างก็เผยตัว งานที่ต้องอ่านไฟล์ประกอบยากกว่างานข้อความล้วนอย่างเห็นได้ชัด GPT-Rosalind ทำคะแนนสอบผ่านในโจทย์ข้อความล้วนได้ 45.1% แต่พอเป็นโจทย์ที่ต้องเปิดไฟล์แนบหรือเข้าเว็บ คะแนนร่วงเหลือ 28.1% ส่วน GPT-5.5 ก็ตกในรูปแบบเดียวกัน จาก 29.9% เหลือ 21.9% ปัญหามักเกิดตอนที่โมเดลต้องดึงข้อมูลออกจากไฟล์ขนาดใหญ่หรือภาพที่ซับซ้อน แล้วเอามาประกอบเป็นการตัดสินใจสุดท้าย

อีกด่านที่หินคืองานที่ต้องการคำตอบแบบเป๊ะ ๆ เช่น การเขียนลำดับพันธุกรรมหรือโครงสร้างเคมีในรูปแบบเฉพาะ กลุ่มนี้ทำคะแนนต่ำสุดในทุกโมเดล อัตราผ่านเกณฑ์ด้านลำดับและโครงสร้างไล่ตั้งแต่ 46.9% ของ GPT-Rosalind ลงไปถึง 18.0% ของ Grok และที่น่าคิดคือ GPT-Rosalind พัฒนาเหนือ GPT-5.5 ในงานสร้างคำตอบเป๊ะ ๆ แบบนี้แค่ 0.001 เท่านั้น แปลว่าความเก่งที่เพิ่มขึ้นของโมเดลรุ่นใหม่ไปกระจุกอยู่ที่การให้เหตุผลทั่วไป มากกว่าการผลิตคำตอบเชิงเทคนิคที่แม่นยำ

ภาพรวมจึงยังเหลือช่องว่างให้พัฒนาอีกมาก โจทย์ถึง 171 ข้อ หรือ 22.8% ไม่มีโมเดลตัวไหนทำผ่านได้เลยสักตัว และถ้านับเฉพาะโจทย์ที่แม้แต่โมเดลเก่งสุดยังทำผ่านได้ต่ำกว่า 20% ก็มีถึง 261 ข้อ หรือ 34.8% ของทั้งหมด โดยกระจุกตัวอยู่ในกลุ่มงานออกแบบ ปรับแต่ง คาดการณ์ และงานวิเคราะห์ ที่น่าสนใจอีกอย่างคือมีถึง 109 โจทย์ที่ GPT-Rosalind ทำคะแนนเกณฑ์ย่อยได้เกินครึ่ง แต่กลับสอบไม่ผ่าน เพราะพลาดเงื่อนไขสำคัญ ใช้หลักฐานผิด หรือคำนวณไม่ครบ คือมาถูกทางแต่ไปไม่สุด

Benchmark นี้บอกอะไรกับวงการ

ข้อสรุปของงานวิจัยชิ้นนี้ตรงไปตรงมา โมเดลแนวหน้าในเวลานี้เริ่มมีประโยชน์จริงกับงานสังเคราะห์ข้อมูลและการตีความเชิงผู้เชี่ยวชาญ แต่ยังอ่อนเรื่องการให้เหตุผลจากหลักฐานที่เป็นไฟล์จริง การผลิตคำตอบเป๊ะ ๆ การออกแบบภายใต้ข้อจำกัด และการตัดสินใจเชิงปฏิบัติการ ทีมวิจัยชี้ว่าคอขวดที่แท้จริงไม่ใช่ความรู้ทางชีววิทยาที่ขาดหาย แต่เป็นความน่าเชื่อถือเมื่อต้องทำงานภายใต้เงื่อนไขจริงของงานวิจัย

OpenAI ยอมรับข้อจำกัดของ benchmark ตัวเองด้วยว่า การทดสอบนี้ใช้รูปแบบตอบครั้งเดียวจบ ทั้งที่การใช้งาน AI จริงมักเป็นการคุยโต้ตอบหลายรอบ และตัวเลขที่ได้สะท้อนความสามารถระดับโจทย์เท่านั้น ยังไม่ได้วัดผลกระทบจริงในห้องแล็บที่กำลังทำวิจัยอยู่ อีกประเด็นที่ทีมงานระบุไว้เองคือ LifeSciBench พัฒนาโดย OpenAI และมีโมเดลของ OpenAI ร่วมอยู่ในการทดสอบด้วย ผลลัพธ์จึงควรอ่านโดยคำนึงถึงบริบทนี้

ในมุมการใช้งานจริง คุณ Yunyun Wang จากทีม OpenAI บอกว่าผู้ใช้น่าจะได้ผลงานที่ดีขึ้นและสม่ำเสมอขึ้นในงานวิจัยสายวิทยาศาสตร์ชีวภาพเมื่อใช้ GPT-Rosalind ซึ่งสอดคล้องกับทิศทางที่ OpenAI ดันโมเดลตัวนี้ให้เป็นเครื่องมือเฉพาะทางสำหรับการค้นพบและพัฒนายา

LifeSciBench เปิดให้วงการได้เห็นภาพชัดขึ้นว่า AI อยู่ตรงไหนบนเส้นทางสู่การเป็นผู้ช่วยวิจัยชีววิทยาตัวจริง คำตอบในวันนี้คือมันเริ่มเก่งในงานคิดวิเคราะห์และสื่อสาร แต่ยังต้องพิสูจน์ตัวเองอีกไกลในงานที่ต้องลงมือแม่นยำและรับผิดชอบการตัดสินใจ และนั่นคือโจทย์ของโมเดลรุ่นต่อ ๆ ไป

ที่มา: OpenAI, MarkTechPost, R&D World

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด