เปิดตัว Gemini 2.5 Computer Use เอไอรุ่นใหม่ที่ ‘ทำได้เหมือนมนุษย์’ ทั้งคลิก พิมพ์ และกรอกฟอร์มเองได้

Gemini 2.5 Computer Use เอไอรุ่นใหม่ที่ ‘ทำได้เหมือนมนุษย์’

Google ได้เปิดไพ่สำคัญอีกครั้งด้วยการเปิดตัว Gemini 2.5 Computer Use โมเดล AI รุ่นใหม่ที่มีความสามารถพิเศษ คือ “ใช้งานเบราว์เซอร์ได้เหมือนมนุษย์” ไม่ว่าจะเป็นการคลิกปุ่ม เลื่อนหน้าจอ พิมพ์ข้อความหรือกรอกข้อมูลบนเว็บไซต์ ถึงเว็บไซต์นั้นจะไม่เปิดให้โปรแกรมอื่นเข้าถึงข้อมูลได้โดยตรงผ่าน API ก็ตาม ซึ่งถือเป็นก้าวสำคัญที่ทำให้ AI Agent หรือผู้ช่วยอัจฉริยะ สามารถทำงานบนเว็บไซต์และแพลตฟอร์มต่าง ๆ ที่มนุษย์ใช้กันได้อย่างสมบูรณ์มากขึ้น

Gemini 2.5 Computer Use ทำงานอย่างไร?

โมเดลตัวนี้มีความสามารถคือ ‘ความสามารถในการมองเห็นและเข้าใจสิ่งที่อยู่บนหน้าจอ’ แทนที่จะอ่านโค้ดหรือเชื่อมต่อผ่าน API แบบที่โปรแกรมทั่วไปทำ Gemini 2.5 จะมองเห็นหน้าจอเว็บเหมือนที่มนุษย์เห็นและเข้าใจว่าอะไรคือปุ่ม ช่องกรอกข้อมูล หรือลิงก์ จากนั้นมันก็จะวิเคราะห์คำสั่งของผู้ใช้และทำงานตามขั้นตอนได้เอง ตัวอย่างเช่นถ้าให้มัน ‘กรอกข้อมูลลงทะเบียน’ ซึ่ง Gemini 2.5 จะกรอกข้อมูลให้ครบแล้วกดส่งโดยอัตโนมัติ

ประโยชน์ของ Gemini 2.5 Computer Use

  • ทดสอบการใช้งานเว็บไซต์และแอป นักพัฒนาสามารถใช้ AI ตัวนี้ตรวจสอบว่าปุ่มและฟีเจอร์ต่าง ๆ บนเว็บไซต์หรือแอปทำงานถูกต้องหรือไม่ โดยไม่ต้องคลิกเองทีละจุด
  • ทำงานกับเว็บไซต์เก่าที่ไม่มี API เอไอสามารถดึงข้อมูลหรือสั่งงานบนเว็บไซต์รุ่นเก่าที่ไม่รองรับการเชื่อมต่อจากโปรแกรมภายนอกได้โดยตรง
  • สร้างผู้ช่วย AI ขั้นสูง โมเดลนี้เป็นพื้นฐานของฟีเจอร์ AI Agent ใน AI Mode และโครงการ Project Mariner ซึ่งพัฒนาให้ AI ทำงานซับซ้อนในเบราว์เซอร์ได้เอง เช่น อ่านรายการวัตถุดิบแล้วเข้าไป สั่งซื้อของครบทุกชิ้น จากซูเปอร์มาร์เก็ตออนไลน์โดยอัตโนมัติ

สมรภูมิ AI Agent ที่ดุเดือด

การเปิดตัวของ Google ครั้งนี้เกิดขึ้นเพียง 1 วัน หลังจาก OpenAI จัดงาน Dev Day และเปิดตัวฟีเจอร์ ChatGPT Agent ที่สามารถทำงานซับซ้อนแทนผู้ใช้ได้เช่นกัน ขณะเดียวกัน Anthropic คู่แข่งอีกรายก็ได้เปิดตัวความสามารถ ‘computer use’ ให้กับโมเดล Claude ตั้งแต่ปีที่ผ่านมาแล้ว ทั้งหมดนี้สะท้อนว่าบริษัทยักษ์ใหญ่ด้านเทคโนโลยีต่างเร่งพัฒนา AI ให้กลายเป็น ผู้ช่วยดิจิทัลที่ทำงานแทนมนุษย์ได้จริง

แม้ Gemini 2.5 จะมีความสามารถน่าทึ่ง แต่ Google ยอมรับว่ายังมีข้อจำกัดบางอย่าง โดยโมเดลนี้ ทำงานได้เฉพาะในเบราว์เซอร์เท่านั้น และยัง ไม่สามารถควบคุมระบบปฏิบัติการ (OS) ของคอมพิวเตอร์โดยตรงได้ ซึ่ง Google ระบุว่ายังไม่ได้ปรับให้เหมาะสมสำหรับการควบคุมระดับเดสก์ท็อป ปัจจุบัน Gemini 2.5 รองรับการกระทำพื้นฐาน 13 รูปแบบ เช่น เปิดเว็บเบราว์เซอร์, พิมพ์ข้อความ, คลิก และลาก–วาง องค์ประกอบบนหน้าเว็บ Google ยืนยันว่าโมเดล ‘Computer Use’ ของตนมีประสิทธิภาพเหนือกว่าคู่แข่งรายใหญ่ ในหลายการทดสอบมาตรฐานทั้งบนเว็บและมือถือ

ทดลองใช้งานได้แล้ววันนี้

สำหรับใครที่สนใจสามารถทดลองใช้ Gemini 2.5 Computer Use ได้แล้วผ่าน Google AI Studio และ Vertex AI นอกจากนี้ Google ยังเปิดให้คนทั่วไปได้ทดลองใช้งานผ่านเว็บไซต์ Browserbase ซึ่งผู้ใช้เพียงพิมพ์คำสั่งง่าย ๆ ก็สามารถนั่งดู AI ลงมือทำให้แบบสด ๆ ได้ทันที 

เพราะฉะนั้นสรุปได้ว่าการมาถึงของ Gemini 2.5 Computer Use ถือเป็นอีกหนึ่งหมุดหมายสำคัญที่ตอกย้ำว่า AI กำลังเปลี่ยนบทบาทจากเครื่องมือตอบคำถามมาเป็น “ผู้ช่วยอัจฉริยะ” ที่สามารถทำงานร่วมกับเครื่องมือและเว็บไซต์ที่มนุษย์สร้างขึ้นได้อย่างแนบเนียน มีประสิทธิภาพ และทรงพลังยิ่งขึ้น

อ้างอิง: theverge

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

จาก Vibe Coding สู่ Vibe Selling เมื่อ AI ขยับบทบาทมาเป็นคู่หูนักขาย ช่วยดันรายได้เพิ่มขึ้น 77%

ถ้าเคยได้ยินคำว่า “Vibe Coding” ที่แค่สั่ง AI เขียนโปรแกรมด้วย ภาษาพูดง่ายๆ ก็ได้โค้ดออกมาดั่งใจ ตอนนี้เทรนด์นี้กำลังข้ามฝั่งมาที่โลกของการขาย ในชื่อที่เรียกว่า “Vibe Selling”...

Responsive image

Google สั่งระงับ AI Overviews ในคำค้นหาด้านสุขภาพบางรายการ หลังพบความเสี่ยงให้ข้อมูลคลาดเคลื่อน

Google สั่งระงับฟีเจอร์ AI Overviews ในคำค้นหาทางการแพทย์บางส่วน หลังพบข้อมูลเรื่องค่าตับคลาดเคลื่อน เสี่ยงทำผู้ใช้เข้าใจผิด ผู้เชี่ยวชาญแนะต้องแก้ที่ระบบไม่ใช่รายกรณี...

Responsive image

Gen Z 'ยอมมีหนี้ เพื่อเปย์ตัวเอง' มอง เรียบจบ-ทำงาน-มีบ้าน อาจไม่ใช่แนวคิดที่เวิร์กอีกต่อไป

จะเกิดอะไรขึ้น ถ้าคนทุกรุ่นโตมากับคำว่า “เรียนดี ทำงานหนัก เดี๋ยวก็มีบ้าน มีความมั่นคง” แต่พอโตขึ้นกลับพบว่า ทุกอย่างแพง งานหายาก และหนี้เพิ่มเร็วกว่าเงินเดือน นี่คือสิ่งที่กำลังเก...