เปิดตัว Gemini 2.5 Computer Use เอไอรุ่นใหม่ที่ ‘ทำได้เหมือนมนุษย์’ ทั้งคลิก พิมพ์ และกรอกฟอร์มเองได้

Gemini 2.5 Computer Use เอไอรุ่นใหม่ที่ ‘ทำได้เหมือนมนุษย์’

Google ได้เปิดไพ่สำคัญอีกครั้งด้วยการเปิดตัว Gemini 2.5 Computer Use โมเดล AI รุ่นใหม่ที่มีความสามารถพิเศษ คือ “ใช้งานเบราว์เซอร์ได้เหมือนมนุษย์” ไม่ว่าจะเป็นการคลิกปุ่ม เลื่อนหน้าจอ พิมพ์ข้อความหรือกรอกข้อมูลบนเว็บไซต์ ถึงเว็บไซต์นั้นจะไม่เปิดให้โปรแกรมอื่นเข้าถึงข้อมูลได้โดยตรงผ่าน API ก็ตาม ซึ่งถือเป็นก้าวสำคัญที่ทำให้ AI Agent หรือผู้ช่วยอัจฉริยะ สามารถทำงานบนเว็บไซต์และแพลตฟอร์มต่าง ๆ ที่มนุษย์ใช้กันได้อย่างสมบูรณ์มากขึ้น

Gemini 2.5 Computer Use ทำงานอย่างไร?

โมเดลตัวนี้มีความสามารถคือ ‘ความสามารถในการมองเห็นและเข้าใจสิ่งที่อยู่บนหน้าจอ’ แทนที่จะอ่านโค้ดหรือเชื่อมต่อผ่าน API แบบที่โปรแกรมทั่วไปทำ Gemini 2.5 จะมองเห็นหน้าจอเว็บเหมือนที่มนุษย์เห็นและเข้าใจว่าอะไรคือปุ่ม ช่องกรอกข้อมูล หรือลิงก์ จากนั้นมันก็จะวิเคราะห์คำสั่งของผู้ใช้และทำงานตามขั้นตอนได้เอง ตัวอย่างเช่นถ้าให้มัน ‘กรอกข้อมูลลงทะเบียน’ ซึ่ง Gemini 2.5 จะกรอกข้อมูลให้ครบแล้วกดส่งโดยอัตโนมัติ

ประโยชน์ของ Gemini 2.5 Computer Use

  • ทดสอบการใช้งานเว็บไซต์และแอป นักพัฒนาสามารถใช้ AI ตัวนี้ตรวจสอบว่าปุ่มและฟีเจอร์ต่าง ๆ บนเว็บไซต์หรือแอปทำงานถูกต้องหรือไม่ โดยไม่ต้องคลิกเองทีละจุด
  • ทำงานกับเว็บไซต์เก่าที่ไม่มี API เอไอสามารถดึงข้อมูลหรือสั่งงานบนเว็บไซต์รุ่นเก่าที่ไม่รองรับการเชื่อมต่อจากโปรแกรมภายนอกได้โดยตรง
  • สร้างผู้ช่วย AI ขั้นสูง โมเดลนี้เป็นพื้นฐานของฟีเจอร์ AI Agent ใน AI Mode และโครงการ Project Mariner ซึ่งพัฒนาให้ AI ทำงานซับซ้อนในเบราว์เซอร์ได้เอง เช่น อ่านรายการวัตถุดิบแล้วเข้าไป สั่งซื้อของครบทุกชิ้น จากซูเปอร์มาร์เก็ตออนไลน์โดยอัตโนมัติ

สมรภูมิ AI Agent ที่ดุเดือด

การเปิดตัวของ Google ครั้งนี้เกิดขึ้นเพียง 1 วัน หลังจาก OpenAI จัดงาน Dev Day และเปิดตัวฟีเจอร์ ChatGPT Agent ที่สามารถทำงานซับซ้อนแทนผู้ใช้ได้เช่นกัน ขณะเดียวกัน Anthropic คู่แข่งอีกรายก็ได้เปิดตัวความสามารถ ‘computer use’ ให้กับโมเดล Claude ตั้งแต่ปีที่ผ่านมาแล้ว ทั้งหมดนี้สะท้อนว่าบริษัทยักษ์ใหญ่ด้านเทคโนโลยีต่างเร่งพัฒนา AI ให้กลายเป็น ผู้ช่วยดิจิทัลที่ทำงานแทนมนุษย์ได้จริง

แม้ Gemini 2.5 จะมีความสามารถน่าทึ่ง แต่ Google ยอมรับว่ายังมีข้อจำกัดบางอย่าง โดยโมเดลนี้ ทำงานได้เฉพาะในเบราว์เซอร์เท่านั้น และยัง ไม่สามารถควบคุมระบบปฏิบัติการ (OS) ของคอมพิวเตอร์โดยตรงได้ ซึ่ง Google ระบุว่ายังไม่ได้ปรับให้เหมาะสมสำหรับการควบคุมระดับเดสก์ท็อป ปัจจุบัน Gemini 2.5 รองรับการกระทำพื้นฐาน 13 รูปแบบ เช่น เปิดเว็บเบราว์เซอร์, พิมพ์ข้อความ, คลิก และลาก–วาง องค์ประกอบบนหน้าเว็บ Google ยืนยันว่าโมเดล ‘Computer Use’ ของตนมีประสิทธิภาพเหนือกว่าคู่แข่งรายใหญ่ ในหลายการทดสอบมาตรฐานทั้งบนเว็บและมือถือ

ทดลองใช้งานได้แล้ววันนี้

สำหรับใครที่สนใจสามารถทดลองใช้ Gemini 2.5 Computer Use ได้แล้วผ่าน Google AI Studio และ Vertex AI นอกจากนี้ Google ยังเปิดให้คนทั่วไปได้ทดลองใช้งานผ่านเว็บไซต์ Browserbase ซึ่งผู้ใช้เพียงพิมพ์คำสั่งง่าย ๆ ก็สามารถนั่งดู AI ลงมือทำให้แบบสด ๆ ได้ทันที 

เพราะฉะนั้นสรุปได้ว่าการมาถึงของ Gemini 2.5 Computer Use ถือเป็นอีกหนึ่งหมุดหมายสำคัญที่ตอกย้ำว่า AI กำลังเปลี่ยนบทบาทจากเครื่องมือตอบคำถามมาเป็น “ผู้ช่วยอัจฉริยะ” ที่สามารถทำงานร่วมกับเครื่องมือและเว็บไซต์ที่มนุษย์สร้างขึ้นได้อย่างแนบเนียน มีประสิทธิภาพ และทรงพลังยิ่งขึ้น

อ้างอิง: theverge

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

Meta พลิกเกมโซเชียล สร้างหน้าฟีดยุคใหม่ ‘AI Social Feeds’ AI สร้างคอนเทนต์ให้ดูเอง เจาะจงตามความสนใจ ไม่มีซ้ำ เลื่อนได้ไม่รู้จบ

Meta พลิกโฉมโซเชียลมีเดีย สู่ยุค 'AI Social Feeds' เมื่อหน้าฟีดไม่ได้แค่จัดเรียงโพสต์ แต่ AI สามารถสร้างคอนเทนต์ใหม่ขึ้นมาเฉพาะบุคคลแบบ On-demand เปิดอนาคตโซเชียลที่สดใหม่ เลื่อนได...

Responsive image

มากกว่าแค่กระเป๋า แต่นี่คือ ‘บ้านเคลื่อนที่’ สำหรับคนไร้บ้าน ใบเดียวครบที่พัก แหล่งไฟและอุปกรณ์กู้ชีพ

นักศึกษาในซานฟรานซิสโกออกแบบกระเป๋าเป้โซลาร์เซลล์เพื่อช่วยเหลือผู้ไร้บ้าน โดยกระเป๋าสามารถทำหน้าที่เป็นทั้งที่พักชั่วคราว แหล่งพลังงานไฟฟ้าและชุดสิ่งของจำเป็นพื้นฐาน...

Responsive image

ไม่ต้องเขียนโค้ดก็สร้างเกมได้! Google เปิดตัว Project Genie เนรมิตโลก 3D ที่เดินเล่นได้จริงผ่าน AI

ทำความรู้จัก Project Genie จาก Google DeepMind นวัตกรรมสร้างโลกเสมือนแบบโต้ตอบได้ด้วย AI ขับเคลื่อนโดยโมเดลโลก Genie 3 และ Nano Banana Pro เปิดประสบการณ์สร้างโลกจากข้อความและรูปภาพ...