เปิดตัว Gemini 2.5 Computer Use เอไอรุ่นใหม่ที่ ‘ทำได้เหมือนมนุษย์’ ทั้งคลิก พิมพ์ และกรอกฟอร์มเองได้

Gemini 2.5 Computer Use เอไอรุ่นใหม่ที่ ‘ทำได้เหมือนมนุษย์’

Google ได้เปิดไพ่สำคัญอีกครั้งด้วยการเปิดตัว Gemini 2.5 Computer Use โมเดล AI รุ่นใหม่ที่มีความสามารถพิเศษ คือ “ใช้งานเบราว์เซอร์ได้เหมือนมนุษย์” ไม่ว่าจะเป็นการคลิกปุ่ม เลื่อนหน้าจอ พิมพ์ข้อความหรือกรอกข้อมูลบนเว็บไซต์ ถึงเว็บไซต์นั้นจะไม่เปิดให้โปรแกรมอื่นเข้าถึงข้อมูลได้โดยตรงผ่าน API ก็ตาม ซึ่งถือเป็นก้าวสำคัญที่ทำให้ AI Agent หรือผู้ช่วยอัจฉริยะ สามารถทำงานบนเว็บไซต์และแพลตฟอร์มต่าง ๆ ที่มนุษย์ใช้กันได้อย่างสมบูรณ์มากขึ้น

Gemini 2.5 Computer Use ทำงานอย่างไร?

โมเดลตัวนี้มีความสามารถคือ ‘ความสามารถในการมองเห็นและเข้าใจสิ่งที่อยู่บนหน้าจอ’ แทนที่จะอ่านโค้ดหรือเชื่อมต่อผ่าน API แบบที่โปรแกรมทั่วไปทำ Gemini 2.5 จะมองเห็นหน้าจอเว็บเหมือนที่มนุษย์เห็นและเข้าใจว่าอะไรคือปุ่ม ช่องกรอกข้อมูล หรือลิงก์ จากนั้นมันก็จะวิเคราะห์คำสั่งของผู้ใช้และทำงานตามขั้นตอนได้เอง ตัวอย่างเช่นถ้าให้มัน ‘กรอกข้อมูลลงทะเบียน’ ซึ่ง Gemini 2.5 จะกรอกข้อมูลให้ครบแล้วกดส่งโดยอัตโนมัติ

ประโยชน์ของ Gemini 2.5 Computer Use

  • ทดสอบการใช้งานเว็บไซต์และแอป นักพัฒนาสามารถใช้ AI ตัวนี้ตรวจสอบว่าปุ่มและฟีเจอร์ต่าง ๆ บนเว็บไซต์หรือแอปทำงานถูกต้องหรือไม่ โดยไม่ต้องคลิกเองทีละจุด
  • ทำงานกับเว็บไซต์เก่าที่ไม่มี API เอไอสามารถดึงข้อมูลหรือสั่งงานบนเว็บไซต์รุ่นเก่าที่ไม่รองรับการเชื่อมต่อจากโปรแกรมภายนอกได้โดยตรง
  • สร้างผู้ช่วย AI ขั้นสูง โมเดลนี้เป็นพื้นฐานของฟีเจอร์ AI Agent ใน AI Mode และโครงการ Project Mariner ซึ่งพัฒนาให้ AI ทำงานซับซ้อนในเบราว์เซอร์ได้เอง เช่น อ่านรายการวัตถุดิบแล้วเข้าไป สั่งซื้อของครบทุกชิ้น จากซูเปอร์มาร์เก็ตออนไลน์โดยอัตโนมัติ

สมรภูมิ AI Agent ที่ดุเดือด

การเปิดตัวของ Google ครั้งนี้เกิดขึ้นเพียง 1 วัน หลังจาก OpenAI จัดงาน Dev Day และเปิดตัวฟีเจอร์ ChatGPT Agent ที่สามารถทำงานซับซ้อนแทนผู้ใช้ได้เช่นกัน ขณะเดียวกัน Anthropic คู่แข่งอีกรายก็ได้เปิดตัวความสามารถ ‘computer use’ ให้กับโมเดล Claude ตั้งแต่ปีที่ผ่านมาแล้ว ทั้งหมดนี้สะท้อนว่าบริษัทยักษ์ใหญ่ด้านเทคโนโลยีต่างเร่งพัฒนา AI ให้กลายเป็น ผู้ช่วยดิจิทัลที่ทำงานแทนมนุษย์ได้จริง

แม้ Gemini 2.5 จะมีความสามารถน่าทึ่ง แต่ Google ยอมรับว่ายังมีข้อจำกัดบางอย่าง โดยโมเดลนี้ ทำงานได้เฉพาะในเบราว์เซอร์เท่านั้น และยัง ไม่สามารถควบคุมระบบปฏิบัติการ (OS) ของคอมพิวเตอร์โดยตรงได้ ซึ่ง Google ระบุว่ายังไม่ได้ปรับให้เหมาะสมสำหรับการควบคุมระดับเดสก์ท็อป ปัจจุบัน Gemini 2.5 รองรับการกระทำพื้นฐาน 13 รูปแบบ เช่น เปิดเว็บเบราว์เซอร์, พิมพ์ข้อความ, คลิก และลาก–วาง องค์ประกอบบนหน้าเว็บ Google ยืนยันว่าโมเดล ‘Computer Use’ ของตนมีประสิทธิภาพเหนือกว่าคู่แข่งรายใหญ่ ในหลายการทดสอบมาตรฐานทั้งบนเว็บและมือถือ

ทดลองใช้งานได้แล้ววันนี้

สำหรับใครที่สนใจสามารถทดลองใช้ Gemini 2.5 Computer Use ได้แล้วผ่าน Google AI Studio และ Vertex AI นอกจากนี้ Google ยังเปิดให้คนทั่วไปได้ทดลองใช้งานผ่านเว็บไซต์ Browserbase ซึ่งผู้ใช้เพียงพิมพ์คำสั่งง่าย ๆ ก็สามารถนั่งดู AI ลงมือทำให้แบบสด ๆ ได้ทันที 

เพราะฉะนั้นสรุปได้ว่าการมาถึงของ Gemini 2.5 Computer Use ถือเป็นอีกหนึ่งหมุดหมายสำคัญที่ตอกย้ำว่า AI กำลังเปลี่ยนบทบาทจากเครื่องมือตอบคำถามมาเป็น “ผู้ช่วยอัจฉริยะ” ที่สามารถทำงานร่วมกับเครื่องมือและเว็บไซต์ที่มนุษย์สร้างขึ้นได้อย่างแนบเนียน มีประสิทธิภาพ และทรงพลังยิ่งขึ้น

อ้างอิง: theverge

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

SCBX แจ้งกำไร Q1/2026 ที่ 10,195 ล้านบาท ลดลง 18.5% รับแรงกดดันดอกเบี้ยนโยบายขาลง แต่รายได้ค่าธรรมเนียมพุ่งถึง 17.7%

เอสซีบีเอกซ์แจ้งกำไรสุทธิไตรมาส 1/2569 ที่ 10,195 ล้านบาท ลดลง 18.5% YoY จากรายได้ดอกเบี้ยสุทธิหดตัวตามดอกเบี้ยนโยบาย แต่ค่าธรรมเนียมโต 17.7% NPL ลดเหลือ 3.23% พร้อมเปิดตัวแบงก์เอก...

Responsive image

นักวิทย์ฯ โหลดจีโนมสมบูรณ์ชุดแรก เข้าควอนตัมคอมพิวเตอร์ได้แล้ว! ตั้งเป้าวิเคราะห์พันธุกรรมมนุษย์เร็วกว่าเครื่องมือเดิม 100 เท่า

ทีมวิจัยจาก Wellcome Sanger Institute ร่วมกับ Oxford, Cambridge และ Melbourne โหลดจีโนม Hepatitis D เข้าสู่ควอนตัมคอมพิวเตอร์ IBM Heron 156 คิวบิตเป็นครั้งแรก ตั้งเป้าวิเคราะห์พันจ...

Responsive image

Amazon ลงทุนเพิ่ม 25,000 ล้านดอลลาร์ใน Anthropic แลกสัญญาคลาวด์ AWS 10 ปี มูลค่ากว่า 1 แสนล้านดอลลาร์

Amazon ประกาศลงทุนเพิ่มใน Anthropic สูงสุด 25,000 ล้านดอลลาร์ แลกสัญญาคลาวด์ AWS 10 ปี มูลค่ากว่า 100,000 ล้านดอลลาร์ พร้อมกำลังประมวลผล 5 กิกะวัตต์จากชิป Trainium และย้าย Claude P...