เปิดตัว Gemini 2.5 Computer Use เอไอรุ่นใหม่ที่ ‘ทำได้เหมือนมนุษย์’ ทั้งคลิก พิมพ์ และกรอกฟอร์มเองได้

Gemini 2.5 Computer Use เอไอรุ่นใหม่ที่ ‘ทำได้เหมือนมนุษย์’

Google ได้เปิดไพ่สำคัญอีกครั้งด้วยการเปิดตัว Gemini 2.5 Computer Use โมเดล AI รุ่นใหม่ที่มีความสามารถพิเศษ คือ “ใช้งานเบราว์เซอร์ได้เหมือนมนุษย์” ไม่ว่าจะเป็นการคลิกปุ่ม เลื่อนหน้าจอ พิมพ์ข้อความหรือกรอกข้อมูลบนเว็บไซต์ ถึงเว็บไซต์นั้นจะไม่เปิดให้โปรแกรมอื่นเข้าถึงข้อมูลได้โดยตรงผ่าน API ก็ตาม ซึ่งถือเป็นก้าวสำคัญที่ทำให้ AI Agent หรือผู้ช่วยอัจฉริยะ สามารถทำงานบนเว็บไซต์และแพลตฟอร์มต่าง ๆ ที่มนุษย์ใช้กันได้อย่างสมบูรณ์มากขึ้น

Gemini 2.5 Computer Use ทำงานอย่างไร?

โมเดลตัวนี้มีความสามารถคือ ‘ความสามารถในการมองเห็นและเข้าใจสิ่งที่อยู่บนหน้าจอ’ แทนที่จะอ่านโค้ดหรือเชื่อมต่อผ่าน API แบบที่โปรแกรมทั่วไปทำ Gemini 2.5 จะมองเห็นหน้าจอเว็บเหมือนที่มนุษย์เห็นและเข้าใจว่าอะไรคือปุ่ม ช่องกรอกข้อมูล หรือลิงก์ จากนั้นมันก็จะวิเคราะห์คำสั่งของผู้ใช้และทำงานตามขั้นตอนได้เอง ตัวอย่างเช่นถ้าให้มัน ‘กรอกข้อมูลลงทะเบียน’ ซึ่ง Gemini 2.5 จะกรอกข้อมูลให้ครบแล้วกดส่งโดยอัตโนมัติ

ประโยชน์ของ Gemini 2.5 Computer Use

  • ทดสอบการใช้งานเว็บไซต์และแอป นักพัฒนาสามารถใช้ AI ตัวนี้ตรวจสอบว่าปุ่มและฟีเจอร์ต่าง ๆ บนเว็บไซต์หรือแอปทำงานถูกต้องหรือไม่ โดยไม่ต้องคลิกเองทีละจุด
  • ทำงานกับเว็บไซต์เก่าที่ไม่มี API เอไอสามารถดึงข้อมูลหรือสั่งงานบนเว็บไซต์รุ่นเก่าที่ไม่รองรับการเชื่อมต่อจากโปรแกรมภายนอกได้โดยตรง
  • สร้างผู้ช่วย AI ขั้นสูง โมเดลนี้เป็นพื้นฐานของฟีเจอร์ AI Agent ใน AI Mode และโครงการ Project Mariner ซึ่งพัฒนาให้ AI ทำงานซับซ้อนในเบราว์เซอร์ได้เอง เช่น อ่านรายการวัตถุดิบแล้วเข้าไป สั่งซื้อของครบทุกชิ้น จากซูเปอร์มาร์เก็ตออนไลน์โดยอัตโนมัติ

สมรภูมิ AI Agent ที่ดุเดือด

การเปิดตัวของ Google ครั้งนี้เกิดขึ้นเพียง 1 วัน หลังจาก OpenAI จัดงาน Dev Day และเปิดตัวฟีเจอร์ ChatGPT Agent ที่สามารถทำงานซับซ้อนแทนผู้ใช้ได้เช่นกัน ขณะเดียวกัน Anthropic คู่แข่งอีกรายก็ได้เปิดตัวความสามารถ ‘computer use’ ให้กับโมเดล Claude ตั้งแต่ปีที่ผ่านมาแล้ว ทั้งหมดนี้สะท้อนว่าบริษัทยักษ์ใหญ่ด้านเทคโนโลยีต่างเร่งพัฒนา AI ให้กลายเป็น ผู้ช่วยดิจิทัลที่ทำงานแทนมนุษย์ได้จริง

แม้ Gemini 2.5 จะมีความสามารถน่าทึ่ง แต่ Google ยอมรับว่ายังมีข้อจำกัดบางอย่าง โดยโมเดลนี้ ทำงานได้เฉพาะในเบราว์เซอร์เท่านั้น และยัง ไม่สามารถควบคุมระบบปฏิบัติการ (OS) ของคอมพิวเตอร์โดยตรงได้ ซึ่ง Google ระบุว่ายังไม่ได้ปรับให้เหมาะสมสำหรับการควบคุมระดับเดสก์ท็อป ปัจจุบัน Gemini 2.5 รองรับการกระทำพื้นฐาน 13 รูปแบบ เช่น เปิดเว็บเบราว์เซอร์, พิมพ์ข้อความ, คลิก และลาก–วาง องค์ประกอบบนหน้าเว็บ Google ยืนยันว่าโมเดล ‘Computer Use’ ของตนมีประสิทธิภาพเหนือกว่าคู่แข่งรายใหญ่ ในหลายการทดสอบมาตรฐานทั้งบนเว็บและมือถือ

ทดลองใช้งานได้แล้ววันนี้

สำหรับใครที่สนใจสามารถทดลองใช้ Gemini 2.5 Computer Use ได้แล้วผ่าน Google AI Studio และ Vertex AI นอกจากนี้ Google ยังเปิดให้คนทั่วไปได้ทดลองใช้งานผ่านเว็บไซต์ Browserbase ซึ่งผู้ใช้เพียงพิมพ์คำสั่งง่าย ๆ ก็สามารถนั่งดู AI ลงมือทำให้แบบสด ๆ ได้ทันที 

เพราะฉะนั้นสรุปได้ว่าการมาถึงของ Gemini 2.5 Computer Use ถือเป็นอีกหนึ่งหมุดหมายสำคัญที่ตอกย้ำว่า AI กำลังเปลี่ยนบทบาทจากเครื่องมือตอบคำถามมาเป็น “ผู้ช่วยอัจฉริยะ” ที่สามารถทำงานร่วมกับเครื่องมือและเว็บไซต์ที่มนุษย์สร้างขึ้นได้อย่างแนบเนียน มีประสิทธิภาพ และทรงพลังยิ่งขึ้น

อ้างอิง: theverge

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

World Labs ปิดดีลระดมทุน 1 พันล้านดอลลาร์! เมื่อ AI เข้าใจฟิสิกส์และมิติสัมพันธ์

World Labs สตาร์ทอัพ AI ของ Fei-Fei Li ระดมทุนเพิ่ม 1 พันล้านดอลลาร์! หลัง Autodesk ทุ่มงบร่วมพัฒนา Spatial AI ปฏิวัติการทำงาน 3 มิติและอุตสาหกรรมบันเทิง...

Responsive image

Microsoft คิดค้นระบบเก็บข้อมูลบนแผ่นแก้ว อยู่ได้นาน 10,000 ปี ก้าวใหม่สู่เทคโนโลยีข้อมูลอมตะที่อาจปฏิวัติ Data Center

Microsoft เผยความก้าวหน้า Project Silica ระบบเก็บข้อมูลบนแผ่นแก้วที่อยู่ได้นาน 10,000 ปี ใช้เลเซอร์สลักข้อมูลความจุ 4.8TB ต่อแผ่น อาจปฏิวัติการจัดเก็บข้อมูลใน Data Center และการเก็...

Responsive image

ดราม่ากลางงาน AI ที่อินเดีย เจ้าภาพสั่งมหาลัยรื้อบูธ หลังเอาหุ่นยนต์จีนมา 'ย้อมแมว' ว่าเป็นผลงานตัวเอง

อินเดียกำลังเจอกระแสวิจารณ์ไม่น้อย หลังเกิดเหตุการณ์ที่หลายคนมองว่า 'น่าอับอาย' กลางเวทีงาน AI ระดับประเทศ เมื่อมหาวิทยาลัยแห่งหนึ่งถูกจับได้ว่า นำหุ่นยนต์สุนัขที่ผลิตในจีนมาแสดง พ...