ChatGPT Agent – Khi AI không chỉ “nói” mà còn “làm”

Từ phản hồi đến hành động thực sự

Khác với các phiên bản trước chỉ dừng ở việc trả lời và đưa ra gợi ý, ChatGPT Agent hiện có khả năng tự động thực hiện các thao tác như duyệt web, điều khiển chuột, điền form, chỉnh sửa tài liệu Excel và PowerPoint, thậm chí quản lý email – hoạt động như một trợ lý ảo thực sự.

Hệ thống hoạt động dựa trên môi trường ảo, kết nối với trình duyệt, terminal, API và tích hợp với các dịch vụ như Gmail, GitHub, Google Calendar.

Hợp nhất ba công nghệ cốt lõi

ChatGPT Agent là sự kết hợp của ba thành phần chính:

  • Operator: khả năng thao tác trực tiếp trên web, bao gồm click, gõ phím, điền form và đặt hàng online
  • Deep Research: tính năng nghiên cứu chuyên sâu từ nhiều nguồn và tạo báo cáo tóm tắt trong vòng 5-30 phút
  • ChatGPT: nền tảng xử lý ngôn ngữ tự nhiên cho giao tiếp và hiểu ngữ cảnh

Agent tích hợp cả ba khả năng để thực hiện suy luận và thực thi phức tạp trong một luồng công việc liền mạch.

Ứng dụng thực tiễn

Công nghệ này mang lại nhiều ứng dụng cụ thể:

  • Quản lý lịch trình: kiểm tra lịch cá nhân, tìm cuộc họp, đọc tin tức liên quan và tạo tóm tắt
  • Mua sắm thông minh: lập danh sách mua hàng, điền giỏ hàng và thực hiện thanh toán
  • Phân tích thị trường: nghiên cứu đối thủ cạnh tranh, tổng hợp dữ liệu và tự động tạo báo cáo PowerPoint, Excel
  • Đặt chỗ nhà hàng: tìm kiếm và đặt bàn phù hợp với các tiêu chí về đánh giá và thời gian

Đối tượng và điều kiện sử dụng

ChatGPT Agent hiện chỉ khả dụng cho người dùng gói Pro, Plus, Team và sắp tới sẽ mở rộng cho Enterprise và Education. Dịch vụ chưa hỗ trợ tại EU và Thụy Sĩ.

Người dùng có thể kích hoạt bằng cách chọn “agent mode” từ menu công cụ trong giao diện ChatGPT.

Hiệu suất và đánh giá

Theo các bài kiểm tra chuẩn:

  • Humanity’s Last Exam: đạt 41.6%, gần gấp đôi so với GPT-4 mini
  • FrontierMath: đạt 27.4% khi có hỗ trợ terminal, so với 6.3% không có hỗ trợ

Biện pháp an toàn và kiểm soát

OpenAI đã tích hợp nhiều lớp bảo mật:

  • Người dùng phải phê duyệt trước khi Agent thực hiện các hành động quan trọng như gửi email, chuyển tiền hay mua hàng
  • Tính năng “watch mode” tự động dừng hoạt động khi người dùng rời khỏi màn hình
  • Không cho phép tạo ra các rủi ro sinh học hoặc hóa học mà không qua kiểm tra kỹ lưỡng
  • Tắt tính năng ghi nhớ để tránh rò rỉ hoặc lạm dụng dữ liệu

Tác động đối với môi trường làm việc

ChatGPT Agent hứa hẹn mang lại những thay đổi đáng kể:

Tăng năng suất: Nhiều công việc tốn hàng giờ như tìm tài liệu, tổng hợp dữ liệu, điền form và tạo slide giờ có thể hoàn thành chỉ bằng vài lệnh.

Chuyển hướng nguồn lực con người: Giải phóng nhân viên khỏi các tác vụ lặp lại để tập trung vào sáng tạo, xây dựng chiến lược và phân tích chuyên sâu.

Mở rộng tự động hóa: Không chỉ dừng ở web, Agent có thể tích hợp với Gmail, Google Sheets, GitHub và kết hợp với các công cụ như Zapier, Notion, tạo ra hệ sinh thái tự động hóa toàn diện.

Cạnh tranh ngành: Microsoft đang phát triển tính năng tương tự cho Excel và PowerPoint, trong khi Google và Anthropic cũng đang theo đuổi hướng này.

Đánh giá tổng quan

OpenAI ChatGPT Agent đánh dấu bước chuyển quan trọng từ trợ lý ngôn ngữ sang trợ lý hành động, là dấu hiệu đáng chú ý cho sự phát triển AI trong năm 2025. Mặc dù còn những hạn chế như chưa hỗ trợ EU, yêu cầu phê duyệt thủ công và không có khả năng ghi nhớ dài hạn, đây vẫn là bước tiến lớn trong tự động hóa công việc văn phòng.

Đối với người dùng các gói Pro, Plus hoặc Team, đây là cơ hội để trải nghiệm công nghệ mới và tận dụng khả năng tự động hóa cho các công việc lặp lại. Agent có thể sẽ trở thành công cụ không thể thiếu trong môi trường làm việc hiện đại.

Nguồn: https://help.openai.com/en/articles/11752874-chatgpt-agent

X