TL;DR
Peekaboo 3.0 là bản nâng cấp lớn cho macOS computer use: không chỉ chụp màn hình, mà còn nhận diện UI, trả về element ID, rồi cho agent click, type, scroll, gọi menu, điều khiển cửa sổ và chạy workflow qua CLI hoặc MCP.
Peter Steinberger vừa công bố Peekaboo 3.0 và gọi đây là bản release lớn nhất kể từ 2.0. Câu chốt đáng chú ý nhất: ông bắt đầu làm thứ này từ năm ngoái, nhưng lúc đó model chưa đủ tốt. Bây giờ thì đủ.
Nói đời thường: Peekaboo là lớp “mắt và tay” cho AI agent trên Mac. Agent có thể nhìn màn hình, hiểu UI đang có gì, rồi thao tác bằng click, gõ phím, scroll, menu, dock, window, dialog… thay vì chỉ ngồi trả lời trong khung chat.
👁️ Từ screenshot sang computer use thật
Điểm mới của 3.0 là hướng action-first macOS computer use. Tức là automation không còn bắt đầu bằng “chụp ảnh rồi đoán bấm tọa độ” một cách mong manh. Peekaboo cố gắng dùng UI/accessibility element trước, còn synthetic input chỉ là fallback khi app cần.
Luồng mới gọn hơn: see để quan sát màn hình hoặc app, nhận snapshot kèm UI element ID; sau đó click, type, set-value, perform-action, scroll, hotkey… nhắm thẳng vào element thay vì bấm mò.
🧩 CLI và MCP dùng chung một ngôn ngữ
Peekaboo 3.0 dọn lại JSON output giữa CLI và MCP. Đây là chi tiết nghe khô, nhưng cực quan trọng nếu muốn agent chạy ổn trong workflow thật. Output càng nhất quán, agent càng ít hallucinate trạng thái UI.
README hiện mô tả Peekaboo như một macOS CLI kèm MCP server cho Codex, Claude Code và Cursor. Nghĩa là cùng một bộ tool có thể dùng trực tiếp trong terminal, hoặc gắn vào coding agent để nó tự thao tác app trên máy.
🛠️ Bộ lệnh giờ không chỉ có “nhìn”
Danh sách command đã khá đầy đủ cho một vòng automation desktop:
- see / image: chụp và annotate UI, OCR, snapshot, element IDs.
- click / type / press / hotkey: thao tác cơ bản với UI.
- set-value / perform-action: gọi trực tiếp accessibility value hoặc action khi có thể.
- window / app / space: focus, launch, resize, move window, đổi macOS Space.
- menu / menubar / dock / dialog: xử lý phần khó chịu nhất của automation desktop: menu, status bar, Dock và system dialog.
- agent: chạy multi-step automation bằng ngôn ngữ tự nhiên.
⚡ Vì sao bản này đáng chú ý?
Computer use thường chết ở ba điểm: nhìn không đủ đúng, bấm không đủ ổn, và state trả về quá lộn xộn để agent tiếp tục. Peekaboo 3.0 đánh thẳng vào cả ba: unified screenshot + UI detection, action-first interaction, và JSON sạch hơn.
Changelog 3.0 cũng nhấn mạnh snapshot tốt hơn, target-point diagnostics, tự refresh stale snapshots một lần, structured timings, OCR, annotation output và shared desktop observation pipeline. Đây là mớ plumbing nhàm chán nhưng quyết định agent có chạy được ngoài demo hay không.
💬 Reply đáng để ý
Khi có người hỏi “khác gì Codex App Computer Use?”, Peter trả lời ngắn: “This works everywhere in the world.” Một người khác hỏi có phải tech này sẽ vào Codex không, ông đáp: “Already is.”
Có người hỏi Windows thì sao; câu trả lời là “not planned”, dù README có nhắc cộng đồng đã có một rewrite Windows-first tên PeekabooWin. Còn câu so với Playwright thì khá chuẩn: giống kiểu tự động hóa, nhưng cho Mac của bạn, không phải browser của bạn.
🧠 Chốt một câu
Peekaboo 3.0 không chỉ là tool chụp màn hình. Nó là một lớp hạ tầng để agent thao tác desktop macOS có kiểm soát hơn: nhìn UI, gắn ID cho element, hành động qua accessibility khi được, fallback khi cần, và xuất trạng thái đủ sạch để bước tiếp theo không mù.
Nếu coding agent là “não”, thì Peekaboo là mắt và tay trên Mac. Khi model đã đủ tốt, phần còn thiếu không phải thêm một chatbot nữa, mà là một runtime đủ chắc để nó đụng vào phần mềm thật mà không phá tung mọi thứ.