Taxy 使用 GPT-4 来控制您的浏览器并代表您执行重复操作。目前它允许您定义临时指令。将来它还将支持保存和计划的工作流程。
Taxy 目前的状态是研究预览。许多工作流程失败或使代理感到困惑。如果您想破解 Taxy 以使其变得更好或在您自己的工作流程中测试它,请按照以下说明在本地运行它。如果您想知道它何时可供更广泛使用,您可以注册我们的候补名单。
Taxy 是完全开源的,我们不会向我们的服务器发送任何页面内容或指令。
安装和运行
目前此扩展只能通过此 GitHub 存储库获得。在添加功能以提高其对非技术受众的可用性后,我们将在 Chrome Web Store 上发布它。要在您的计算机上本地构建并安装扩展,请按照以下说明进行操作。
安装扩展
- 确保您的 Node.js >= 16。
- 克隆这个存储库
- 运行 yarn 安装依赖项
- 运行 yarn start 来构建包
- 通过执行以下操作在 Chrome 上加载您的扩展程序:
- 导航至 chrome://extensions/
- 切换 Developer mode
- 点击 Load unpacked extension
- 选择 yarn start 生成的 build 文件夹
在浏览器中运行
- 安装后,浏览器插件将以两种形式提供:
- 作为弹出窗口。在 Mac 上按 cmd+shift+y 或在 Windows/Linux 上按 ctrl+shift+y 激活,或者单击浏览器中的扩展徽标。
- 作为开发工具面板。首先打开浏览器的开发人员工具,然后导航到 Taxy AI 面板来激活。
- 您需要做的下一件事是创建或访问现有的 OpenAI API 密钥并将其粘贴到提供的框中。该密钥将安全地存储在您的浏览器中,并且不会上传给第三方。
- 最后,导航到您希望 Taxy 执行操作的网页(例如 OpenAI Playground)并开始实验!
它是如何运作的 – 行动周期
- Taxy 在网页上运行内容脚本来提取整个 DOM。它将接收到的 html 简化为仅包含交互式或语义上重要的元素,例如按钮或文本。它为每个交互元素分配一个 id。然后,它“模板化” DOM 以进一步减少令牌计数。
- Taxy 将简化的 DOM 以及用户的指令发送到选定的 LLM(当前支持 GPT-3.5 和 GPT-4)。Taxy 告知 LLM 与网页交互的两种方法:
- click(id) – 单击与该 id 关联的交互元素
- setValue(id, text) – 关注文本输入,清除其现有文本,然后在该输入中键入指定文本
- 当 Taxy 从 LLM 获得完成信息时,它会解析操作的响应。如果满足以下任一条件,则操作周期将在此阶段结束:
- 法学硕士认为任务已经完成。LLM 可以返回一个指示,而不是返回一个操作,表明它根据 DOM 的状态和到目前为止的操作历史记录认为用户的任务已完成。
- 用户停止了任务的执行。用户可以随时停止 LLM 的执行,无需等待其完成。
- 有一个错误。Taxy 的安全第一架构使其在出现意外响应时自动停止执行。
- Taxy 使用 chrome.debugger API 执行操作。
- 该操作将添加到操作历史记录中,Taxy 循环回到步骤 1 并解析更新的 DOM。所有之前的操作都会作为提示的一部分发送给法学硕士,用于确定下一步操作。Taxy 目前可以为单个任务完成最多 50 个操作,但实际上大多数任务需要的操作少于 10 个。
项目链接
https://github.com/i207M/taxy-ai-backup
© 版权声明
文章版权归作者所有,未经允许请勿转载。