Taxy 使用 GPT-4 来控制您的浏览器并代表您执行重复操作

工具软件1年前 (2023)发布 gpts
62 0

Taxy 使用 GPT-4 来控制您的浏览器并代表您执行重复操作。目前它允许您定义临时指令。将来它还将支持保存和计划的工作流程。

Taxy 目前的状态是研究预览。许多工作流程失败或使代理感到困惑。如果您想破解 Taxy 以使其变得更好或在您自己的工作流程中测试它,请按照以下说明在本地运行它。如果您想知道它何时可供更广泛使用,您可以注册我们的候补名单。

Taxy 是完全开源的,我们不会向我们的服务器发送任何页面内容或指令。

安装和运行

目前此扩展只能通过此 GitHub 存储库获得。在添加功能以提高其对非技术受众的可用性后,我们将在 Chrome Web Store 上发布它。要在您的计算机上本地构建并安装扩展,请按照以下说明进行操作

安装扩展

  1. 确保您的 Node.js >= 16。
  2. 克隆这个存储库
  3. 运行 yarn 安装依赖项
  4. 运行 yarn start 来构建包
  5. 通过执行以下操作在 Chrome 上加载您的扩展程序:
    1. 导航至 chrome://extensions/
    2. 切换 Developer mode
    3. 点击 Load unpacked extension
    4. 选择 yarn start 生成的 build 文件夹

在浏览器中运行

  1. 安装后,浏览器插件将以两种形式提供:
    1. 作为弹出窗口。在 Mac 上按 cmd+shift+y 或在 Windows/Linux 上按 ctrl+shift+y 激活,或者单击浏览器中的扩展徽标。
    2. 作为开发工具面板。首先打开浏览器的开发人员工具,然后导航到 Taxy AI 面板来激活。
  2. 您需要做的下一件事是创建或访问现有的 OpenAI API 密钥并将其粘贴到提供的框中。该密钥将安全地存储在您的浏览器中,并且不会上传给第三方。
  3. 最后,导航到您希望 Taxy 执行操作的网页(例如 OpenAI Playground)并开始实验!

它是如何运作的 – 行动周期

  1. Taxy 在网页上运行内容脚本来提取整个 DOM。它将接收到的 html 简化为仅包含交互式或语义上重要的元素,例如按钮或文本。它为每个交互元素分配一个 id。然后,它“模板化” DOM 以进一步减少令牌计数。
  2. Taxy 将简化的 DOM 以及用户的指令发送到选定的 LLM(当前支持 GPT-3.5 和 GPT-4)。Taxy 告知 LLM 与网页交互的两种方法:
    1. click(id) – 单击与该 id 关联的交互元素
    2. setValue(id, text) – 关注文本输入,清除其现有文本,然后在该输入中键入指定文本
  3. 当 Taxy 从 LLM 获得完成信息时,它会解析操作的响应。如果满足以下任一条件,则操作周期将在此阶段结束:
    1. 法学硕士认为任务已经完成。LLM 可以返回一个指示,而不是返回一个操作,表明它根据 DOM 的状态和到目前为止的操作历史记录认为用户的任务已完成。
    2. 用户停止了任务的执行。用户可以随时停止 LLM 的执行,无需等待其完成。
    3. 有一个错误。Taxy 的安全第一架构使其在出现意外响应时自动停止执行。
  4. Taxy 使用 chrome.debugger API 执行操作。
  5. 该操作将添加到操作历史记录中,Taxy 循环回到步骤 1 并解析更新的 DOM。所有之前的操作都会作为提示的一部分发送给法学硕士,用于确定下一步操作。Taxy 目前可以为单个任务完成最多 50 个操作,但实际上大多数任务需要的操作少于 10 个。

项目链接

https://github.com/i207M/taxy-ai-backup

© 版权声明

相关文章