Warning: Array to string conversion in /www/wwwroot/gpts.yundongfang.com/wp-content/themes/onenav/inc/wp-optimization.php on line 113

Warning: Trying to access array offset on value of type bool in /www/wwwroot/gpts.yundongfang.com/wp-content/themes/onenav/inc/clipimage.php on line 29
GPT-4 是多模态的，我们可以合理地预测 GPT-4 能够做什么-GPTs大全汇总

GPT-4 是多模态的，我们可以合理地预测 GPT-4 能够做什么

工具软件3年前 (2023)发布 gpts

193 0 0

点击进入：ChatGPT工具插件导航大全

*如果* GPT-4 是多模态的，我们可以合理地预测 GPT-4 *可能*能够做什么，鉴于微软之前的工作 Kosmos-1：

– 视觉智商测试：是的，人类参加的测试！
– 无 OCR 阅读理解：输入屏幕截图、扫描文档、路牌或任何包含文本的像素。直接对内容进行推理，无需显式 OCR。这对于解锁多媒体网页上的 AI 驱动的应用程序或来自现实世界摄像头的“野外文本”非常有用。
– 多模式聊天：就图片进行对话。您甚至可以在中间提供“后续”图像。
– 广泛的视觉理解能力，如字幕、视觉问答、物体检测、场景布局、常识推理等。
– 音频和语音识别（？？）：在 Kosmos-1 论文中没有提到，但 Whisper 已经是一个 OpenAI API，应该很容易集成。 GPT-4 是多模态的，我们可以合理地预测 GPT-4 能够做什么

注意：这些预测是基于据称微软德国首席技术官安德烈亚斯布劳恩所说的话。它们可能准确也可能不准确（这就是我称之为“预测”的原因）。但 Kosmos-1 非常真实且坚如磐石。它提供了 GPT-4 或微软接下来将提供的任何人工智能服务的一瞥。我很难相信 Kosmos-1 会留在实验室而不成为产品。

无论如何，请为多模式 API 做好准备——它们迟早会出现！

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

如何使用 TENORSHARE 4UKEY 解锁你的 IPAD

gpts

276 0

Bing Chat 现在已经学会了创建 ASCII 图稿，这很有趣

gpts

214 0

如何在 Linux 上解压缩或解压缩文件

gpts

238 0

谷歌的生成式 AI 学习课程

gpts

236 0

使用 ChatGPT 和 Zapier 自动创建 Shopify 产品

gpts

215 0

Spotify HiFi 无限期延迟，因为公司表示没有“时间细节可以分享”

gpts

219 0