工具软件

Insanely Fast Whisper:98秒的时间内转录5小时

基于Whisper-large-v3语音模型的快速转录,使用Transformers、Optimum 和 flash-attn 引擎,能在不到98秒的时间内转录5小时的音频,在Google Colab T4 GPU上...

Umi-OCR V2 文字识别工具 – 开源、免费、实用的离线OCR软件

全新升级:V2版本重构了绝大部分代码,提供焕然一新的界面和更强大的功能。 免费:本项目所有代码开源,完全免费。 方便:解压即用,离线运行,无需网络...

html-to-image:将 HTML 网页转化成图片的库

该项目可以将任意 DOM 节点,转换成 SVG、PNG、JPEG 等多种格式的图像,可直接在 React 和原生 JavaScript 代码中使用。 安装 npm install --save html-to-...

Distil-Whisper:比Whisper快6倍,体积小50%的语音识别模型

Distil-Whisper:比Whisper快6倍,体积小50%的语音识别模型 该模型是由Hugging Face团队开发,它在Whisper核心功能的基础上进行了优化和简化,体积缩小了50%...

阿里云研发大规模音频语言模型Qwen-Audio

Qwen-Audio(Qwen Large Audio Language Model)是阿里云提出的大模型系列Qwen(简称统一前文)的多模态版本。Qwen-Audio 接受多种音频(人类语音、自然声音...

Story-to-Motion:根据文本故事内容生成连续的角色的动画

该项目商汤科技研究院开发,能够处理复杂的文本描述,并将这些描述转换成具体的动作和位置信息。 它不仅能生成单一动作,还能连续地生成一系列动作,创造出...

Windrecorder:连续记录屏幕内容,通过OCR技术识别记录内容

这是一款可以持续记录屏幕画面、通过关键词搜索等方式随时找回相关记忆的工具。 它的所有能力(录制、识别处理、存储回溯等)完全运行在本地,无需联网,不上...

开源代码大模型DeepSeek Coder

DeepSeek Coder 由一系列代码语言模型组成,每个模型都在 2T 令牌上从头开始训练,其中 87% 是英文和中文的代码,13% 是自然语言。我们提供各种尺寸的代码模...

MuseScore: 一款开源免费的乐谱软件

这是一款用 C++ 编写的创建和编辑乐谱的桌面工具,它拥有精美的界面、中文语言和丰富的功能,重点是免费畅用无限制。支持为包括钢琴、吉他等 500 多种乐器编...

一个开源的实时人体姿态估计模型YOLO-NAS Pose

它的主要功能是识别图片和视频中人的姿势。例如你有一段视频,里面有人在跳舞或者做运动,它能够识别出这个人的每个关节在哪里,比如手肘、膝盖等,然后画出...
1 28 29 30 31 32 339