Copied


Together AI 宣称 Parakeet v3 实现最快语音转文本技术

realtime news   May 29, 2026 22:58 1 Min Read


Together AI 宣布推出其自称为全球最快的语音转文本(ASR)技术栈,可在不到 10 秒内转录 20 小时的语音。这一突破依托于 NVIDIA 的 Parakeet-TDT 0.6B v3 和 OpenAI 的 Whisper Large v3,这两者均针对低延迟和高吞吐量应用进行了优化。这一发展可能会显著推进实时语音 AI 系统,这是公司在扩大其基础设施时的一个关键关注领域。

Together AI 的成就核心在于将 ASR 视为一个全路径系统问题,而不仅仅专注于 GPU 推理。这种整体方法解决了在预处理、GPU 执行、内存管理和网络方面的瓶颈。例如,通过 TensorRT 配置文件调优、条件 CUDA 图形以及零拷贝数据路径等创新,大幅降低了技术栈的延迟。

一个突出的优化是 Parakeet v3 的解码器循环。通过将条件逻辑从 CPU 移动到 GPU,Together AI 消除了昂贵的同步延迟,从而实现了解码速度的 2-3 倍提升。同样,使用共享内存和事件驱动的 I/O 进行流式转录最大程度地减少了开销,确保了实时应用的高吞吐量和低抖动。

Parakeet v3 是一个经过 170 万小时音频训练的多语言 ASR 模型,相比其前身有了重大飞跃。它现在支持 25 种欧洲语言,包括自动语言检测功能,并保留了其在英语转录方面的行业领先性能。Together AI 的平台还整合了 Whisper Large v3 用于生产规模的工作负载,为开发者构建语音驱动的应用程序创造了一个强大的生态系统。

满足市场需求

此次发布使 Together AI 成为 ASR 市场中一个强有力的竞争者,尤其是在实时和流式应用场景中。与传统依赖孤立管道的 ASR 系统不同,Together AI 提供了一个模块化技术栈,使语音转文本(STT)、自然语言理解(NLU)和文本转语音(TTS)能够在同一基础设施上协同运行。这减少了延迟,同时允许开发者检查和操作中间输出,这是实时语音代理的一个关键差异化因素。

最近的合作伙伴关系突显了公司构建开放、可组合生态系统的战略。2026 年 4 月,Deepgram 将其 ASR 模型直接集成到 Together AI 的平台上,使开发者能够将专用语音模型与 Together AI 的基础设施灵活组合和匹配。随着 AI 工作负载向结合语音、语言和多模态能力的统一架构转变,这种灵活性变得越来越重要。

行业与投资者影响

Together AI 的进步正值公司据报道寻求以 75 亿美元估值融资之际(2026 年 3 月的报告)。投资者的兴趣反映了对高性能推理基础设施日益增长的需求,尤其是在语音和多模态 AI 系统方面。凭借已支持超过 450,000 名开发者和 200 个开源模型的平台,Together AI 有望充分利用这一势头。

虽然像 Deepgram 和 Google 这样的竞争对手仍在 ASR 市场的某些领域占据主导地位,但 Together AI 对开放模型托管和实时性能的关注可能在市场中开辟出显著的份额。NVIDIA 的 ASR 技术集成进一步巩固了其技术可信度,特别是在 NVIDIA 在 AI 硬件和软件优化方面的领导地位下。

随着语音界面在消费和企业应用中变得更加重要,像 Together AI 这样的低延迟和可扩展 ASR 解决方案可能会重新定义用户期望。开发者、投资者和企业都应密切关注公司在继续完善其技术栈和扩大生态系统时的动态。


Read More