返回顶部
AiGoe.com 首页 AI快讯

谷歌DeepMind开源GenAI Processors:一键构建实时AI工作流

AI快讯 2025-7-11 20:29 145人浏览 0人回复
摘要

谷歌DeepMind近日宣布开源全新Python库“GenAI Processors”,为开发者提供了一个轻量级、高效的工具,用于构建异步、可组合的生成式AI工作流。这一开源库旨在简化复杂多模态AI应用的开发过程,支持实时处理音频、视 ...

 谷歌DeepMind近日宣布开源全新Python库“GenAI Processors”,为开发者提供了一个轻量级、高效的工具,用于构建异步、可组合的生成式AI工作流。这一开源库旨在简化复杂多模态AI应用的开发过程,支持实时处理音频、视频和文本等多模态数据,显著提升了基于Gemini API的应用程序开发效率。

GenAI Processors功能亮点:模块化与异步处理

GenAI Processors的核心是一个统一的“Processor”接口,开发者可通过该接口将复杂AI工作流分解为模块化的处理单元。这些单元能够处理从输入预处理到模型调用再到输出生成的全流程,支持音频片段、文本转录、图像帧等多模态数据的异步流处理。AIbase编辑部测试发现,该库通过Python的asyncio机制优化了并发执行,显著降低了I/O密集型任务的延迟,使实时应用如语音助手或视频处理工具的开发更加高效。

该库特别针对谷歌Gemini API进行了优化,内置了GenaiModel和LiveProcessor两种处理器,分别支持基于回合的交互和实时流处理。开发者只需几行代码即可构建支持麦克风、摄像头输入的实时AI代理。例如,结合视频和音频输入的处理流程,GenAI Processors能够快速构建实时翻译或智能助手类应用,展现出强大的灵活性和可扩展性。

技术内核:流式API与并发优化

GenAI Processors以流式API为核心,将所有输入和输出视为ProcessorParts的异步数据流,每个数据单元(如音频片段或图像帧)均附带元数据。这种设计不仅保证了数据流的有序性,还通过内置的并发优化机制最大程度减少了“首token时间”(Time To First Token)。AIbase了解到,该库的模块化设计允许开发者将不同处理单元无缝连接,构建复杂的工作流,同时保持代码的可复用性和可维护性。

目前,GenAI Processors仅支持Python,但其核心目录包含了基础处理器,社区开发者可通过contrib目录贡献专用功能。谷歌DeepMind表示,未来将通过社区协作进一步扩展库的功能,覆盖更多场景和编程语言。

行业影响:加速生成式AI应用开发

GenAI Processors的开源发布为开发者提供了构建高性能Gemini应用的便捷工具,尤其在实时多模态处理场景中表现出色。与传统的生成式AI开发框架相比,该库通过模块化和异步处理显著降低了开发复杂性,特别适合需要低延迟的实时应用,如智能客服、实时翻译和多模态交互代理。AIbase分析认为,GenAI Processors的开源将进一步推动生成式AI生态的开放性,吸引更多开发者参与创新。

尽管目前该库尚处于早期阶段,功能覆盖面有限,但其开放的GitHub仓库(https://github.com/google-gemini/genai-processors)为社区贡献提供了广阔空间。AIbase注意到,部分开发者反馈希望看到更多语言支持和预训练模型集成,谷歌DeepMind已表示将持续迭代,未来可能引入对其他主流AI模型的支持。

本文暂无评论,快来抢沙发!

推荐阅读
热门问答
AiGoe.com 成立于2014年8月,是目前国内优秀的开源技术社区,拥有超过300万会员,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2001-2020, Tencent Cloud. |
  • | 营业执照 | |星点互联科技有限公司|鲁ICP备19001237号-21|鲁公网安备 4236902302000354号