银杏AI

银杏AI
ExtractThinker:一款灵活的开源文档智能工具,利用大语言模型 ( LLMs ) 从文档中提取结构化数据。

开源工具

ExtractThinker:一款灵活的开源文档智能工具,利用大语言模型 ( LLMs ) 从文档中提取结构化数据。

ExtractThinker 是一款灵活的文档智能工具,它利用大型语言模型 ( LLMs ) 从文档中提取结构化数据并进行分类,其功能类似于 ORM,可实现无缝文档处理工作流程。 该工具支持PDF、图片、表格等多种格式,可以自定义提取规则、自动分类、自动判断文件类型,并根据不同的类型提取不同的信息。支持异步处理大文档,批量处理多个文档。 关键特性 * 灵活的文档加载器:支持多种文档加载方式,包括Tesseract OCR、Azure表单识别器、AWS Textract、Google文档AI等。 * 可定制的提取:使用Pydantic模型定义自定义提取,以实现精确的数据抽取。 * 高级分类:使用自定义分类和策略对文档或文档部分进行分类。 * 异步处理:利用异步处理高效管理大型文档。 * 多格式支持:无缝处理各种文档格式,如PDF、图像、电子表格等。 * ORM风格交互:以类似ORM的方式与文档和语言模型(LLM)交互,以便直观开发。 * 分割策略:实施惰性或急切的分割策略,以逐页或整体处理文档。 * 与LLM集成:轻松集成不同的语言模型提供商,如OpenAI、

Story-Adapter:开源的长故事可视化工具

开源工具

Story-Adapter:开源的长故事可视化工具

Story-Adapter 是 Github 上的开源项目,能够根据故事提供一致性的可视化。 作者在Story-Adapter项目页面上这样介绍: 故事可视化,即基于叙述生成连贯图像的任务,随着文本到图像模型的出现,尤其是扩散模型,已经取得了显著的进步。然而,在长时间的故事可视化中(例如,多达100帧),保持语义的一致性、生成高质量的细粒度互动以及确保计算上的可行性仍然是具有挑战性的。在这项工作中,我们提出了一种无需训练且计算效率高的框架,称为Story-Adapter,以增强长故事的生成能力。具体来说,我们提出了一个迭代范式来优化每个生成的图像,该范式既利用了文本提示也利用了前一次迭代中生成的所有图像。我们框架的核心是一个无需训练的全局参考交叉注意力模块,它汇总了前一次迭代中生成的所有图像,以在整个故事中保持语义一致性,同时通过全局嵌入最小化计算成本。这个迭代过程通过反复融入文本约束逐步优化图像生成,从而实现更精确和细粒度的互动。广泛的实验验证了Story-Adapter在改善语义一致性和生成能力方面,特别是在长时间故事场景中的优越性,对于细粒度互动尤为如此。 从

Nvidia 计划开源Run:ai,以帮助企业管理GPU调度

开源工具

Nvidia 计划开源Run:ai,以帮助企业管理GPU调度

Nvidia 完成了对 Run:ai 的收购,这是一家软件公司,它使得客户更容易编排用于人工智能的 GPU 云服务。Nvidia 表示将会开源该软件。 虽然收购价格未公开,但据报道当 Nvidia 在四月首次宣布其有意完成这笔交易时,价格被定为7亿美元。Run:ai 在其网站上发布了这一消息,并同样表示 Nvidia 计划将软件开源。Run:ai 的软件能够远程调度 Nvidia GPU 资源以在云端运行 AI 应用。 两家公司均未解释为何要将 Run:ai 平台开源,不过原因可能不难理解。由于 Nvidia 成为了全球第一大 AI 芯片制造商,其股价飙升至3.56万亿美元,成为世界上最有价值的公司。这对 Nvidia 来说是好事,但这也让其难以进行收购,因为会受到反垄断审查的影响。 Nvidia 的发言人仅在声明中表示,