银杏AI - 银杏AI (Page 2)

开源工具

ScriptViz：基于大型电影数据库的辅助剧本创作的可视化工具

ScriptViz 由斯坦福大学 Anyi Rao 等人发布，用以辅助编剧剧本创作过程。具体来说，用户通过 ScriptViz 以下操作： 1. 输入剧本： * 用户在界面的文本框（A）中输入剧本。 2. 添加属性控制： * 用户在属性控制（B）组件中添加SQL代码，以指定剧本中固定和可变的视觉属性。这些属性可能包括场景设置、角色特征、时间等。 3. 提交查询： * 用户点击提交按钮（C），ScriptViz 将根据用户输入的剧本和属性检索相应的电影场景。 4. 获取可视化输出： * ScriptViz 提供可视化输出（D），包括不同电影场景的图像，每个场景包含一个建立镜头的概览和剧本中每行对话对应的图像。 5. 迭代剧本： * 编剧可以根据S

AI快报

Kohya 发布混元视频模型 Lora 训练脚本

据X用户 TTPlanet 报道，该脚本将需要 16GB 显存，仅使用图像输入来训练视频 Lora。 @Kohya released the training code for Hunyuan Video. It will allow 16GB VRAM Graphic card to train video Lora with image input only. Due to there is no GUI, and with a lot of job to setup. I have made a package

AI资讯

GPT 4o-mini 参数量可能只有8B，微软论文透露GPT4系列参数量

自GPT4以来，OpenAI不再公布GPT系列模型的参数量，然而这并不能阻止人们对这一系列模型技术细节的好奇。微软发表在arxiv中的一篇论文MEDEC: A BENCHMARK FOR MEDICAL ERROR DETECTION AND CORRECTION IN CLINICAL NOTES中透露了OpenAI闭源模型的参数量。其中包括几个不同版本的GPT-4模型： GPT o1-preview约300B参数，GPT-4o约200B，GPT-4o-mini约8B 另外还有o1 mini 和 o1 preview 版本，分别拥有约100B和300B参数。不过该论文也提到多个LLMs（例如GPT、Gemini 2.0 Flash）的具体参数数量尚未公开。大多数参数的数量都是估计的，以便为理解模型的性能提供更多背景。也就是说这个数据可能并不真实。不过就编者的经验和这些模型的具体表现来看，这个数据较为可信。

显卡市场

2025年一月显卡AI算力排行榜

以下是2025年一月nvidia显卡AI算力数据，数据采集于英伟达官网。 40 系显卡型号 Shader Core (TFLOPS) Tensor Core (AI TOPS) RTX 4090 83 1321 RTX 4090 D 74 1177 RTX 4080 SUPER 52 836 RTX 4080 49 780 RTX 4070 Ti SUPER 44 706 RTX 4070 Ti 40 641 RTX 4070 SUPER 36 568 RTX 4070 29 466

开源工具

ExtractThinker：一款灵活的开源文档智能工具，利用大语言模型 ( LLMs ) 从文档中提取结构化数据。

ExtractThinker 是一款灵活的文档智能工具，它利用大型语言模型 ( LLMs ) 从文档中提取结构化数据并进行分类，其功能类似于 ORM，可实现无缝文档处理工作流程。该工具支持PDF、图片、表格等多种格式，可以自定义提取规则、自动分类、自动判断文件类型，并根据不同的类型提取不同的信息。支持异步处理大文档，批量处理多个文档。关键特性 * 灵活的文档加载器：支持多种文档加载方式，包括Tesseract OCR、Azure表单识别器、AWS Textract、Google文档AI等。 * 可定制的提取：使用Pydantic模型定义自定义提取，以实现精确的数据抽取。 * 高级分类：使用自定义分类和策略对文档或文档部分进行分类。 * 异步处理：利用异步处理高效管理大型文档。 * 多格式支持：无缝处理各种文档格式，如PDF、图像、电子表格等。 * ORM风格交互：以类似ORM的方式与文档和语言模型（LLM）交互，以便直观开发。 * 分割策略：实施惰性或急切的分割策略，以逐页或整体处理文档。 * 与LLM集成：轻松集成不同的语言模型提供商，如OpenAI、

开源工具

Story-Adapter：开源的长故事可视化工具

Story-Adapter 是 Github 上的开源项目，能够根据故事提供一致性的可视化。作者在Story-Adapter项目页面上这样介绍：故事可视化，即基于叙述生成连贯图像的任务，随着文本到图像模型的出现，尤其是扩散模型，已经取得了显著的进步。然而，在长时间的故事可视化中（例如，多达100帧），保持语义的一致性、生成高质量的细粒度互动以及确保计算上的可行性仍然是具有挑战性的。在这项工作中，我们提出了一种无需训练且计算效率高的框架，称为Story-Adapter，以增强长故事的生成能力。具体来说，我们提出了一个迭代范式来优化每个生成的图像，该范式既利用了文本提示也利用了前一次迭代中生成的所有图像。我们框架的核心是一个无需训练的全局参考交叉注意力模块，它汇总了前一次迭代中生成的所有图像，以在整个故事中保持语义一致性，同时通过全局嵌入最小化计算成本。这个迭代过程通过反复融入文本约束逐步优化图像生成，从而实现更精确和细粒度的互动。广泛的实验验证了Story-Adapter在改善语义一致性和生成能力方面，特别是在长时间故事场景中的优越性，对于细粒度互动尤为如此。从

开源工具

Nvidia 计划开源Run:ai，以帮助企业管理GPU调度

Nvidia 完成了对 Run:ai 的收购，这是一家软件公司，它使得客户更容易编排用于人工智能的 GPU 云服务。Nvidia 表示将会开源该软件。虽然收购价格未公开，但据报道当 Nvidia 在四月首次宣布其有意完成这笔交易时，价格被定为7亿美元。Run:ai 在其网站上发布了这一消息，并同样表示 Nvidia 计划将软件开源。Run:ai 的软件能够远程调度 Nvidia GPU 资源以在云端运行 AI 应用。两家公司均未解释为何要将 Run:ai 平台开源，不过原因可能不难理解。由于 Nvidia 成为了全球第一大 AI 芯片制造商，其股价飙升至3.56万亿美元，成为世界上最有价值的公司。这对 Nvidia 来说是好事，但这也让其难以进行收购，因为会受到反垄断审查的影响。 Nvidia 的发言人仅在声明中表示，

See all