Story-Adapter:开源的长故事可视化工具

Story-Adapter:开源的长故事可视化工具

Story-Adapter 是 Github 上的开源项目,能够根据故事提供一致性的可视化。

作者在Story-Adapter项目页面上这样介绍:

故事可视化,即基于叙述生成连贯图像的任务,随着文本到图像模型的出现,尤其是扩散模型,已经取得了显著的进步。然而,在长时间的故事可视化中(例如,多达100帧),保持语义的一致性、生成高质量的细粒度互动以及确保计算上的可行性仍然是具有挑战性的。在这项工作中,我们提出了一种无需训练且计算效率高的框架,称为Story-Adapter,以增强长故事的生成能力。具体来说,我们提出了一个迭代范式来优化每个生成的图像,该范式既利用了文本提示也利用了前一次迭代中生成的所有图像。我们框架的核心是一个无需训练的全局参考交叉注意力模块,它汇总了前一次迭代中生成的所有图像,以在整个故事中保持语义一致性,同时通过全局嵌入最小化计算成本。这个迭代过程通过反复融入文本约束逐步优化图像生成,从而实现更精确和细粒度的互动。广泛的实验验证了Story-Adapter在改善语义一致性和生成能力方面,特别是在长时间故事场景中的优越性,对于细粒度互动尤为如此。

从项目页面给出的例子来看,该项目能够为故事生成非常精美且一致的漫画。

Story-Adapter项目页面展示的例子

Read more

《黑天鹅》作者:英伟达还会跌2-3倍!

快科技2月3日消息,《黑天鹅》一书的作者、著名风险分析师纳西姆·塔勒布(Nassim Taleb)认为,英伟达股价暴跌或仅是更大灾难的开端。 近日,塔勒布在迈阿密对冲基金周上向媒体表示,英伟达接下来的跌幅可能会是1月27日周一(17%下跌)的两到三倍。 他表示,这是人们适应现实的开始,并补充说,英伟达的股票表现不再完美无缺,而且已经开始出现裂痕。 抛售发生之际,投资者担心美国顶级科技股可能被高估,尤其是在人工智能领域。 勒布将这种情况与1999 年的互联网泡沫进行了比较,称早期的互联网投资者押注AltaVista(当时全球最知名的搜索引擎公司)——只是谷歌后来脱颖而出并占据主导地位。 他指出,市场现在已经意识到英伟达并非绝对永远上涨,之前被忽视的风险逐渐暴露。随着AI开发成本的降低,企业可能会减少对高价芯片的依赖,或转向定制化解决方案,这将进一步冲击英伟达的营收预期。投资者对英伟达乃至西方科技股的信心动摇,可能引发更大规模的抛售。 今年1月,中国人工智能初创企业深度求索公司发布最新开源模型R1,打破人工智能开发“越大越好”迷思。 据美国市场观察网站报道,英伟达公司市值在过

最快的N卡和最快的A卡跑DeepSeek谁更快:RTX 5090比RX 7900 XTX快一倍

快科技2月2日消息,最快的N卡和最快的A卡跑DeepSeek谁更快?最新消息显示,RTX 5090在DeepSeek R上的推理性能比AMD的 RX 7900 XTX快得多,性能至少翻了一倍。 测试显示,在多个DeepSeek R1型号中,RTX 5090明显领先于RX 7900 XTX,也比RTX 4090快了不少。 在Distill Qwen 7b和Distill Llama 8b模型中,该RTX 5090每秒可运行200个Tokens,几乎是RX 7900 XTX 的两倍。 1月31日,NVIDIA宣布,NIM已经可以使用DeepSeek-R1。NIM,即NVIDIA Inference Microservices,是一种云原生微服务技术,可简化生成式AI模型在云端、数据中心及GPU加速工作站上的部署流程 NVIDIA官网发布文章指出,DeepSeek-R1是最先进的推理开放模型,会对查询进行多次推理处理,使用连锁思维、共识和搜寻方法来生成最佳答案。 文章写道,为了帮助开发者安全地试验这些功能,并构建自己的专门代理,DeepSeek-R1模型现已作为NVIDIA NIM

SVFR:通用视频人脸修复的统一框架

SVFR 是一种用于人脸视频修复的统一框架,支持BFR、着色、修复等任务以及它们在一个内聚系统中的组合。 SVPR 由厦门大学和腾讯优图实验室推出,能够实现很好的视频人脸修复效果。 我们截取了一些使用SVPR的例子。就例子来看,SVFR还能通过绘制蒙版去除视频中的水印,非常适合用来修复老旧的黑白色彩、低分辨率或是包含水印的视频。