GPT 4o-mini 参数量可能只有8B,微软论文透露GPT4系列参数量

GPT 4o-mini 参数量可能只有8B,微软论文透露GPT4系列参数量
Photo by ilgmyzin / Unsplash

自GPT4以来,OpenAI不再公布GPT系列模型的参数量,然而这并不能阻止人们对这一系列模型技术细节的好奇。

微软发表在arxiv中的一篇论文MEDEC: A BENCHMARK FOR MEDICAL ERROR DETECTION AND CORRECTION IN CLINICAL NOTES中透露了OpenAI闭源模型的参数量。其中包括几个不同版本的GPT-4模型:

GPT o1-preview约300B参数,GPT-4o约200B,GPT-4o-mini约8B


另外还有o1 mini 和 o1 preview 版本,分别拥有约100B和300B参数。

不过该论文也提到多个LLMs(例如GPT、Gemini 2.0 Flash)的具体参数数量尚未公开。大多数参数的数量都是估计的,以便为理解模型的性能提供更多背景。也就是说这个数据可能并不真实。不过就编者的经验和这些模型的具体表现来看,这个数据较为可信。

Read more

《黑天鹅》作者:英伟达还会跌2-3倍!

快科技2月3日消息,《黑天鹅》一书的作者、著名风险分析师纳西姆·塔勒布(Nassim Taleb)认为,英伟达股价暴跌或仅是更大灾难的开端。 近日,塔勒布在迈阿密对冲基金周上向媒体表示,英伟达接下来的跌幅可能会是1月27日周一(17%下跌)的两到三倍。 他表示,这是人们适应现实的开始,并补充说,英伟达的股票表现不再完美无缺,而且已经开始出现裂痕。 抛售发生之际,投资者担心美国顶级科技股可能被高估,尤其是在人工智能领域。 勒布将这种情况与1999 年的互联网泡沫进行了比较,称早期的互联网投资者押注AltaVista(当时全球最知名的搜索引擎公司)——只是谷歌后来脱颖而出并占据主导地位。 他指出,市场现在已经意识到英伟达并非绝对永远上涨,之前被忽视的风险逐渐暴露。随着AI开发成本的降低,企业可能会减少对高价芯片的依赖,或转向定制化解决方案,这将进一步冲击英伟达的营收预期。投资者对英伟达乃至西方科技股的信心动摇,可能引发更大规模的抛售。 今年1月,中国人工智能初创企业深度求索公司发布最新开源模型R1,打破人工智能开发“越大越好”迷思。 据美国市场观察网站报道,英伟达公司市值在过

最快的N卡和最快的A卡跑DeepSeek谁更快:RTX 5090比RX 7900 XTX快一倍

快科技2月2日消息,最快的N卡和最快的A卡跑DeepSeek谁更快?最新消息显示,RTX 5090在DeepSeek R上的推理性能比AMD的 RX 7900 XTX快得多,性能至少翻了一倍。 测试显示,在多个DeepSeek R1型号中,RTX 5090明显领先于RX 7900 XTX,也比RTX 4090快了不少。 在Distill Qwen 7b和Distill Llama 8b模型中,该RTX 5090每秒可运行200个Tokens,几乎是RX 7900 XTX 的两倍。 1月31日,NVIDIA宣布,NIM已经可以使用DeepSeek-R1。NIM,即NVIDIA Inference Microservices,是一种云原生微服务技术,可简化生成式AI模型在云端、数据中心及GPU加速工作站上的部署流程 NVIDIA官网发布文章指出,DeepSeek-R1是最先进的推理开放模型,会对查询进行多次推理处理,使用连锁思维、共识和搜寻方法来生成最佳答案。 文章写道,为了帮助开发者安全地试验这些功能,并构建自己的专门代理,DeepSeek-R1模型现已作为NVIDIA NIM

SVFR:通用视频人脸修复的统一框架

SVFR 是一种用于人脸视频修复的统一框架,支持BFR、着色、修复等任务以及它们在一个内聚系统中的组合。 SVPR 由厦门大学和腾讯优图实验室推出,能够实现很好的视频人脸修复效果。 我们截取了一些使用SVPR的例子。就例子来看,SVFR还能通过绘制蒙版去除视频中的水印,非常适合用来修复老旧的黑白色彩、低分辨率或是包含水印的视频。