本项目致力于构建一个系统化的大模型技术体系开源影响力评估框架。我们通过科学、可操作的评估标准,旨在帮助开发者、研究者和企业更准确地理解和衡量开源大模型技术体系的实际价值。我们的目标是从数据、模型、系统和评测平台四个关键技术维度,全面评估开源大模型技术体系的影响力。
目前有以下评估维度可供参考:
- 数据维度:数据集覆盖度、大模型生命周期覆盖度及数据处理工具等评估维度;
- 模型维度:模型的使用量、模型模态覆盖度、模型规模、贡献者活跃度、模型开源开放度等评估维度;
- 系统维度:算子库、并行训练与推理框架、深度学习框架、贡献者活跃度等评估维度;
- 评测平台维度:评测榜单、评测模型、评测数据、以及评测方法等评估维度。
这种对大模型技术体系维度的全面覆盖,保证了评估框架在衡量开源大模型技术体系时的系统性和科学性。
- 数据维度:HuggingFace、ModelScope、GitHub、GitCode、OpenDataLab、Google官网、META官网、OpenI启智等;
- 模型维度: HuggingFace,ModelScope,GitHub,GitCode,OpenI启智等;
- 系统维度:Github、GitCode、Paddle、Mindspore、Tensorflow、Pytorch等;
- 评测平台维度:HuggingFace、Github、GitCode、Gitee以及各机构官网(OpenCompass, LMArena, HELM, FlagEval等)。
注:补充google搜索以及部分其它平台
- 数据指标:同一项目的多个仓库 ,根据仓库README文件及关联论文划分每个数据仓库所属的模态、生命周期。
- 模型指标:仅统计月下载量大于200、且在机构所有仓库里排名前100的仓库。
- 系统指标:支持异构训练、接入训练芯片厂商数量、大模型生命周期支持程度均通过从 GitHub、Paddle、Mindspore 等网站获取。
- 评测平台指标:评测模型、评测数据数量从2023年后开始统计。仅统计公开可查的模型,为数据集发布而评测的模型不计其中。
- 下载量相关数据均为统计当月下载量,其他数据为统计当月的截止值。
我们总共获取了来自7025个链接的44个指标,数据收集时间周期为每月15日,本次为首次数据统计时间为: 2024年11月15日。
所有指标均采用Min-Max正则化后求平均的方式计算影响力得分。
目前我们鼓励大家积极参与,公示期为2024.12.16-2025.1.16,通过下方提供的二维码或直接提交Issue提出建议和反馈。您的反馈将帮助我们不断优化评估方法,提高数据完整度与质量。
感谢您对大模型开源技术体系影响力榜单的关注和支持。我们期待与您一起推动开源技术的发展和创新。