Release Notes

Added Dataset Support:
- Enhanced multimodal evaluation capabilities, now supporting MMBench-Video, Video-MME, and MVBench video evaluations #146
- Added cmb dataset #117
Support for LongBench-write quality evaluation of long text generation #136
Automatic downloading of punkt_tab.zip from nltk #140
Support for RAG evaluation #127:
- Support for embeddings/reranker evaluation: Integration of MTEB (Massive Text Embedding Benchmark) and CMTEB (Chinese Massive Text Embedding Benchmark), supporting tasks such as retrieval and reranking
- Support for end-to-end RAG evaluation: Integration of the ragas framework, supporting automatic generation of evaluation datasets and evaluation based on judge models
Documentation Updates:
- Added "Blog" section #126, #135
- Added support for dataset page #121
- Updated function usage instructions #125, #134, #138, #137, #127
Updated dependencies: nltk>=3.9 and rouge-score>=0.1.0 #145, #143

中文说明

新增数据集支持：
- 完善多模态评测功能，支持MMBench-Video，Video-MME，MVBench视频评测 #146
- 新增cmb数据集 #117
支持LongBench-write 长文本生成的质量评测 #136
支持从nltk自动下载 punkt_tab.zip #140
支持RAG评测：#127
- 支持embeddings/reranker 评测：集成MTEB（Massive Text Embedding Benchmark）和 CMTEB（Chinese Massive Text Embedding Benchmark），支持检索、重排等任务评估
- 支持RAG端到端评测：集成ragas框架，支持自动生成评测数据集和基于裁判员模型的评测
文档更新
- 增加 “博客” 板块 #126, #135
- 增加支持的数据集页面 #121
- 更新功能使用说明 #125, #134, #138, #137, #127
更新依赖nltk>=3.9和rouge-score>=0.1.0 #145, #143