Merge branch 'package'

IAAR-Shanghai · Oct 3, 2024 · a377daf · a377daf
2 parents cc6d76b + 0568d24
commit a377daf
Show file tree

Hide file tree

Showing 64 changed files with 104 additions and 66 deletions.
diff --git a/.env b/.env
@@ -0,0 +1 @@
+PYTHONPATH=src
diff --git a/.github/CONTRIBUTING.md b/.github/CONTRIBUTING.md
@@ -6,7 +6,7 @@ We appreciate your interest in contributing. To ensure a smooth collaboration, p
 > Please ensure that your code passes all tests and `black` code formatting before opening a pull request.
 > You can run the following commands to check your code:
 > ```bash
-> python -m unittest discover -s tests/ -p 'test*.py' -v
+> PYTHONPATH=src python -m unittest discover -s tests/ -p 'test*.py' -v
 > black . --check
 > ```
 

diff --git a/.github/workflows/python-package.yml b/.github/workflows/python-package.yml
@@ -31,7 +31,7 @@ jobs:
         if [ -f requirements.txt ]; then pip install -r requirements.txt; fi
     - name: Test with unittest
       run: |
-        python -m unittest discover -s tests/ -p 'test*.py' -v
+        PYTHONPATH=src python -m unittest discover -s tests/ -p 'test*.py' -v
     - name: Test linting with black
       run: |
         black . --check
diff --git a/.gitignore b/.gitignore
@@ -1,5 +1,6 @@
 /.vscode/
 /output/
+/dist/
 
 __pycache__/
 

diff --git a/README.md b/README.md
@@ -4,8 +4,8 @@
 
 <p align="center">
     <i>What does this repository include?</i><br>
-    <b><a href="./eval/benchs/uhgeval/">UHGEval</a></b>: An unconstrained hallucination evaluation benchmark.<br>
-    <b><a href="./eval/">Eval Suite</a></b>: A user-friendly evaluation framework for hallucination tasks.<br>
+    <b><a href="./src/eval_suite/benchs/uhgeval/">UHGEval</a></b>: An unconstrained hallucination evaluation benchmark.<br>
+    <b><a href="./src/eval_suite/">Eval Suite</a></b>: A user-friendly evaluation framework for hallucination tasks.<br>
     Eval Suite supports other benchmarks, such as <a href="https://github.com/OpenMOSS/HalluQA">HalluQA</a> and <a href="https://github.com/RUCAIBox/HaluEval">HaluEval</a>.
 </p>
 
@@ -31,36 +31,32 @@
 ## Quick Start
 
 ```bash
-# Clone the repository
-git clone https://github.com/IAAR-Shanghai/UHGEval.git
-cd UHGEval
-
-# Install dependencies
+# Install Eval Suite
 conda create -n uhg python=3.10
 conda activate uhg
-pip install -r requirements.txt
+pip install eval-suite
 
 # Run evaluations with OpenAI Compatible API
-python -m eval.cli eval openai \
+eval_suite eval openai \
     --model_name gpt-4o \
     --api_key your_api_key \
     --base_url https://api.openai.com/v1 \
     --evaluators ExampleQAEvaluator UHGSelectiveEvaluator
 
 # Or run evaluations with Hugging Face Transformers
-python -m eval.cli eval huggingface \
+eval_suite eval huggingface \
     --model_name_or_path Qwen/Qwen2-0.5B-Instruct \
     --apply_chat_template \
     --evaluators ExampleQAEvaluator UHGSelectiveEvaluator
 
 # After evaluation, you can gather statistics of the evaluation results
-python -m eval.cli stat
+eval_suite stat
 
 # List all available evaluators
-python -m eval.cli list
+eval_suite list
 
 # Get help
-python -m eval.cli --help
+eval_suite --help
 ```
 
 > [!Tip]
@@ -113,13 +109,13 @@ UHGEval is a large-scale benchmark designed for evaluating hallucination in prof
 
 To facilitate evaluation, we have developed a user-friendly evaluation framework called Eval Suite. Currently, Eval Suite supports common hallucination evaluation benchmarks, allowing for comprehensive evaluation of the same LLM with just one command as shown in the [Quick Start](#quick-start) section.
 
-| Benchmark | Evaluator                                                                                                      | More Information                               |
-| --------- | -------------------------------------------------------------------------------------------------------------- | ---------------------------------------------- |
-| C-Eval    | `CEvalEvaluator`                                                                                               | [eval/benchs/ceval](eval/benchs/ceval)         |
-| ExampleQA | `ExampleQAEvaluator`                                                                                           | [eval/benchs/exampleqa](eval/benchs/exampleqa) |
-| HalluQA   | `HalluQAMCEvaluator`                                                                                           | [eval/benchs/halluqa](eval/benchs/halluqa)     |
-| HaluEval  | `HaluEvalDialogEvaluator`<br>`HaluEvalQAEvaluator`<br>`HaluEvalSummaEvaluator`                                 | [eval/benchs/halueval](eval/benchs/halueval)   |
-| UHGEval   | `UHGDiscKeywordEvaluator`<br>`UHGDiscSentenceEvaluator`<br>`UHGGenerativeEvaluator`<br>`UHGSelectiveEvaluator` | [eval/benchs/uhgeval](eval/benchs/uhgeval)     |
+| Benchmark | Evaluator                                                                                                      | More Information                                                   |
+| --------- | -------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------ |
+| C-Eval    | `CEvalEvaluator`                                                                                               | [src/eval_suite/benchs/ceval](src/eval_suite/benchs/ceval)         |
+| ExampleQA | `ExampleQAEvaluator`                                                                                           | [src/eval_suite/benchs/exampleqa](src/eval_suite/benchs/exampleqa) |
+| HalluQA   | `HalluQAMCEvaluator`                                                                                           | [src/eval_suite/benchs/halluqa](src/eval_suite/benchs/halluqa)     |
+| HaluEval  | `HaluEvalDialogEvaluator`<br>`HaluEvalQAEvaluator`<br>`HaluEvalSummaEvaluator`                                 | [src/eval_suite/benchs/halueval](src/eval_suite/benchs/halueval)   |
+| UHGEval   | `UHGDiscKeywordEvaluator`<br>`UHGDiscSentenceEvaluator`<br>`UHGGenerativeEvaluator`<br>`UHGSelectiveEvaluator` | [src/eval_suite/benchs/uhgeval](src/eval_suite/benchs/uhgeval)     |
 
 ## Learn More
 
@@ -162,8 +158,6 @@ To facilitate evaluation, we have developed a user-friendly evaluation framework
 <details><summary>Click me to show all TODOs</summary>
 
 - [ ] feat: vLLM offline inference benchmarking
-- [ ] build: packaging
 - [ ] feat(benchs): add TruthfulQA benchmark
-- [ ] other: promotion
-
+- [ ] ci: auto release to PyPI
 </details>
diff --git a/demo.ipynb b/demo.ipynb
@@ -15,9 +15,13 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "from eval.benchs import ExampleQAEvaluator, get_all_evaluator_classes, load_evaluator\n",
-    "from eval.llms import HuggingFace, OpenAIAPI\n",
-    "from eval.utils import save_stats"
+    "from eval_suite.benchs import (\n",
+    "    ExampleQAEvaluator,\n",
+    "    get_all_evaluator_classes,\n",
+    "    load_evaluator,\n",
+    ")\n",
+    "from eval_suite.llms import HuggingFace, OpenAIAPI\n",
+    "from eval_suite.utils import save_stats"
    ]
   },
   {

diff --git a/docs/add-bench-or-model.md b/docs/add-bench-or-model.md
@@ -2,7 +2,7 @@
 
 ## Adding a New Benchmark
 
-You can refer to the structure of the `eval/benchs/exampleqa` folder, which serves as a minimal benchmark example. Additionally, you might want to check the `eval/benchs/base_dataset.py` and `eval/benchs/base_evaluator.py` files, as they provide the base classes for benchmarks.
+You can refer to the structure of the `src/eval_suite/benchs/exampleqa` folder, which serves as a minimal benchmark example. Additionally, you might want to check the `src/eval_suite/benchs/base_dataset.py` and `src/eval_suite/benchs/base_evaluator.py` files, as they provide the base classes for benchmarks.
 
 1. **Creating a Benchmark Folder**
    - Create a new folder under the `benchs` directory.
@@ -33,7 +33,7 @@ You can refer to the structure of the `eval/benchs/exampleqa` folder, which serv
 
 ## Adding a New Model Loader
 
-You can refer to the `eval/llms/huggingface.py` and `eval/llms/openai_api.py` files as examples for loading LLMs.
+You can refer to the `src/eval_suite/llms/huggingface.py` and `src/eval_suite/llms/openai_api.py` files as examples for loading LLMs.
 
 1. **Language Model Loader**
    - Create a new file under the `llms` directory. 

diff --git a/docs/architecture.md b/docs/architecture.md
@@ -9,7 +9,7 @@ A base evaluator and dataset under `benchs` provide default evaluation logic and
 ## Structure
 
 ```bash
-eval
+src/eval_suite/
 ├── __init__.py
 ├── cli.py                              # Command line interface
 ├── logging.py                          # Global logging configuration

diff --git a/docs/experiments/20240822/expt.py b/docs/experiments/20240822/expt.py
@@ -1,10 +1,10 @@
-from eval.benchs import (
+from eval_suite.benchs import (
     UHGDiscKeywordEvaluator,
     UHGDiscSentenceEvaluator,
     UHGGenerativeEvaluator,
     UHGSelectiveEvaluator,
 )
-from eval.llms import OpenAIAPI
+from eval_suite.llms import OpenAIAPI
 
 glm = OpenAIAPI(
     model_name="THUDM/glm-4-9b-chat",

diff --git a/pyproject.toml b/pyproject.toml
@@ -0,0 +1,58 @@
+[build-system]
+requires = ["hatchling", "hatch-vcs"]
+build-backend = "hatchling.build"
+
+[project]
+name = "eval_suite"
+dependencies = [
+    # Common
+    "torch",
+    "tqdm",
+    "ipykernel",
+
+    # OpenAI API
+    "openai",
+    "tenacity",
+
+    # Hugging Face Transformers
+    "transformers",
+    "accelerate",
+    "sentencepiece",
+
+    # Metrics
+    "nltk",
+    "rouge_score",
+    "text2vec",
+    "absl-py",
+
+    # Formatting
+    "black",
+    "isort",
+]
+authors = [{ name = "Shichao Song", email = "[email protected]" }]
+description = "User-friendly evaluation framework: Eval Suite & Benchmarks: UHGEval, HaluEval, HalluQA, etc."
+license = { file = "LICENSE" }
+keywords = [
+    "UHGEval",
+    "Chinese",
+    "hallucination",
+    "evaluation",
+    "llm",
+    "eval_suite",
+]
+requires-python = ">=3.10"
+classifiers = [
+    "Programming Language :: Python :: 3",
+    "License :: OSI Approved :: Apache Software License",
+    "Operating System :: OS Independent",
+]
+dynamic = ["readme", "version"]
+
+[project.urls]
+Repository = "https://github.com/IAAR-Shanghai/UHGEval"
+
+[project.scripts]
+eval_suite = "eval_suite.cli:main"
+
+[tool.hatch.version]
+source = "vcs"
diff --git a/requirements.txt b/requirements.txt
diff --git a/eval/__init__.py → src/eval_suite/__init__.py b/eval/__init__.py → src/eval_suite/__init__.py
diff --git a/eval/benchs/__init__.py → src/eval_suite/benchs/__init__.py b/eval/benchs/__init__.py → src/eval_suite/benchs/__init__.py
diff --git a/eval/benchs/base_dataset.py → src/eval_suite/benchs/base_dataset.py b/eval/benchs/base_dataset.py → src/eval_suite/benchs/base_dataset.py
diff --git a/eval/benchs/base_evaluator.py → src/eval_suite/benchs/base_evaluator.py b/eval/benchs/base_evaluator.py → src/eval_suite/benchs/base_evaluator.py
diff --git a/eval/benchs/ceval/README.md → src/eval_suite/benchs/ceval/README.md b/eval/benchs/ceval/README.md → src/eval_suite/benchs/ceval/README.md
diff --git a/eval/benchs/ceval/dataset.py → src/eval_suite/benchs/ceval/dataset.py b/eval/benchs/ceval/dataset.py → src/eval_suite/benchs/ceval/dataset.py
diff --git a/eval/benchs/ceval/eval_ceval.py → src/eval_suite/benchs/ceval/eval_ceval.py b/eval/benchs/ceval/eval_ceval.py → src/eval_suite/benchs/ceval/eval_ceval.py
diff --git a/eval/benchs/ceval/subject_mapping.json → ...l_suite/benchs/ceval/subject_mapping.json b/eval/benchs/ceval/subject_mapping.json → ...l_suite/benchs/ceval/subject_mapping.json
diff --git a/eval/benchs/ceval/utils.py → src/eval_suite/benchs/ceval/utils.py b/eval/benchs/ceval/utils.py → src/eval_suite/benchs/ceval/utils.py
diff --git a/eval/benchs/exampleqa/README.md → src/eval_suite/benchs/exampleqa/README.md b/eval/benchs/exampleqa/README.md → src/eval_suite/benchs/exampleqa/README.md
diff --git a/eval/benchs/exampleqa/dataset.py → src/eval_suite/benchs/exampleqa/dataset.py b/eval/benchs/exampleqa/dataset.py → src/eval_suite/benchs/exampleqa/dataset.py
diff --git a/.../benchs/exampleqa/dataset_exampleqa.jsonl → .../benchs/exampleqa/dataset_exampleqa.jsonl b/.../benchs/exampleqa/dataset_exampleqa.jsonl → .../benchs/exampleqa/dataset_exampleqa.jsonl
diff --git a/eval/benchs/exampleqa/eval_exampleqa.py → ..._suite/benchs/exampleqa/eval_exampleqa.py b/eval/benchs/exampleqa/eval_exampleqa.py → ..._suite/benchs/exampleqa/eval_exampleqa.py
@@ -1,7 +1,6 @@
 import os
 
-from eval.llms.base_llm import BaseLLM
-
+from ...llms.base_llm import BaseLLM
 from ..base_evaluator import BaseEvaluator
 from .dataset import ExampleQADataset
 

diff --git a/eval/benchs/halluqa/README.md → src/eval_suite/benchs/halluqa/README.md b/eval/benchs/halluqa/README.md → src/eval_suite/benchs/halluqa/README.md
diff --git a/eval/benchs/halluqa/dataset.py → src/eval_suite/benchs/halluqa/dataset.py b/eval/benchs/halluqa/dataset.py → src/eval_suite/benchs/halluqa/dataset.py
diff --git a/eval/benchs/halluqa/dataset_halluqa.json → ...suite/benchs/halluqa/dataset_halluqa.json b/eval/benchs/halluqa/dataset_halluqa.json → ...suite/benchs/halluqa/dataset_halluqa.json
diff --git a/eval/benchs/halluqa/dataset_halluqa_mc.json → ...te/benchs/halluqa/dataset_halluqa_mc.json b/eval/benchs/halluqa/dataset_halluqa_mc.json → ...te/benchs/halluqa/dataset_halluqa_mc.json
diff --git a/eval/benchs/halluqa/eval_base.py → src/eval_suite/benchs/halluqa/eval_base.py b/eval/benchs/halluqa/eval_base.py → src/eval_suite/benchs/halluqa/eval_base.py
diff --git a/eval/benchs/halluqa/eval_halluqa_mc.py → ...l_suite/benchs/halluqa/eval_halluqa_mc.py b/eval/benchs/halluqa/eval_halluqa_mc.py → ...l_suite/benchs/halluqa/eval_halluqa_mc.py
diff --git a/eval/benchs/halueval/README.md → src/eval_suite/benchs/halueval/README.md b/eval/benchs/halueval/README.md → src/eval_suite/benchs/halueval/README.md
diff --git a/eval/benchs/halueval/dataset.py → src/eval_suite/benchs/halueval/dataset.py b/eval/benchs/halueval/dataset.py → src/eval_suite/benchs/halueval/dataset.py
diff --git a/.../halueval/dataset_halueval_dialogue.jsonl → .../halueval/dataset_halueval_dialogue.jsonl b/.../halueval/dataset_halueval_dialogue.jsonl → .../halueval/dataset_halueval_dialogue.jsonl
diff --git a/...benchs/halueval/dataset_halueval_qa.jsonl → ...benchs/halueval/dataset_halueval_qa.jsonl b/...benchs/halueval/dataset_halueval_qa.jsonl → ...benchs/halueval/dataset_halueval_qa.jsonl
diff --git a/...eval/dataset_halueval_summarization.jsonl → ...eval/dataset_halueval_summarization.jsonl b/...eval/dataset_halueval_summarization.jsonl → ...eval/dataset_halueval_summarization.jsonl
diff --git a/eval/benchs/halueval/eval_base.py → src/eval_suite/benchs/halueval/eval_base.py b/eval/benchs/halueval/eval_base.py → src/eval_suite/benchs/halueval/eval_base.py
diff --git a/eval/benchs/halueval/eval_halueval_dialog.py → ...e/benchs/halueval/eval_halueval_dialog.py b/eval/benchs/halueval/eval_halueval_dialog.py → ...e/benchs/halueval/eval_halueval_dialog.py
diff --git a/eval/benchs/halueval/eval_halueval_qa.py → ...suite/benchs/halueval/eval_halueval_qa.py b/eval/benchs/halueval/eval_halueval_qa.py → ...suite/benchs/halueval/eval_halueval_qa.py
diff --git a/eval/benchs/halueval/eval_halueval_summa.py → ...te/benchs/halueval/eval_halueval_summa.py b/eval/benchs/halueval/eval_halueval_summa.py → ...te/benchs/halueval/eval_halueval_summa.py
diff --git a/eval/benchs/uhgeval/README.md → src/eval_suite/benchs/uhgeval/README.md b/eval/benchs/uhgeval/README.md → src/eval_suite/benchs/uhgeval/README.md
diff --git a/eval/benchs/uhgeval/dataset.py → src/eval_suite/benchs/uhgeval/dataset.py b/eval/benchs/uhgeval/dataset.py → src/eval_suite/benchs/uhgeval/dataset.py
diff --git a/...chs/uhgeval/dataset_uhgeval_concise.jsonl → ...chs/uhgeval/dataset_uhgeval_concise.jsonl b/...chs/uhgeval/dataset_uhgeval_concise.jsonl → ...chs/uhgeval/dataset_uhgeval_concise.jsonl
diff --git a/...benchs/uhgeval/dataset_uhgeval_full.jsonl → ...benchs/uhgeval/dataset_uhgeval_full.jsonl b/...benchs/uhgeval/dataset_uhgeval_full.jsonl → ...benchs/uhgeval/dataset_uhgeval_full.jsonl
diff --git a/eval/benchs/uhgeval/eval_base.py → src/eval_suite/benchs/uhgeval/eval_base.py b/eval/benchs/uhgeval/eval_base.py → src/eval_suite/benchs/uhgeval/eval_base.py
diff --git a/eval/benchs/uhgeval/eval_disc_keyword.py → ...suite/benchs/uhgeval/eval_disc_keyword.py b/eval/benchs/uhgeval/eval_disc_keyword.py → ...suite/benchs/uhgeval/eval_disc_keyword.py
diff --git a/eval/benchs/uhgeval/eval_disc_sentence.py → ...uite/benchs/uhgeval/eval_disc_sentence.py b/eval/benchs/uhgeval/eval_disc_sentence.py → ...uite/benchs/uhgeval/eval_disc_sentence.py
diff --git a/eval/benchs/uhgeval/eval_gene.py → src/eval_suite/benchs/uhgeval/eval_gene.py b/eval/benchs/uhgeval/eval_gene.py → src/eval_suite/benchs/uhgeval/eval_gene.py
diff --git a/eval/benchs/uhgeval/eval_sele.py → src/eval_suite/benchs/uhgeval/eval_sele.py b/eval/benchs/uhgeval/eval_sele.py → src/eval_suite/benchs/uhgeval/eval_sele.py
diff --git a/eval/cli.py → src/eval_suite/cli.py b/eval/cli.py → src/eval_suite/cli.py
@@ -51,7 +51,7 @@ def parse_args():
 # fmt: on
 
 
-if __name__ == "__main__":
+def main():
     args = parse_args()
     logger.info(f"Start the CLI with args: {args}")
 
@@ -80,3 +80,7 @@ def parse_args():
     elif args.operation_name == "list":
         print("All evaluators:")
         pprint(all_evaluators)
+
+
+if __name__ == "__main__":
+    main()
diff --git a/eval/llms/__init__.py → src/eval_suite/llms/__init__.py b/eval/llms/__init__.py → src/eval_suite/llms/__init__.py
diff --git a/eval/llms/base_llm.py → src/eval_suite/llms/base_llm.py b/eval/llms/base_llm.py → src/eval_suite/llms/base_llm.py
diff --git a/eval/llms/huggingface.py → src/eval_suite/llms/huggingface.py b/eval/llms/huggingface.py → src/eval_suite/llms/huggingface.py
diff --git a/eval/llms/openai_api.py → src/eval_suite/llms/openai_api.py b/eval/llms/openai_api.py → src/eval_suite/llms/openai_api.py
diff --git a/eval/logging.py → src/eval_suite/logging.py b/eval/logging.py → src/eval_suite/logging.py
diff --git a/eval/metrics.py → src/eval_suite/metrics.py b/eval/metrics.py → src/eval_suite/metrics.py
diff --git a/eval/utils.py → src/eval_suite/utils.py b/eval/utils.py → src/eval_suite/utils.py
diff --git a/tests/test_benchs/__init__.py → tests/benchs/__init__.py b/tests/test_benchs/__init__.py → tests/benchs/__init__.py
diff --git a/tests/test_benchs/test_base_dataset.py → tests/benchs/test_base_dataset.py b/tests/test_benchs/test_base_dataset.py → tests/benchs/test_base_dataset.py
@@ -1,6 +1,6 @@
 import unittest
 
-from eval.benchs.base_dataset import DummyDataset
+from eval_suite.benchs.base_dataset import DummyDataset
 
 
 class TestDummyDataset(unittest.TestCase):

diff --git a/tests/test_benchs/test_base_evaluator.py → tests/benchs/test_base_evaluator.py b/tests/test_benchs/test_base_evaluator.py → tests/benchs/test_base_evaluator.py
@@ -2,8 +2,8 @@
 import unittest
 from unittest.mock import MagicMock
 
-from eval.benchs.base_evaluator import DummyEvaluator
-from eval.llms.base_llm import BaseLLM
+from eval_suite.benchs.base_evaluator import DummyEvaluator
+from eval_suite.llms.base_llm import BaseLLM
 
 
 class TestDummyEvaluator(unittest.TestCase):

diff --git a/tests/test_llms/__init__.py → tests/llms/__init__.py b/tests/test_llms/__init__.py → tests/llms/__init__.py
diff --git a/tests/test_llms/test_base_llm.py → tests/llms/test_base_llm.py b/tests/test_llms/test_base_llm.py → tests/llms/test_base_llm.py
@@ -1,7 +1,7 @@
 import unittest
 from unittest.mock import MagicMock
 
-from eval.llms.base_llm import BaseLLM
+from eval_suite.llms.base_llm import BaseLLM
 
 
 class TestBaseLLM(unittest.TestCase):

diff --git a/tests/test_llms/test_huggingface.py → tests/llms/test_huggingface.py b/tests/test_llms/test_huggingface.py → tests/llms/test_huggingface.py
@@ -2,7 +2,7 @@
 
 import torch
 
-from eval.llms.huggingface import HuggingFace
+from eval_suite.llms.huggingface import HuggingFace
 
 
 class TestHuggingFace(unittest.TestCase):

diff --git a/tests/test_llms/test_openai_api.py → tests/llms/test_openai_api.py b/tests/test_llms/test_openai_api.py → tests/llms/test_openai_api.py
@@ -1,6 +1,6 @@
 import unittest
 
-from eval.llms.openai_api import OpenAIAPI
+from eval_suite.llms.openai_api import OpenAIAPI
 
 
 class TestOpenAIAPI(unittest.TestCase):

diff --git a/tests/test_metrics.py b/tests/test_metrics.py
@@ -1,6 +1,6 @@
 import unittest
 
-from eval.metrics import bert_score, bleu_4, keyword_precision, rouge_l
+from eval_suite.metrics import bert_score, bleu_4, keyword_precision, rouge_l
 
 
 class TestEvaluationFunctions(unittest.TestCase):