params.yaml

dataset:
  url: https://raw.githubusercontent.com/Himanshu-1703/reddit-sentiment-analysis/refs/heads/main/data/reddit.csv
  rename_columns:
    clean_comment: text
    category: target
  train_size: 0.75
  target_labels: [neg, neu, pos]

ingestion:
  processed_train_path: data/processed/train.parquet
  processed_test_path: data/processed/test.parquet

building:
  vectorizer:
    module: sklearn.feature_extraction.text
    name: TfidfVectorizer
    path: models/vectorizer.pkl
    params:
      max_features: 5000

  model:
    module: sklearn.ensemble
    name: HistGradientBoostingClassifier
    path: models/classifier.pkl
    params: {}

evaluation:
  train_vec_path: models/train_vec_data.pkl

mlflow:
  # For local run: mlflow will store artifacts in this directory
  # For cloud run: specify URL below
  tracking_uri: ./mlruns
  experiment_name: exp1-arv-testing