dataset-yt8m

Processing dataset of yt8m.

yt8m is a open dataset which contain large amount of human labeled youtube videos. This repo provide scripts to process these data into training-ready format for different purpose.

Step1

Run ./download.sh to download yt8m video level data.

The data is a set of tfrecord files.

Step2

Run python tfrecord_to_csv.py --category {{category}} to convert tfrecord extension to csv extension.

Step3

Run python get_ytid_and_cap.py --category {{category}} to retrive english captions and map yt8m id to youtube id.

{{category}} is used for spliting data into multiple part and run parallely.

NOTE: not all of video has reachable english captions.

Step4

Run python preprocessing.py to

filter videos which has captions.
combine yt label.
clean text.

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
.gitignore		.gitignore
README.md		README.md
data.csv		data.csv
download.sh		download.sh
get_ytid_and_cap.py		get_ytid_and_cap.py
preprocessing.py		preprocessing.py
requirements.txt		requirements.txt
tfrecord_to_csv.py		tfrecord_to_csv.py
utils.py		utils.py
vocabulary.csv		vocabulary.csv
yt_label_ref.csv		yt_label_ref.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

dataset-yt8m

Processing dataset of yt8m.

Step1

Step2

Step3

Step4

About

Releases

Packages

Languages

emlynazuma/yt8m-dataset

Folders and files

Latest commit

History

Repository files navigation

dataset-yt8m

Processing dataset of yt8m.

Step1

Step2

Step3

Step4

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages