configuration_nvidia.txt

[COMMON]
datasetPathVideo = /media/gamal/Passport/Datasets/VoxCeleb2/Voxceleb2Video
datasetPathDatabase = /data_store/databases
test_datasetPathVideo = /media/gamal/Passport/Datasets/Voxceleb2TestVideo
test_datasetPathDatabase = /media/gamal/Passport/Datasets/VoxCeleb2Test/Voxceleb2TestDatabase
test_datasetPathVideo_p = /media/gamal/Passport/Datasets/VoxCeleb2Test/Voxceleb2TestVideo
test_datasetPathDatabase_p = /media/gamal/Passport/Datasets/VoxCeleb2Test/Voxceleb2TestDatabase
cuda=1
cpus=8
resizeImageTo = 128
begin_with_image_size = 8
audio_embs_options = wav2vec or openl3
audio_embs = pyannoteTitaNet
unet1_dim = 192
unet2_dim = 128
unet1_image_size = 32
insert_amd_env_vars = 0
HSA_OVERRIDE_GFX_VERSION = 10.3.0
ROCM_PATH = /opt/rocm
timesteps = 1000


[dbCreateAndPopulate]
recreateDb=0

[extractAudio]
datasetPathAudio = /media/gamal/Passport/Datasets/VoxCeleb2/Voxceleb2Audio
dbChunk = 240
time_to_wait_before_deleting_files = 60


[extractFaces]
expandFaceVerticalRatio = 0.4
expandFaceHorizontalRatio=0.5
faceDetectionDeepFaceBackend=4
parallelism = 5
parallelismFrames = 1
datasetPathFrames = /media/gamal/Passport/Datasets/VoxCeleb2/Voxceleb2Frames
datasetPathFaces = /media/gamal/Passport/Datasets/VoxCeleb2/Voxceleb2Faces

[fineTuneStableDiffusionTraining]
db_chunk = 50000
dev_mode = 0
continue_from_epoch = 1
continue_from_offset = 0
continue_from_epoch_and_offset = 0
unconditional_guidance_scale = 40

[extractOpenL3]
datasetPathAudio = /media/gamal/Passport/Datasets/VoxCeleb2/Voxceleb2Audio
dbChunk = 240
time_to_wait_before_deleting_files = 60
openl3_mode_options = stable or imagen
openl3_mode = imagen

[extractWavToVec]
datasetPathAudio = /media/gamal/Passport/Datasets/VoxCeleb2/Voxceleb2Audio
dbChunk = 240
time_to_wait_before_deleting_files = 60
audio_length_wav2vec = 5

[extractPyannoteTitaNet]
datasetPathAudio = /media/gamal/Passport/Datasets/VoxCeleb2/Voxceleb2Audio
dbChunk = 240
time_to_wait_before_deleting_files = 60
use_auth_token = TO_BE_GOTTEN

[extractAudioFeatures]
datasetPathAudio = /media/gamal/Passport/Datasets/VoxCeleb2/Voxceleb2Audio
dbChunk = 250
time_to_wait_before_deleting_files = 60

[fineTuneStableDiffusionTesting]
use_video_in_configuration = 1
video_path = /home/gamal/vsc/DiffusionSpeech2Face/v.mp4
time_to_wait_before_deleting_files = 180
dev_mode = 0

[train_imagen]
model_filename = /home/gamal/vsc/DiffusionSpeech2Face/checkpoint/noablation
imagen_samples_folder = /media/gamal/Passport/active_models/imagen_features_low_res_asis_8
audio_length_used = 24
override_image_path = 1
override_image_path_string = /data_store/faces/dev/mp4
override_leave_parent_level = 4
max_checkpoints_keep = 2
sample_every_offset = 1
save_every_offset = 1
epochs = 100000
sub_epochs = 1
inner_epochs = 100
sample_every = 100000
sample_probability = 0
save_model_every = 75
batch_size = 10
batches_per_epoch = 250
db_chunk = 5000
dask_chunk=5000
c_unte2 = 54500
c_unite1 = 512000
stop_at_no_of_samples = 2000000
aaaa = 238996
ignore_speaker_embedding = 0
ignore_speech_brain = 0
ignore_pyannote_titanet_speakernet = 0
ignore_audio_features = 0
ignore_pyAudioAnalysis = 0
ignore_librosa = 0
ignore_image_guide = 0
ignore_additional_attributes = 0
ignore_age = 0
ignore_gender = 0
ignore_ethnicity = 0
ignore_language_spoken = 0

[test_imagen]
video_path = /media/gamal/Passport/Datasets/VoxCeleb2TestMin/Voxceleb2TestVideo/id00017/01dfn2spqyE/00001.mp4
time_to_wait_before_deleting_files = 180
audio_length_used = 24
model_filename = imagen_features_low_res_asis_8
openl3_mode_options = stable or imagen
openl3_mode = imagen
folder = imagen-test-folder
number_of_images = 2
age = 25
ethnicity = black 
gender = man
language = English
image_guide_path = /media/gamal/Passport/Datasets/VoxCeleb2TestMin/Voxceleb2TestGuides/id00017/01dfn2spqyE/00001_guide_.png
blur_or_pixelate = 1
boxBlurMin = 4
boxBlurMax = 14
gaussianBlurMin=4
gaussianBlurMax=8
pix_to_min = 8
pix_to_max = 24
low_res_image = /media/gamal/Passport/Datasets/VoxCeleb2TestMin/Voxceleb2TestGuides/id00017/01dfn2spqyE/00001_guide_.png
skip_speaker_embedding = 0
skip_speech_brain = 0
skip_pyannote_titanet_speakernet = 0
skip_audio_features = 0
skip_pyAudioAnalysis = 0
skip_librosa = 0
skip_image_guide = 0
skip_additional_attributes = 0
skip_age = 0
skip_gender = 0
skip_ethnicity = 0
skip_language_spoken = 0

[evaluate_imagen]
videos_per_user = 1
test_datasetpathfaces = /media/gamal/Passport/Datasets/VoxCeleb2Test/Voxceleb2TestFaces
test_datasetpathgeneratedfaces = /media/gamal/Passport/Datasets/VoxCeleb2Test/Voxceleb2TestGeneratedFaces
test_datasetpathfeatures = /media/gamal/Passport/Datasets/VoxCeleb2Test/Voxceleb2TestFeatures
test_datasetpathguides = /media/gamal/Passport/Datasets/VoxCeleb2Test/Voxceleb2TestGuides
test_datasetpathfaces_pooled = /media/gamal/Passport/Datasets/VoxCeleb2Test/FacesPooled
test_datasetpathgeneratedfaces_pooled = /media/gamal/Passport/Datasets/VoxCeleb2Test/GeneratedFacesPooled
test_datasetpathfaces_p = /media/gamal/Passport/Datasets/VoxCeleb2Test/Voxceleb2TestFaces
test_datasetpathgeneratedfaces_p = /media/gamal/Passport/Datasets/VoxCeleb2Test/Voxceleb2TestGeneratedFaces
test_datasetpathfeatures_p = /media/gamal/Passport/Datasets/VoxCeleb2Test/Voxceleb2TestFeatures
test_datasetpathguides_p = /media/gamal/Passport/Datasets/VoxCeleb2Test/Voxceleb2TestGuides
test_datasetpathfaces_pooled_p = /media/gamal/Passport/Datasets/VoxCeleb2Test/FacesPooled
test_datasetpathgeneratedfaces_pooled_p = /media/gamal/Passport/Datasets/VoxCeleb2Test/FacesPooled
time_to_wait_before_deleting_files = 180
audio_length_used = 24
sampling_chunk=25
preprocessing_chunk=500
cond_scale = 5
model_filename = imagen_features_low_res_asis_8
openl3_mode_options = stable or imagen
openl3_mode = imagen
folder = imagen-test-folder
boxBlurMin = 4
boxBlurMax = 14
gaussianBlurMin=4
gaussianBlurMax=8
pix_to_min = 8
pix_to_max = 24
expandFaceVerticalRatio = 0.4
expandFaceHorizontalRatio=0.5
faceDetectionDeepFaceBackend=4
generated_face_table_name = test_not_fully_trained
skip_speaker_embedding = 0
skip_speech_brain = 0
skip_pyannote_titanet_speakernet = 0
skip_audio_features = 0
skip_pyAudioAnalysis = 0
skip_librosa = 0
skip_image_guide = 0
skip_additional_attributes = 0
skip_age = 0
skip_gender = 0
skip_ethnicity = 0
skip_language_spoken = 0
evaluation_results_folder = /media/gamal/Passport/Datasets/VoxCeleb2Test
ignore_speaker_embedding = 0
ignore_speech_brain = 0
ignore_pyannote_titanet_speakernet = 0
ignore_audio_features = 0
ignore_pyAudioAnalysis = 0
ignore_librosa = 0
ignore_image_guide = 0
ignore_additional_attributes = 0
ignore_age = 0
ignore_gender = 0
ignore_ethnicity = 0
ignore_language_spoken = 0

[extractVggBlurred]
dbChunk = 200
boxBlurMin = 4
boxBlurMax = 14
gaussianBlurMin=4
gaussianBlurMax=8
pix_to_min = 8
pix_to_max = 24

[extractAudioSpectogramTransformer]
datasetPathAudio = /media/gamal/Passport/Datasets/VoxCeleb2/Voxceleb2Audio
dbChunk = 240
time_to_wait_before_deleting_files = 60

[train_muse]
model_filename = muse_features_low_res_asis
imagen_samples_folder = /home/gamal/Datasets/SAMPLES
audio_length_used = 24
sample_every_offset = 1
save_every_offset = 1
epochs = 1
sub_epochs = 1
inner_epochs = 1
sample_every = 4000
sample_probability = 100
save_model_every = 4000
batch_size = 4
db_chunk = 100
dask_chunk=100
c_unte2 = 54500
c_unite1 = 77000
stop_at_no_of_samples = 238996
aaaa = 238996
ignore_speaker_embedding = 0
ignore_speech_brain = 0
ignore_pyannote_titanet_speakernet = 0
ignore_audio_features = 0
ignore_pyAudioAnalysis = 0
ignore_librosa = 0
ignore_image_guide = 0
ignore_additional_attributes = 0
ignore_age = 0
ignore_gender = 0
ignore_ethnicity = 0
ignore_language_spoken = 0
vae_file = /home/gamal/models/vae.12145000.pt