training

by ABDALLALSWAITI - opened Sep 28, 2025

Sep 28, 2025

•

edited Sep 28, 2025

I am preparing training , and I believe the results u obtained are excellent. Could you please share the training parameters or any information that might help with the training? I would like to use this dataset https://huggingface.co/datasets/mozilla-foundation/common_voice_17_0 , and I think the same settings you used would work.

ABDALLALSWAITI

Sep 28, 2025

how long time need on h100 gpu 80 g

Cseti

Owner Sep 29, 2025

Hi! I recommend starting with the default parameters. I used these: src.finetune_vibevoice_lora --model_name_or_path aoi-ot/VibeVoice-Large --processor_name_or_path src/vibevoice/processor --train_jsonl train_vibevoice.jsonl --text_column_name text --audio_column_name audio --output_dir outputs --per_device_train_batch_size 8 --gradient_accumulation_steps 16 --learning_rate 2.5e-5 --num_train_epochs 5 --logging_steps 1 --save_steps 100 --report_to wandb --remove_unused_columns False --bf16 True --ddpm_batch_mul 4 --ce_loss_weight 0.0 --diffusion_loss_weight 1.0 --do_train --train_diffusion_head --gradient_clipping --gradient_checkpointing True --lora_target_modules NONE --voice_prompt_drop_rate 0.2

I trained if for 3.5 epochs on an RTX 6000 PRO it took around 6 hours if I recall properly

ABDALLALSWAITI

Sep 29, 2025

•

edited Sep 29, 2025

i do training but the result was very poor i think the issue with train_vibevoice.jsonl i created ! maybe !
can u share urs jsonl or the script to extract it from https://huggingface.co/datasets/mozilla-foundation/common_voice_17_0/
hers mine i tested it using comfyui
https://huggingface.co/ABDALLALSWAITI/vibevoice-arabic-v1

ABDALLALSWAITI

Sep 29, 2025

my jsonl {"text": "Speaker 0: وما كان ربك ليهلك القرى بظلم وأهلها مصلحون", "audio": "vibevoice_data/train_audio/audio_000000.wav"}
{"text": "Speaker 0: أقدر تعاونك معنا.", "audio": "vibevoice_data/train_audio/audio_000001.wav"}
{"text": "Speaker 0: وَلُوطًا إِذْ قَالَ لِقَوْمِهِ أَتَأْتُونَ الْفَاحِشَةَ مَا سَبَقَكُمْ بِهَا مِنْ أَحَدٍ مِنَ الْعَالَمِينَ", "audio": "vibevoice_data/train_audio/audio_000002.wav"}
{"text": "Speaker 0: فلما رأوا بأسنا قالوا آمنا بالله وحده وكفرنا بما كنا به مشركين", "audio": "vibevoice_data/train_audio/audio_000003.wav"}
{"text": "Speaker 0: لمن هذا الكتاب؟", "audio": "vibevoice_data/train_audio/audio_000004.wav"}
{"text": "Speaker 0: إنه خطير للغاية.", "audio": "vibevoice_data/train_audio/audio_000005.wav"}
{"text": "Speaker 0: بل متعت هؤلاء وآباءهم حتى جاءهم الحق ورسول مبين", "audio": "vibevoice_data/train_audio/audio_000006.wav"}
{"text": "Speaker 0: فَيَصِيرُ بِالرَّمْزِ سَائِرًا وَفِي الصُّحُفِ مُخَلَّدًا", "audio": "vibevoice_data/train_audio/audio_000007.wav"}
{"text": "Speaker 0: أنا شريكك.", "audio": "vibevoice_data/train_audio/audio_000008.wav"}
{"text": "Speaker 0: لكن الرسول والذين آمنوا معه جاهدوا بأموالهم وأنفسهم وأولئك لهم الخيرات وأولئك هم المفلحون", "audio": "vibevoice_data/train_audio/audio_000009.wav"}
{"text": "Speaker 0: ثُمَّ إِنَّ مَرْجِعَهُمْ لَإِلَى الْجَحِيمِ", "audio": "vibevoice_data/train_audio/audio_000010.wav"}
{"text": "Speaker 0: لن نقترب من العدو.", "audio": "vibevoice_data/train_audio/audio_000011.wav"}
{"text": "Speaker 0: وَأَنَّهُمْ يَقُولُونَ مَا لَا يَفْعَلُونَ", "audio": "vibevoice_data/train_audio/audio_000012.wav"}
{"text": "Speaker 0: ما هذا الذي تفعله يا فتى؟", "audio": "vibevoice_data/train_audio/audio_000013.wav"}
{"text": "Speaker 0: وَالشَّقِيُّ مَنْ جَمَعَ لِغَيْرِهِ وَبَخِلَ عَلَى نَفْسِهِ", "audio": "vibevoice_data/train_audio/audio_000014.wav"}
{"text": "Speaker 0: أيطمع كل امرئ منهم أن يدخل جنة نعيم", "audio": "vibevoice_data/train_audio/audio_000015.wav"}
{"text": "Speaker 0: وَلَا يُظْهِرُ لَهُ الِاسْتِكْفَاءَ مِنْهُ وَالِاسْتِغْنَاءَ عَنْهُ", "audio": "vibevoice_data/train_audio/audio_000016.wav"}
{"text": "Speaker 0: وَذَلِكَ لَا يُوجَدُ مِنْهُ إلَّا عِنْدَ كَمَالِ عَقْلِهِ", "audio": "vibevoice_data/train_audio/audio_000017.wav"}
{"text": "Speaker 0: لقد عوقب على جرائمه.", "audio": "vibevoice_data/train_audio/audio_000018.wav"}
{"text": "Speaker 0: انتظر حتى يتوقف المطر عن الهطول.", "audio": "vibevoice_data/train_audio/audio_000019.wav"}
{"text": "Speaker 0: فَدَعَا رَبَّهُ أَنِّي مَغْلُوبٌ فَانتَصِرْ", "audio": "vibevoice_data/train_audio/audio_000020.wav"}
{"text": "Speaker 0: وَإِذَا قِيلَ لَهُمُ اتَّقُوا مَا بَيْنَ أَيْدِيكُمْ وَمَا خَلْفَكُمْ لَعَلَّكُمْ تُرْحَمُونَ", "audio": "vibevoice_data/train_audio/audio_000021.wav"}
{"text": "Speaker 0: وقهم السيئات ومن تق السيئات يومئذ فقد رحمته وذلك هو الفوز العظيم", "audio": "vibevoice_data/train_audio/audio_000022.wav"}
{"text": "Speaker 0: أَوْ يَكُونَ نَتِيجَةً مِنْ غَيْرِهِ", "audio": "vibevoice_data/train_audio/audio_000023.wav"}
{"text": "Speaker 0: وإذا كالوهم أو وزنوهم يخسرون", "audio": "vibevoice_data/train_audio/audio_000024.wav"}
{"text": "Speaker 0: حُمَاةَ الْحِمَى يَا حُمَاةَ الْحِمَى هَلُمُّوا هَلُمُّوا لِمَجْدِ الزَّمَنْ", "audio": "vibevoice_data/train_audio/audio_000025.wav"}
{"text": "Speaker 0: بدأ التكساسيون بتنظيم جيوشهم.", "audio": "vibevoice_data/train_audio/audio_000026.wav"}
{"text": "Speaker 0: لماذا صعدت إلى سقف بيتها؟", "audio": "vibevoice_data/train_audio/audio_000027.wav"}
{"text": "Speaker 0: الله يبدأ الخلق ثم يعيده ثم إليه ترجعون", "audio": "vibevoice_data/train_audio/audio_000028.wav"}
{"text": "Speaker 0: إن عذاب ربهم غير مأمون", "audio": "vibevoice_data/train_audio/audio_000029.wav"}
{"text": "Speaker 0: ولقد صرفناه بينهم ليذكروا فأبى أكثر الناس إلا كفورا", "audio": "vibevoice_data/train_audio/audio_000030.wav"}
{"text": "Speaker 0: قال توم أنّه لم يُفصل أحد.", "audio": "vibevoice_data/train_audio/audio_000031.wav"}
{"text": "Speaker 0: أسكن في قطر.", "audio": "vibevoice_data/train_audio/audio_000032.wav"}
{"text": "Speaker 0: لقد حل فصل الربيع ، الحرارة تزداد يوما بعد يوم.", "audio": "vibevoice_data/train_audio/audio_000033.wav"}
{"text": "Speaker 0: وَمَهْمَا تَكُنْ عِنْدَ امْرِئٍ مِنْ خَلِيقَةٍ وَإِنْ خَالَهَا تَخْفَى عَلَى النَّاسِ تُعْلَمْ", "audio": "vibevoice_data/train_audio/audio_000034.wav"}
{"text": "Speaker 0: الفرس هي أنثى الحصان", "audio": "vibevoice_data/train_audio/audio_000035.wav"}
{"text": "Speaker 0: لِيَكْفُرُوا بِمَا آتَيْنَاهُمْ وَلِيَتَمَتَّعُوا فَسَوْفَ يَعْلَمُونَ", "audio": "vibevoice_data/train_audio/audio_000036.wav"}
{"text": "Speaker 0: للطيور اعشاش ، وللعناكب شباك ، وللناس الصداقات.", "audio": "vibevoice_data/train_audio/audio_000037.wav"}
{"text": "Speaker 0: أخضرها من الأرض، وأزرقها من السماء", "audio": "vibevoice_data/train_audio/audio_000038.wav"}
{"text": "Speaker 0: وَعِلْمُهُ مَحْقُورٌ", "audio": "vibevoice_data/train_audio/audio_000039.wav"}
{"text": "Speaker 0: ما الذي يراهُ فيها؟", "audio": "vibevoice_data/train_audio/audio_000040.wav"}
{"text": "Speaker 0: لَقَدْ أَضَلَّنِي عَنِ الذِّكْرِ بَعْدَ إِذْ جَاءَنِي وَكَانَ الشَّيْطَانُ لِلْإِنْسَانِ خَذُولًا", "audio": "vibevoice_data/train_audio/audio_000041.wav"}
{"text": "Speaker 0: لَقَدْ خَلَقْنَا الْإِنْسَانَ فِي أَحْسَنِ تَقْوِيمٍ", "audio": "vibevoice_data/train_audio/audio_000042.wav"}
{"text": "Speaker 0: كتب عليه أنه من تولاه فأنه يضله ويهديه إلى عذاب السعير", "audio": "vibevoice_data/train_audio/audio_000043.wav"}
{"text": "Speaker 0: فسوف يحاسب حسابا يسيرا", "audio": "vibevoice_data/train_audio/audio_000044.wav"}
{"text": "Speaker 0: وَلَيْسَ بَعْدَ الْمَوْتِ شَيْءٌ إلَّا الْمَوْتُ أَيْسَرُ مِنْهُ", "audio": "vibevoice_data/train_audio/audio_000045.wav"}
{"text": "Speaker 0: أراد سامي أن يقتل ليلى كي يستولي على ملكيتها العقّاريّة.", "audio": "vibevoice_data/train_audio/audio_000046.wav"}
{"text": "Speaker 0: قَالَ الَّذِينَ اسْتَكْبَرُوا إِنَّا بِالَّذِي آمَنْتُمْ بِهِ كَافِرُونَ", "audio": "vibevoice_data/train_audio/audio_000047.wav"}
{"text": "Speaker 0: وَنَبِّئْهُمْ عَنْ ضَيْفِ إِبْرَاهِيمَ", "audio": "vibevoice_data/train_audio/audio_000048.wav"}
{"text": "Speaker 0: نريد السلام في العالم.", "audio": "vibevoice_data/train_audio/audio_000049.wav"}
{"text": "Speaker 0: حلمي هو أن أصبح مغنّيا.", "audio": "vibevoice_data/train_audio/audio_000050.wav"}
{"text": "Speaker 0: هل تريدني حقاً أن أخبر توم بشأنك أنتَ و ماري ؟", "audio": "vibevoice_data/train_audio/audio_000051.wav"}
{"text": "Speaker 0: وجهها مضحِك.", "audio": "vibevoice_data/train_audio/audio_000052.wav"}
{"text": "Speaker 0: كان شوب ، ففتحت الشباك", "audio": "vibevoice_data/train_audio/audio_000053.wav"}
{"text": "Speaker 0: هي تشرب الماء فقط.", "audio": "vibevoice_data/train_audio/audio_000054.wav"}
{"text": "Speaker 0: انا انتظره منذ هذا الصباح الباكر.", "audio": "vibevoice_data/train_audio/audio_000055.wav"}
{"text": "Speaker 0: الحانوت يبيع الجرائد و المجلات.", "audio": "vibevoice_data/train_audio/audio_000056.wav"}
{"text": "Speaker 0: اقْتُلُوا يُوسُفَ أَوِ اطْرَحُوهُ أَرْضًا يَخْلُ لَكُمْ وَجْهُ أَبِيكُمْ وَتَكُونُوا مِنْ بَعْدِهِ قَوْمًا صَالِحِينَ", "audio": "vibevoice_data/train_audio/audio_000057.wav"}
{"text": "Speaker 0: بينما كنت ذاهبا إلى العمل ، التقيت بعمي.", "audio": "vibevoice_data/train_audio/audio_000058.wav"}
{"text": "Speaker 0: قل هو الذي ذرأكم في الأرض وإليه تحشرون", "audio": "vibevoice_data/train_audio/audio_000059.wav"}
{"text": "Speaker 0: وَلَوْ شَاءَ اللَّهُ مَا أَشْرَكُوا وَمَا جَعَلْنَاكَ عَلَيْهِمْ حَفِيظًا وَمَا أَنْتَ عَلَيْهِمْ بِوَكِيلٍ", "audio": "vibevoice_data/train_audio/audio_000060.wav"}
{"text": "Speaker 0: لقد وعدتني.", "audio": "vibevoice_data/train_audio/audio_000061.wav"}
{"text": "Speaker 0: كَلَّا سَيَكْفُرُونَ بِعِبَادَتِهِمْ وَيَكُونُونَ عَلَيْهِمْ ضِدًّا", "audio": "vibevoice_data/train_audio/audio_000062.wav"}
{"text": "Speaker 0: وَأَمَّا مَا يَصْلُحُ بِهِ حَالُ الْإِنْسَانِ فِيهَا فَثَلَاثَةُ أَشْيَاءَ", "audio": "vibevoice_data/train_audio/audio_000063.wav"}
{"text": "Speaker 0: كان عمر الفقيد ثمانين سنة.", "audio": "vibevoice_data/train_audio/audio_000064.wav"}
{"text": "Speaker 0: اشتريت سيارة جديدة الاسبوع الماضي.", "audio": "vibevoice_data/train_audio/audio_000065.wav"}
{"text": "Speaker 0: وَمِنْهَا كَثْرَةُ اشْتِغَالِهِ وَتَرَادُفُ حَالَاتِهِ حَتَّى أَنَّهَا تَسْتَوْعِبُ زَمَانَهُ وَتَسْتَنْفِدُ أَيَّامَهُ", "audio": "vibevoice_data/train_audio/audio_000066.wav"}
{"text": "Speaker 0: لا أصدق أن توم هو القاتل.", "audio": "vibevoice_data/train_audio/audio_000067.wav"}
{"text": "Speaker 0: هذا المكتب لي.", "audio": "vibevoice_data/train_audio/audio_000068.wav"}

ABDALLALSWAITI

Sep 29, 2025

•

edited Sep 29, 2025

Hi! I recommend starting with the default parameters. I used these: src.finetune_vibevoice_lora --model_name_or_path aoi-ot/VibeVoice-Large --processor_name_or_path src/vibevoice/processor --train_jsonl train_vibevoice.jsonl --text_column_name text --audio_column_name audio --output_dir outputs --per_device_train_batch_size 8 --gradient_accumulation_steps 16 --learning_rate 2.5e-5 --num_train_epochs 5 --logging_steps 1 --save_steps 100 --report_to wandb --remove_unused_columns False --bf16 True --ddpm_batch_mul 4 --ce_loss_weight 0.0 --diffusion_loss_weight 1.0 --do_train --train_diffusion_head --gradient_clipping --gradient_checkpointing True --lora_target_modules NONE --voice_prompt_drop_rate 0.2

I trained if for 3.5 epochs on an RTX 6000 PRO it took around 6 hours if I recall properly

i did training using this command the result was full model ! https://huggingface.co/ABDALLALSWAITI/vibevoice-arabic-v2

Cseti

Owner Sep 30, 2025

the script saves all modules but it only trains the diffusion head. Regardless you see everything, only the diffusion head is having updated weights

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment