Context Navigation

Changes between Version 1 and Version 2 of Фаза1

Timestamp:: 09/04/25 18:16:25 (11 months ago)
Author:: 223165
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

Фаза1

-              v1
+              v2
 . IDE:
    - Користев PyCharm за развој, заради подобро управување со виртуелни окружувања и дебагирање.
+   - Користев `PyCharm` за развој, заради подобро управување со виртуелни окружувања и дебагирање.
    - Направив ново `.venv` во проектната папка
 …
 == Конфигурација на модел ==
+**Импорт и инцијализација на модел**
+[[Image(2.1.png)]]
+- Го преземав претходно обучениот модел `cvssp/audioldm2` од HuggingFace.
+- Моделот го префрлив на GPU со `to("cuda")`.
+**Прв тест со тескстуален промпт**
+[[Image(2.2.png)]]
+- Ова ми беше првиот успешен обид после многу "troubleshooting" со верзиите и зависностите.
+== Проблеми и решенија ==
+**Несовпаѓање на верзии:**
+- `huggingface_hub` беше нов и ја немаше функцијата `cached_download`, тоа го решив со фиксирање на постара верзија и подоцна со надградба на Diffusers.
+**Недостасувачки пакети:**
+- На пример, добивав грешка за `soxr` и `ClapFeatureExtractor`. Ги инсталирав рачно за да продолжи моделот(така правев за многу од пакетите и библиотеките, вклучувајќи и ресетирање на виртуелна околина неколку пати).
+**Не-препознавање на CUDA:**
+- На почеток не знаев дали мојата графичка карта го поддржува CUDA и дали веќе е инсталирана. Со nvidia-smi потврдив дека системот има CUDA runtime, и после многу debug принтови успеав да го решам тоа.
+== Резултати од `Фаза 1` ==
+- Успешно конфигурирав работна средина со `PyCharm` и виртуелно окружување.
+- Успешно го интегрирав AudioLDM2 и генерирав прв аудио фајл од текстуален промпт.
+- Докажав дека моделот функционира локално на мојот лаптоп со GPU поддршка.