== Подготовка и конфигурација на модел (Proof-of-concept фаза) ==

Во оваа фаза на проектот сакав да демонстрирам практична употреба на моделот AudioLDM2.
Кога почнав со оваа фаза очекував да е доста "straight-forward", но набрзо се соочив со доста проблеми околу зависности и инсталација на соодветни верзии на библиотеките кои беа потребни за да го иницијализирам самиот модел. Па се навратив на читање на документациите на моделот малку подетално, и направив соодветна `requirements.txt` датотека кои ги содржеше сите работни и компатибилни верзии на библиотеките.

== Подготовка на работна околина == 

1. Програмски јазик:

   - Користев Python 3.10.11, бидејќи е стабилна верзија и компатибилна со библиотеките потребни за AudioLDM2.

2. IDE:

   - Користев `PyCharm` за развој, заради подобро управување со виртуелни окружувања и дебагирање.
   - Направив ново `.venv` во проектната папка

3. GPU поддршка:


   - Со команда `nvidia-smi` проверив дека имам CUDA 12.7, што е доволно ново за да работи со најнови верзии на Torch.

== Инсталација на потребни библиотеки ==

Инсталирав ги сите неопходни пакети, водејќи сметка за компатибилни верзии. Најважни беа:

- `torch` и `torchaudio` – за GPU извршување на моделот.

- `diffusers` – библиотеката од `HuggingFace` која ја содржи имплементацијата на AudioLDM2.

- `transformers` – за обработка на текстуални промптови.

- `accelerate` и `safetensors` – оптимизација на извршување и управување со тежини на моделот.

- `soundfile`, `scipy` – за работа со аудио фајлови.

По првичната инсталација на audioldm2 имав повеќе грешки со зависности (кај `huggingface_hub`, `transformers` и `diffusers`). Со експериментирање најдов стабилна комбинација и успеав да го покренам моделот.

== Конфигурација на модел ==

**Импорт и инцијализација на модел**

[[Image(2.1.png)]]

- Го преземав претходно обучениот модел `cvssp/audioldm2` од HuggingFace.

- Моделот го префрлив на GPU со `to("cuda")`.

**Прв тест со тескстуален промпт**

[[Image(2.2.png)]]

- Ова ми беше првиот успешен обид после многу "troubleshooting" со верзиите и зависностите.

== Проблеми и решенија ==

**Несовпаѓање на верзии:**

- `huggingface_hub` беше нов и ја немаше функцијата `cached_download`, тоа го решив со фиксирање на постара верзија и подоцна со надградба на Diffusers.

**Недостасувачки пакети:**

- На пример, добивав грешка за `soxr` и `ClapFeatureExtractor`. Ги инсталирав рачно за да продолжи моделот(така правев за многу од пакетите и библиотеките, вклучувајќи и ресетирање на виртуелна околина неколку пати).

**Не-препознавање на CUDA:**

- На почеток не знаев дали мојата графичка карта го поддржува CUDA и дали веќе е инсталирана. Со nvidia-smi потврдив дека системот има CUDA runtime, и после многу debug принтови успеав да го решам тоа.

== Резултати од `Фаза 1` ==

- Успешно конфигурирав работна средина со `PyCharm` и виртуелно окружување.

- Успешно го интегрирав AudioLDM2 и генерирав прв аудио фајл од текстуален промпт.

- Докажав дека моделот функционира локално на мојот лаптоп со GPU поддршка.