| | 1 | == Подготовка и конфигурација на модел (Proof-of-concept фаза) == |
| | 2 | |
| | 3 | Во оваа фаза на проектот сакав да демонстрирам практична употреба на моделот AudioLDM2. |
| | 4 | Кога почнав со оваа фаза очекував да е доста "straight-forward", но набрзо се соочив со доста проблеми околу зависности и инсталација на соодветни верзии на библиотеките кои беа потребни за да го иницијализирам самиот модел. Па се навратив на читање на документациите на моделот малку подетално, и направив соодветна `requirements.txt` датотека кои ги содржеше сите работни и компатибилни верзии на библиотеките. |
| | 5 | |
| | 6 | == Подготовка на работна околина == |
| | 7 | |
| | 8 | 1. Програмски јазик: |
| | 9 | |
| | 10 | - Користев Python 3.10.11, бидејќи е стабилна верзија и компатибилна со библиотеките потребни за AudioLDM2. |
| | 11 | |
| | 12 | 2. IDE: |
| | 13 | |
| | 14 | - Користев PyCharm за развој, заради подобро управување со виртуелни окружувања и дебагирање. |
| | 15 | - Направив ново `.venv` во проектната папка |
| | 16 | |
| | 17 | 3. GPU поддршка: |
| | 18 | |
| | 19 | |
| | 20 | - Со команда `nvidia-smi` проверив дека имам CUDA 12.7, што е доволно ново за да работи со најнови верзии на Torch. |
| | 21 | |
| | 22 | == Инсталација на потребни библиотеки == |
| | 23 | |
| | 24 | Инсталирав ги сите неопходни пакети, водејќи сметка за компатибилни верзии. Најважни беа: |
| | 25 | |
| | 26 | - `torch` и `torchaudio` – за GPU извршување на моделот. |
| | 27 | |
| | 28 | - `diffusers` – библиотеката од `HuggingFace` која ја содржи имплементацијата на AudioLDM2. |
| | 29 | |
| | 30 | - `transformers` – за обработка на текстуални промптови. |
| | 31 | |
| | 32 | - `accelerate` и `safetensors` – оптимизација на извршување и управување со тежини на моделот. |
| | 33 | |
| | 34 | - `soundfile`, `scipy` – за работа со аудио фајлови. |
| | 35 | |
| | 36 | По првичната инсталација на audioldm2 имав повеќе грешки со зависности (кај `huggingface_hub`, `transformers` и `diffusers`). Со експериментирање најдов стабилна комбинација и успеав да го покренам моделот. |
| | 37 | |
| | 38 | == Конфигурација на модел == |
| | 39 | |
| | 40 | |
| | 41 | |