Фаза1 – SoundSculpt

Context Navigation

← Previous Version
View Latest Version
Next Version →

Version 1 (modified by 223165, 32 hours ago) ( diff )
--

Подготовка и конфигурација на модел (Proof-of-concept фаза)

Во оваа фаза на проектот сакав да демонстрирам практична употреба на моделот AudioLDM2. Кога почнав со оваа фаза очекував да е доста "straight-forward", но набрзо се соочив со доста проблеми околу зависности и инсталација на соодветни верзии на библиотеките кои беа потребни за да го иницијализирам самиот модел. Па се навратив на читање на документациите на моделот малку подетално, и направив соодветна requirements.txt датотека кои ги содржеше сите работни и компатибилни верзии на библиотеките.

Подготовка на работна околина

Програмски јазик:

Користев Python 3.10.11, бидејќи е стабилна верзија и компатибилна со библиотеките потребни за AudioLDM2.

IDE:

Користев PyCharm за развој, заради подобро управување со виртуелни окружувања и дебагирање.
Направив ново .venv во проектната папка

GPU поддршка:

Со команда nvidia-smi проверив дека имам CUDA 12.7, што е доволно ново за да работи со најнови верзии на Torch.

Инсталација на потребни библиотеки

Инсталирав ги сите неопходни пакети, водејќи сметка за компатибилни верзии. Најважни беа:

torch и torchaudio – за GPU извршување на моделот.

diffusers – библиотеката од HuggingFace која ја содржи имплементацијата на AudioLDM2.

transformers – за обработка на текстуални промптови.

accelerate и safetensors – оптимизација на извршување и управување со тежини на моделот.

soundfile, scipy – за работа со аудио фајлови.

По првичната инсталација на audioldm2 имав повеќе грешки со зависности (кај huggingface_hub, transformers и diffusers). Со експериментирање најдов стабилна комбинација и успеав да го покренам моделот.

Конфигурација на модел

Attachments (2)

2.1.png (25.8 KB ) - added by 223165 32 hours ago.
2.2.png (22.6 KB ) - added by 223165 32 hours ago.

Download all attachments as: .zip

Note: See TracWiki for help on using the wiki.

Download in other formats:

Plain Text