Version 1 (modified by 32 hours ago) ( diff ) | ,
---|
Подготовка и конфигурација на модел (Proof-of-concept фаза)
Во оваа фаза на проектот сакав да демонстрирам практична употреба на моделот AudioLDM2.
Кога почнав со оваа фаза очекував да е доста "straight-forward", но набрзо се соочив со доста проблеми околу зависности и инсталација на соодветни верзии на библиотеките кои беа потребни за да го иницијализирам самиот модел. Па се навратив на читање на документациите на моделот малку подетално, и направив соодветна requirements.txt
датотека кои ги содржеше сите работни и компатибилни верзии на библиотеките.
Подготовка на работна околина
- Програмски јазик:
- Користев Python 3.10.11, бидејќи е стабилна верзија и компатибилна со библиотеките потребни за AudioLDM2.
- IDE:
- Користев PyCharm за развој, заради подобро управување со виртуелни окружувања и дебагирање.
- Направив ново
.venv
во проектната папка
- GPU поддршка:
- Со команда
nvidia-smi
проверив дека имам CUDA 12.7, што е доволно ново за да работи со најнови верзии на Torch.
Инсталација на потребни библиотеки
Инсталирав ги сите неопходни пакети, водејќи сметка за компатибилни верзии. Најважни беа:
torch
иtorchaudio
– за GPU извршување на моделот.
diffusers
– библиотеката одHuggingFace
која ја содржи имплементацијата на AudioLDM2.
transformers
– за обработка на текстуални промптови.
accelerate
иsafetensors
– оптимизација на извршување и управување со тежини на моделот.
soundfile
,scipy
– за работа со аудио фајлови.
По првичната инсталација на audioldm2 имав повеќе грешки со зависности (кај huggingface_hub
, transformers
и diffusers
). Со експериментирање најдов стабилна комбинација и успеав да го покренам моделот.
Конфигурација на модел
Attachments (2)
- 2.1.png (25.8 KB ) - added by 32 hours ago.
- 2.2.png (22.6 KB ) - added by 32 hours ago.
Download all attachments as: .zip