wiki:Фаза1

Подготовка и конфигурација на модел (Proof-of-concept фаза)

Во оваа фаза на проектот сакав да демонстрирам практична употреба на моделот AudioLDM2. Кога почнав со оваа фаза очекував да е доста "straight-forward", но набрзо се соочив со доста проблеми околу зависности и инсталација на соодветни верзии на библиотеките кои беа потребни за да го иницијализирам самиот модел. Па се навратив на читање на документациите на моделот малку подетално, и направив соодветна requirements.txt датотека кои ги содржеше сите работни и компатибилни верзии на библиотеките.

Подготовка на работна околина

1. Програмски јазик:

  • Користев Python 3.10.11, бидејќи е стабилна верзија и компатибилна со библиотеките потребни за AudioLDM2.
  1. IDE:
  • Користев PyCharm за развој, заради подобро управување со виртуелни окружувања и дебагирање.
  • Направив ново .venv во проектната папка
  1. GPU поддршка:
  • Со команда nvidia-smi проверив дека имам CUDA 12.7, што е доволно ново за да работи со најнови верзии на Torch.

Инсталација на потребни библиотеки

Ги инсталирав сите неопходни пакети, водејќи сметка за компатибилни верзии. Најважни беа:

  • torch и torchaudio – за GPU извршување на моделот.
  • diffusers – библиотеката од HuggingFace која ја содржи имплементацијата на AudioLDM2.
  • transformers – за обработка на текстуални промптови.
  • accelerate и safetensors – оптимизација на извршување и управување со тежини на моделот.
  • soundfile, scipy – за работа со аудио фајлови.

По првичната инсталација на audioldm2 имав повеќе грешки со зависности (кај huggingface_hub, transformers и diffusers). Со експериментирање најдов стабилна комбинација и успеав да го покренам моделот.

Конфигурација на модел

Импорт и инцијализација на модел

  • Го преземав претходно обучениот модел cvssp/audioldm2 од HuggingFace.
  • Моделот го префрлив на GPU со to("cuda").

Прв тест со тескстуален промпт

  • Ова ми беше првиот успешен обид после многу "troubleshooting" со верзиите и зависностите.(понатаму направив пософистицирано решение за ова со повеќе debug принтови и поефикасен импорт директно од кеш на моделот, како и намалување/оптимизирање искористеност на GPU/CPU)

Проблеми и решенија

Несовпаѓање на верзии:

  • huggingface_hub беше нов и ја немаше функцијата cached_download, тоа го решив со фиксирање на постара верзија и подоцна со надградба на Diffusers.

Недостасувачки пакети:

  • На пример, добивав грешка за soxr и ClapFeatureExtractor. Ги инсталирав рачно за да продолжи моделот(така правев за многу од пакетите и библиотеките, вклучувајќи и ресетирање на виртуелна околина неколку пати).

Не-препознавање на CUDA:

  • На почеток не знаев дали мојата графичка карта го поддржува CUDA и дали веќе е инсталирана. Со nvidia-smi потврдив дека системот има CUDA runtime, и после многу debug принтови успеав да го решам тоа.

Резултати од Фаза 1

  • Успешно конфигурирав работна средина со PyCharm и виртуелно окружување.
  • Успешно го интегрирав AudioLDM2 и генерирав прв аудио фајл од текстуален промпт.
  • Докажав дека моделот функционира локално на мојот лаптоп со GPU поддршка.
Last modified 29 hours ago Last modified on 09/04/25 18:19:04

Attachments (2)

Download all attachments as: .zip

Note: See TracWiki for help on using the wiki.