Context Navigation

← Previous Change
Wiki History
Next Change →

Changes between Initial Version and Version 1 of Фаза0

Timestamp:: 09/04/25 17:36:08 (6 months ago)
Author:: 223165
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

Фаза0

               v1
+== Истражувачка (brainstorming) фаза ==
+Во март/април започнав со brainstorming за проектот по предметот **Компјутерски звук, музика и говор**.
+Сакав да креирам апликација која ќе генерира звучни ефекти со вештачка интелигенција.
+Целта беше да не останам само на теоретско ниво, туку да изградам работен прототип кој може да прикаже реални резултати (аудио фајлови).
+== Првични размислувања (brainstorming) ==
+Прво планирав да користам **GAN базирани модели** (како WaveGAN и NSynth), бидејќи тие беа класичен пристап за аудио генерација.
+Но брзо сфатив дека:
+- Тие модели се постари, потешки за подесување
+- Би требало сам да соберам и обработам база на податоци и да правам fine-tuning
+  ,што конкретно за тој период ми беше преголем залак, со оглед на тоа дека би требало да работам со технологии со кои првпат се сретнувам.
+- Conditional GAN (cGAN) изгледаше интересно (контрола по категории: “куче”, “река”),
+  но остана премногу комплицирано за MVP
+== Алтернативи и конечна одлука ==
+. **AudioLDM (и AudioLDM2)**
+   - Diffusion-базиран модел (text-to-audio со промпт)
+   - Поудобен за користење отколку WaveGAN (`HuggingFace` екосистем)
+   - Поддржува prompt-based контрола (супер за мојата идеја)
+   - Недостаток: библиотеката не се ажурира >1 година, но стабилна е
+. **Meta `AudioCraft` / `AudioGen`**
+   - Помодерен модел за аудио генерација
+   - Подобро одржуван
+   - Насочен кон музика и подолги композиции, што не е во рамки со мојата идеја
+. **`ElevenLabs` Sound Effects API (приватно решение)**
+   - Индустриско решение, разгледав концепт
+   - Недостаток: комерцијално, не е во дух на академски проект
+**Финална одлука:**
+- Користам **AudioLDM2** бидејќи:
+  - Овозможува text-to-audio генерација
+  - Поддржан од `HuggingFace` diffusers
+  - Генерира кратки звучни ефекти
+  - Компатибилен со мојот **RTX 4060 + CUDA 12.7**
+- Дополнително направив тест и со `AudioCraft`, но го оставив само како споредбена технологија
+== Одлука за GUI ==
+- Прво размислував за **Tkinter**
+  - Недостатоци: застарен, ретко користен, естетски неубав
+- Се одлучив за **Gradio**
+  - Лесна интеграција со ВИ модели
+  - Релевантен и користен во ВИ проекти
+  - Web-based, односно UI директно во прелистувач
+== Заклучок ==
+Финалната структура на проектот е:
+. **Модел**: AudioLDM2 (text-to-audio)
+. **Frontend**: Gradio (web GUI)
+. **Backend**: Python + `HuggingFace` Diffusers
+. **Локално извршување**: NVIDIA RTX 4060 + CUDA 12.7
+. **Deplyment/Presentation**: `HuggingFace` Spaces
+Со ова ја завршив **Фаза 0 (Истражувачка фаза)**
+и ја докажав изводливоста преку [wiki:Фаза1 "Фаза 1"].