Changes between Initial Version and Version 1 of Фаза0


Ignore:
Timestamp:
09/04/25 17:36:08 (36 hours ago)
Author:
223165
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • Фаза0

    v1 v1  
     1== Истражувачка (brainstorming) фаза ==
     2
     3Во март/април започнав со brainstorming за проектот по предметот **Компјутерски звук, музика и говор**.
     4Сакав да креирам апликација која ќе генерира звучни ефекти со вештачка интелигенција. 
     5
     6Целта беше да не останам само на теоретско ниво, туку да изградам работен прототип кој може да прикаже реални резултати (аудио фајлови).
     7 
     8
     9
     10== Првични размислувања (brainstorming) ==
     11
     12Прво планирав да користам **GAN базирани модели** (како WaveGAN и NSynth), бидејќи тие беа класичен пристап за аудио генерација. 
     13Но брзо сфатив дека:
     14- Тие модели се постари, потешки за подесување
     15- Би требало сам да соберам и обработам база на податоци и да правам fine-tuning 
     16  ,што конкретно за тој период ми беше преголем залак, со оглед на тоа дека би требало да работам со технологии со кои првпат се сретнувам.
     17- Conditional GAN (cGAN) изгледаше интересно (контрола по категории: “куче”, “река”), 
     18  но остана премногу комплицирано за MVP
     19
     20
     21== Алтернативи и конечна одлука ==
     22
     231. **AudioLDM (и AudioLDM2)** 
     24   - Diffusion-базиран модел (text-to-audio со промпт) 
     25   - Поудобен за користење отколку WaveGAN (`HuggingFace` екосистем) 
     26   - Поддржува prompt-based контрола (супер за мојата идеја) 
     27   - Недостаток: библиотеката не се ажурира >1 година, но стабилна е 
     28
     292. **Meta `AudioCraft` / `AudioGen`** 
     30   - Помодерен модел за аудио генерација 
     31   - Подобро одржуван 
     32   - Насочен кон музика и подолги композиции, што не е во рамки со мојата идеја
     33
     343. **`ElevenLabs` Sound Effects API (приватно решение)** 
     35   - Индустриско решение, разгледав концепт 
     36   - Недостаток: комерцијално, не е во дух на академски проект 
     37
     38**Финална одлука:** 
     39- Користам **AudioLDM2** бидејќи: 
     40  - Овозможува text-to-audio генерација 
     41  - Поддржан од `HuggingFace` diffusers 
     42  - Генерира кратки звучни ефекти 
     43  - Компатибилен со мојот **RTX 4060 + CUDA 12.7** 
     44- Дополнително направив тест и со `AudioCraft`, но го оставив само како споредбена технологија 
     45
     46
     47== Одлука за GUI ==
     48
     49- Прво размислував за **Tkinter** 
     50  - Недостатоци: застарен, ретко користен, естетски неубав 
     51- Се одлучив за **Gradio** 
     52  - Лесна интеграција со ВИ модели 
     53  - Релевантен и користен во ВИ проекти 
     54  - Web-based, односно UI директно во прелистувач 
     55
     56
     57== Заклучок ==
     58
     59Финалната структура на проектот е:
     601. **Модел**: AudioLDM2 (text-to-audio) 
     612. **Frontend**: Gradio (web GUI) 
     623. **Backend**: Python + `HuggingFace` Diffusers 
     634. **Локално извршување**: NVIDIA RTX 4060 + CUDA 12.7 
     645. **Deplyment/Presentation**: `HuggingFace` Spaces
     65
     66Со ова ја завршив **Фаза 0 (Истражувачка фаза)** 
     67и ја докажав изводливоста преку [wiki:Фаза1 "Фаза 1"].