Changes between Version 1 and Version 2 of Фаза0
- Timestamp:
- 09/04/25 17:40:08 (32 hours ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
Фаза0
v1 v2 22 22 23 23 1. **AudioLDM (и AudioLDM2)** 24 - Diffusion-базиран модел (text -to-audio со промпт)25 - По удобен за користењеотколку WaveGAN (`HuggingFace` екосистем)24 - Diffusion-базиран модел (text prompt-to-audio) 25 - Полесен за користење и посоодветен за мојата идеја отколку WaveGAN (`HuggingFace` екосистем) 26 26 - Поддржува prompt-based контрола (супер за мојата идеја) 27 - Недостаток: библиотеката не се ажурира >1 година, но стабилна е27 - Недостаток: библиотеката не e ажурирана повеќе од година, но е стабилна 28 28 29 29 2. **Meta `AudioCraft` / `AudioGen`** … … 33 33 34 34 3. **`ElevenLabs` Sound Effects API (приватно решение)** 35 - Индустриско решение, разгледав концепт35 - Индустриско решение, го разгледав како опција при истражување 36 36 - Недостаток: комерцијално, не е во дух на академски проект 37 37 … … 48 48 49 49 - Прво размислував за **Tkinter** 50 - Недостатоци: застарен, ретко користен, естетски неубав51 - Се одлучив за **Gradio** 50 - Беше застарен, ретко користен, естетски не одговараше со моите идеи 51 - Се одлучив за **Gradio** бидејќи има: 52 52 - Лесна интеграција со ВИ модели 53 53 - Релевантен и користен во ВИ проекти … … 62 62 3. **Backend**: Python + `HuggingFace` Diffusers 63 63 4. **Локално извршување**: NVIDIA RTX 4060 + CUDA 12.7 64 5. **Depl yment/Presentation**: `HuggingFace` Spaces64 5. **Deployment/Presentation**: `HuggingFace` Spaces 65 65 66 66 Со ова ја завршив **Фаза 0 (Истражувачка фаза)**