| | 1 | == Истражувачка (brainstorming) фаза == |
| | 2 | |
| | 3 | Во март/април започнав со brainstorming за проектот по предметот **Компјутерски звук, музика и говор**. |
| | 4 | Сакав да креирам апликација која ќе генерира звучни ефекти со вештачка интелигенција. |
| | 5 | |
| | 6 | Целта беше да не останам само на теоретско ниво, туку да изградам работен прототип кој може да прикаже реални резултати (аудио фајлови). |
| | 7 | |
| | 8 | |
| | 9 | |
| | 10 | == Првични размислувања (brainstorming) == |
| | 11 | |
| | 12 | Прво планирав да користам **GAN базирани модели** (како WaveGAN и NSynth), бидејќи тие беа класичен пристап за аудио генерација. |
| | 13 | Но брзо сфатив дека: |
| | 14 | - Тие модели се постари, потешки за подесување |
| | 15 | - Би требало сам да соберам и обработам база на податоци и да правам fine-tuning |
| | 16 | ,што конкретно за тој период ми беше преголем залак, со оглед на тоа дека би требало да работам со технологии со кои првпат се сретнувам. |
| | 17 | - Conditional GAN (cGAN) изгледаше интересно (контрола по категории: “куче”, “река”), |
| | 18 | но остана премногу комплицирано за MVP |
| | 19 | |
| | 20 | |
| | 21 | == Алтернативи и конечна одлука == |
| | 22 | |
| | 23 | 1. **AudioLDM (и AudioLDM2)** |
| | 24 | - Diffusion-базиран модел (text-to-audio со промпт) |
| | 25 | - Поудобен за користење отколку WaveGAN (`HuggingFace` екосистем) |
| | 26 | - Поддржува prompt-based контрола (супер за мојата идеја) |
| | 27 | - Недостаток: библиотеката не се ажурира >1 година, но стабилна е |
| | 28 | |
| | 29 | 2. **Meta `AudioCraft` / `AudioGen`** |
| | 30 | - Помодерен модел за аудио генерација |
| | 31 | - Подобро одржуван |
| | 32 | - Насочен кон музика и подолги композиции, што не е во рамки со мојата идеја |
| | 33 | |
| | 34 | 3. **`ElevenLabs` Sound Effects API (приватно решение)** |
| | 35 | - Индустриско решение, разгледав концепт |
| | 36 | - Недостаток: комерцијално, не е во дух на академски проект |
| | 37 | |
| | 38 | **Финална одлука:** |
| | 39 | - Користам **AudioLDM2** бидејќи: |
| | 40 | - Овозможува text-to-audio генерација |
| | 41 | - Поддржан од `HuggingFace` diffusers |
| | 42 | - Генерира кратки звучни ефекти |
| | 43 | - Компатибилен со мојот **RTX 4060 + CUDA 12.7** |
| | 44 | - Дополнително направив тест и со `AudioCraft`, но го оставив само како споредбена технологија |
| | 45 | |
| | 46 | |
| | 47 | == Одлука за GUI == |
| | 48 | |
| | 49 | - Прво размислував за **Tkinter** |
| | 50 | - Недостатоци: застарен, ретко користен, естетски неубав |
| | 51 | - Се одлучив за **Gradio** |
| | 52 | - Лесна интеграција со ВИ модели |
| | 53 | - Релевантен и користен во ВИ проекти |
| | 54 | - Web-based, односно UI директно во прелистувач |
| | 55 | |
| | 56 | |
| | 57 | == Заклучок == |
| | 58 | |
| | 59 | Финалната структура на проектот е: |
| | 60 | 1. **Модел**: AudioLDM2 (text-to-audio) |
| | 61 | 2. **Frontend**: Gradio (web GUI) |
| | 62 | 3. **Backend**: Python + `HuggingFace` Diffusers |
| | 63 | 4. **Локално извршување**: NVIDIA RTX 4060 + CUDA 12.7 |
| | 64 | 5. **Deplyment/Presentation**: `HuggingFace` Spaces |
| | 65 | |
| | 66 | Со ова ја завршив **Фаза 0 (Истражувачка фаза)** |
| | 67 | и ја докажав изводливоста преку [wiki:Фаза1 "Фаза 1"]. |