| | 1 | = Advanced Phase - AI Book Recommendation System with pgvector = |
| | 2 | |
| | 3 | == Опис == |
| | 4 | |
| | 5 | Во оваа фаза е имплементиран систем за персонализирани препораки на книги со користење на AI embeddings и pgvector екстензијата за PostgreSQL. |
| | 6 | |
| | 7 | Целта е за даден член да се препорачаат книги што сè уште ги нема позајмено, но кои се семантички слични со книгите што претходно ги има позајмено. |
| | 8 | |
| | 9 | Секоја книга добива векторска репрезентација (embedding) генерирана од: |
| | 10 | |
| | 11 | {{{ |
| | 12 | book title + description + genres + categories + authors |
| | 13 | }}} |
| | 14 | |
| | 15 | == Како функционира? == |
| | 16 | |
| | 17 | Основната идеја е: |
| | 18 | |
| | 19 | {{{ |
| | 20 | Book metadata -> AI model -> Vector embedding -> Cosine similarity -> Recommended books |
| | 21 | }}} |
| | 22 | |
| | 23 | За секој член системот ги зема книгите од loan_history, го пресметува просечниот embedding профил на членот и потоа ги споредува сите останати книги со тој профил преку cosine similarity. |
| | 24 | |
| | 25 | == Чекор 1 - PostgreSQL со pgvector во Docker == |
| | 26 | |
| | 27 | Бидејќи локалниот PostgreSQL немаше достапна vector екстензија, беше креиран Docker PostgreSQL container со веќе инсталиран pgvector. |
| | 28 | |
| | 29 | {{{ |
| | 30 | docker run --name booknest-postgres \ |
| | 31 | -e POSTGRES_PASSWORD=postgres \ |
| | 32 | -e POSTGRES_DB=booknest \ |
| | 33 | -p 5433:5432 \ |
| | 34 | -d pgvector/pgvector:pg16 |
| | 35 | }}} |
| | 36 | |
| | 37 | Потоа во DataGrip беше креирана нова конекција: |
| | 38 | |
| | 39 | {{{ |
| | 40 | Host: localhost |
| | 41 | Port: 5433 |
| | 42 | Database: booknest |
| | 43 | User: postgres |
| | 44 | Password: postgres |
| | 45 | }}} |
| | 46 | |
| | 47 | Со ова беше овозможено користење на pgvector екстензијата во проектот. |
| | 48 | |
| | 49 | == Чекор 2 - Префрлање на постоечката база == |
| | 50 | |
| | 51 | Постоечката BookNest база беше извезена со pg_dump: |
| | 52 | |
| | 53 | {{{ |
| | 54 | "C:\Program Files\PostgreSQL\18\bin\pg_dump.exe" |
| | 55 | -h localhost |
| | 56 | -p 5432 |
| | 57 | -U postgres |
| | 58 | -d postgres |
| | 59 | -f C:\Users\Ivana\Desktop\booknest_backup.sql |
| | 60 | }}} |
| | 61 | |
| | 62 | Потоа backup фајлот беше внесен во Docker PostgreSQL базата: |
| | 63 | |
| | 64 | {{{ |
| | 65 | "C:\Program Files\PostgreSQL\18\bin\psql.exe" |
| | 66 | -h localhost |
| | 67 | -p 5433 |
| | 68 | -U postgres |
| | 69 | -d booknest |
| | 70 | -f C:\Users\Ivana\Desktop\booknest_backup.sql |
| | 71 | }}} |
| | 72 | |
| | 73 | На овој начин сите постоечки податоци беа успешно префрлени во новата pgvector база. |
| | 74 | |
| | 75 | == Чекор 3 - Активирање на pgvector == |
| | 76 | |
| | 77 | Во PostgreSQL беше активирана vector екстензијата: |
| | 78 | |
| | 79 | {{{ |
| | 80 | CREATE EXTENSION IF NOT EXISTS vector; |
| | 81 | }}} |
| | 82 | |
| | 83 | Проверка: |
| | 84 | |
| | 85 | {{{ |
| | 86 | SELECT * |
| | 87 | FROM pg_available_extensions |
| | 88 | WHERE name='vector'; |
| | 89 | }}} |
| | 90 | |
| | 91 | [[Image(vector_extension.png,700px)]] |
| | 92 | |
| | 93 | Резултатот потврдува дека pgvector е успешно инсталиран и активен. |
| | 94 | |
| | 95 | == Чекор 4 - Додавање embedding колона == |
| | 96 | |
| | 97 | Во табелата book беше додадена нова колона од тип vector(384): |
| | 98 | |
| | 99 | {{{ |
| | 100 | ALTER TABLE book |
| | 101 | ADD COLUMN IF NOT EXISTS embedding vector(384); |
| | 102 | }}} |
| | 103 | |
| | 104 | Димензијата 384 одговара на AI моделот all-MiniLM-L6-v2 кој се користи за генерирање embeddings. |
| | 105 | |
| | 106 | Секој запис во оваа колона содржи векторска репрезентација на една книга. |
| | 107 | |
| | 108 | == Чекор 5 - Генерирање embeddings == |
| | 109 | |
| | 110 | Беа инсталирани потребните Python библиотеки: |
| | 111 | |
| | 112 | {{{ |
| | 113 | pip install sentence-transformers psycopg2-binary |
| | 114 | }}} |
| | 115 | |
| | 116 | Креирана беше Python скрипта generate_embeddings.py. |
| | 117 | |
| | 118 | Скриптата ги чита: |
| | 119 | |
| | 120 | * насловот на книгата |
| | 121 | * описот |
| | 122 | * жанровите |
| | 123 | * категориите |
| | 124 | * авторите |
| | 125 | |
| | 126 | и од нив генерира embedding користејќи го моделот: |
| | 127 | |
| | 128 | {{{ |
| | 129 | all-MiniLM-L6-v2 |
| | 130 | }}} |
| | 131 | |
| | 132 | Генерираниот embedding се зачувува во колоната: |
| | 133 | |
| | 134 | {{{ |
| | 135 | book.embedding |
| | 136 | }}} |
| | 137 | |
| | 138 | По извршувањето на скриптата беа генерирани embeddings за 10000 книги. |
| | 139 | |
| | 140 | Проверка: |
| | 141 | |
| | 142 | {{{ |
| | 143 | SELECT COUNT(*) |
| | 144 | FROM book |
| | 145 | WHERE embedding IS NOT NULL; |
| | 146 | }}} |
| | 147 | |
| | 148 | [[Image(embeddings_generated.png,700px)]] |
| | 149 | |
| | 150 | Резултатот покажува дека embeddings се успешно генерирани. |
| | 151 | |
| | 152 | == Чекор 6 - Индекс за побрзо пребарување == |
| | 153 | |
| | 154 | За побрзо пребарување по cosine similarity беше креиран ivfflat индекс: |
| | 155 | |
| | 156 | {{{ |
| | 157 | CREATE INDEX IF NOT EXISTS idx_book_embedding |
| | 158 | ON book |
| | 159 | USING ivfflat (embedding vector_cosine_ops) |
| | 160 | WITH (lists = 100); |
| | 161 | |
| | 162 | ANALYZE book; |
| | 163 | }}} |
| | 164 | |
| | 165 | Овој индекс овозможува значително побрзо пребарување на најслични вектори без да се споредуваат сите книги во табелата. |
| | 166 | |
| | 167 | == Чекор 7 - Функција за препораки == |
| | 168 | |
| | 169 | Беше креирана PostgreSQL функција: |
| | 170 | |
| | 171 | {{{ |
| | 172 | recommend_books_for_member_pgvector( |
| | 173 | p_member_id, |
| | 174 | p_limit |
| | 175 | ) |
| | 176 | }}} |
| | 177 | |
| | 178 | Функцијата работи во неколку чекори: |
| | 179 | |
| | 180 | 1. Ги наоѓа книгите што членот претходно ги има позајмено. |
| | 181 | 2. Го пресметува просечниот embedding профил на членот. |
| | 182 | 3. Ги разгледува сите останати книги. |
| | 183 | 4. Ги исклучува книгите што членот веќе ги има позајмено. |
| | 184 | 5. Ги рангира книгите според cosine similarity. |
| | 185 | 6. Ги враќа најдобрите N препораки. |
| | 186 | |
| | 187 | Клучниот pgvector дел е: |
| | 188 | |
| | 189 | {{{ |
| | 190 | b.embedding <=> mp.profile_embedding |
| | 191 | }}} |
| | 192 | |
| | 193 | Операторот `<=>` пресметува cosine distance помеѓу два embeddings. |
| | 194 | |
| | 195 | Similarity се пресметува како: |
| | 196 | |
| | 197 | {{{ |
| | 198 | 1 - (b.embedding <=> mp.profile_embedding) |
| | 199 | }}} |
| | 200 | |
| | 201 | Колку вредноста е поблиску до 1, толку книгата е послична на читачкиот профил на членот. |