Context Navigation

Changes between Version 4 and Version 5 of АdvancedPhase

Timestamp:: 06/14/26 16:45:50 (7 weeks ago)
Author:: 231077
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

АdvancedPhase

-              v4
+              v5
+= Advanced Phase - AI Book Recommendation System with pgvector =
+== Опис ==
+Во оваа фаза е имплементиран систем за персонализирани препораки на книги со користење на AI embeddings и pgvector екстензијата за PostgreSQL.
+Целта е за даден член да се препорачаат книги што сè уште ги нема позајмено, но кои се семантички слични со книгите што претходно ги има позајмено.
+Секоја книга добива векторска репрезентација (embedding) генерирана од:
+{{{
+book title + description + genres + categories + authors
+}}}
+== Како функционира? ==
+Основната идеја е:
+{{{
+Book metadata -> AI model -> Vector embedding -> Cosine similarity -> Recommended books
+}}}
+За секој член системот ги зема книгите од loan_history, го пресметува просечниот embedding профил на членот и потоа ги споредува сите останати книги со тој профил преку cosine similarity.
+== Чекор 1 - PostgreSQL со pgvector во Docker ==
+Бидејќи локалниот PostgreSQL немаше достапна vector екстензија, беше креиран Docker PostgreSQL container со веќе инсталиран pgvector.
+{{{
+docker run --name booknest-postgres \
+-e POSTGRES_PASSWORD=postgres \
+-e POSTGRES_DB=booknest \
+-p 5433:5432 \
+-d pgvector/pgvector:pg16
+}}}
+Потоа во DataGrip беше креирана нова конекција:
+{{{
+Host: localhost
+Port: 5433
+Database: booknest
+User: postgres
+Password: postgres
+}}}
+Со ова беше овозможено користење на pgvector екстензијата во проектот.
+== Чекор 2 - Префрлање на постоечката база ==
+Постоечката BookNest база беше извезена со pg_dump:
+{{{
+"C:\Program Files\PostgreSQL\18\bin\pg_dump.exe"
+-h localhost
+-p 5432
+-U postgres
+-d postgres
+-f C:\Users\Ivana\Desktop\booknest_backup.sql
+}}}
+Потоа backup фајлот беше внесен во Docker PostgreSQL базата:
+{{{
+"C:\Program Files\PostgreSQL\18\bin\psql.exe"
+-h localhost
+-p 5433
+-U postgres
+-d booknest
+-f C:\Users\Ivana\Desktop\booknest_backup.sql
+}}}
+На овој начин сите постоечки податоци беа успешно префрлени во новата pgvector база.
+== Чекор 3 - Активирање на pgvector ==
+Во PostgreSQL беше активирана vector екстензијата:
+{{{
+CREATE EXTENSION IF NOT EXISTS vector;
+}}}
+Проверка:
+{{{
+SELECT *
+FROM pg_available_extensions
+WHERE name='vector';
+}}}
+[[Image(vector_extension.png,700px)]]
+Резултатот потврдува дека pgvector е успешно инсталиран и активен.
+== Чекор 4 - Додавање embedding колона ==
+Во табелата book беше додадена нова колона од тип vector(384):
+{{{
+ALTER TABLE book
+ADD COLUMN IF NOT EXISTS embedding vector(384);
+}}}
+Димензијата 384 одговара на AI моделот all-MiniLM-L6-v2 кој се користи за генерирање embeddings.
+Секој запис во оваа колона содржи векторска репрезентација на една книга.
+== Чекор 5 - Генерирање embeddings ==
+Беа инсталирани потребните Python библиотеки:
+{{{
+pip install sentence-transformers psycopg2-binary
+}}}
+Креирана беше Python скрипта generate_embeddings.py.
+Скриптата ги чита:
+ * насловот на книгата
+ * описот
+ * жанровите
+ * категориите
+ * авторите
+и од нив генерира embedding користејќи го моделот:
+{{{
+all-MiniLM-L6-v2
+}}}
+Генерираниот embedding се зачувува во колоната:
+{{{
+book.embedding
+}}}
+По извршувањето на скриптата беа генерирани embeddings за 10000 книги.
+Проверка:
+{{{
+SELECT COUNT(*)
+FROM book
+WHERE embedding IS NOT NULL;
+}}}
+[[Image(embeddings_generated.png,700px)]]
+Резултатот покажува дека embeddings се успешно генерирани.
+== Чекор 6 - Индекс за побрзо пребарување ==
+За побрзо пребарување по cosine similarity беше креиран ivfflat индекс:
+{{{
+CREATE INDEX IF NOT EXISTS idx_book_embedding
+ON book
+USING ivfflat (embedding vector_cosine_ops)
+WITH (lists = 100);
+ANALYZE book;
+}}}
+Овој индекс овозможува значително побрзо пребарување на најслични вектори без да се споредуваат сите книги во табелата.
+== Чекор 7 - Функција за препораки ==
+Беше креирана PostgreSQL функција:
+{{{
+recommend_books_for_member_pgvector(
+    p_member_id,
+    p_limit
+)
+}}}
+Функцијата работи во неколку чекори:
+. Ги наоѓа книгите што членот претходно ги има позајмено.
+. Го пресметува просечниот embedding профил на членот.
+. Ги разгледува сите останати книги.
+. Ги исклучува книгите што членот веќе ги има позајмено.
+. Ги рангира книгите според cosine similarity.
+. Ги враќа најдобрите N препораки.
+Клучниот pgvector дел е:
+{{{
+b.embedding <=> mp.profile_embedding
+}}}
+Операторот `<=>` пресметува cosine distance помеѓу два embeddings.
+Similarity се пресметува како:
+{{{
+- (b.embedding <=> mp.profile_embedding)
+}}}
+Колку вредноста е поблиску до 1, толку книгата е послична на читачкиот профил на членот.
 == Чекор 8 - Тестирање на препораките ==