Context Navigation

Changes between Version 3 and Version 4 of Phase1_FileSystems

Timestamp:: 12/02/25 04:31:11 (7 months ago)
Author:: 226052
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

Phase1_FileSystems

-              v3
+              v4
+== ИНДЕКСИ
+Индексите се посебни структури на податоци кои го забрзуваат пребарувањето и пристапот до податоци во табелите. Без индекси, PostgreSQL мора да изврши последователно скенирање(sequential scan) на целата табела за да ги најде потребните редови. Со индекси, пребарувањето е значително побрзо, особено кај табели со голем број на редови.
+Типови на индекси во PostgreSQL:
+* '''B-tree''' - стандарден индекс, погоден за пребарување по еднаквост и опсег (=, <, >, <=, >=, BETWEEN)
+* '''Hash''' - за едноставни споредби со (=)
+* '''GiST''' - за геометриски податоци и full-text податоци. Нуди повеќе стратегии како nearest neighbor и делумно совпаѓање со пребарувањето.
+* '''GIN''' (Generalized Inverted Index) - за колони со повеќевредносни податоци (JSONB, arrays, full-text search)
+* '''BRIN''' (Block Range Index) - компактен индекс наменет за екстремно големи табели. Наместо да го индексира секој ред поединечно, ги групира редовите во блокови и чува сумарни информации за секој блок, што заштедува значителен простор на диск.
+Креирањето индекси значително ги подобрува перформансите при SELECT операции и JOIN-операции, особено кај големи табели. Од друга страна, секое додавање на нов индекс го зголемува просторот на дискот и операциите како што се INSERT, UPDATE и DELETE стануваат по спори бидејќи индексите мора да се ажурираат заедно со табелата. Затоа, индексите треба да се креираат внимателно само на колони што навистина се користат во WHERE или JOIN операции.
+Некој од најчестите прашалници за FilmRentalDB се:
+* Пребарување на филмови по наслов
+{{{
+EXPLAIN ANALYSE
+SELECT f.title
+FROM film f
+WHERE f.title = 'Film #500';
+}}}
+[[Image(query1_result.png)]]
+PostgreSQL прави последователно скенирање на целата film табела, што значи дека мора да ги прочита сите редови за да го најде точниот наслов. Ова резултира со поголемо време за извршување, особено кај табела со голем број на редови.
+По креирањето на индексот повторно го извршуваме истиот прашалник.
+{{{ CREATE INDEX index_film_title ON film(title); }}}
+[[Image(query1_result_index.png)]]
+Додавањето индекс на колоната title значително ги подобри перформансите на пребарувањето. PostgreSQL повеќе не ја скенира целата табела, туку директно пристапува до точниот запис преку индексот.
+* Пребарување на филмови по категорија
+{{{
+EXPLAIN ANALYSE
+SELECT *
+FROM customer
+WHERE last_name = 'Lastname320';
+}}}
+[[Image(query2_result.png)]]
+{{{ CREATE INDEX index_customer_lastname ON customer(last_name); }}}
+[[Image(query2_result_index.png)]]
+* Пребарување на филмови по категорија
+{{{
+EXPLAIN ANALYSE
+SELECT f.title
+FROM film f
+JOIN film_category fc ON f.film_id = fc.film_id
+JOIN category c ON c.category_id = fc.category_id
+WHERE c.name = 'Category 5';
+}}}
+[[Image(query3_result.png)]]
+Овој прашалник бара поврзување на три табели. PostgreSQL извршуваше целосно скенирање на табелата film_category, и тоа како '''Parallel Seq Scan''', што значи дека мора да ги прочита сите 200.000 редови за да го најде соодветниот category_id. Ова резултираше со време на извршување од околу 59 ms.
+Додавање на индекси.
+{{{
+CREATE INDEX idx_category_name ON category(name);
+CREATE INDEX idx_film_category_category_id ON film_category(category_id);
+CREATE INDEX idx_film_category_film_id ON film_category(film_id);
+}}}
+[[Image(query3_result_index.png)]]
+По додавањето на индексите PostgreSQL започна да користи '''Bitmap Index Scan''', кој многу поефикасно ги лоцира сите редови што припаѓаат на Category 5 и чита само релевантни страници од дискот. Времето на извршување се намали на 34 ms, што претставува значително подобрување.
+* Историја на изнајмување на клиент сортирана според датум
+{{{
+EXPLAIN ANALYSE
+SELECT
+    c.first_name,
+    c.last_name,
+    f.title,
+    r.rental_date,
+    r.return_date
+FROM customer c
+JOIN rental r ON c.customer_id = r.customer_id
+JOIN inventory i ON r.inventory_id = i.inventory_id
+JOIN film f ON i.film_id = f.film_id
+WHERE c.customer_id = 100
+ORDER BY r.rental_date DESC;
+}}}
+[[Image(query4_result.png)]]
+Пред додавање индекси, PostgreSQL правеше Parallel Sequential Scan на табелата rental и ги скенираше сите 300.000 редови за да ги најде само 10 што припаѓаат на клиентот со ID = 100. Целосното скенирање, филтрирање и финалното сортирање резултираше со време на извршување од 34.78 ms.
+{{{ CREATE INDEX index_rental_customer_date ON rental(customer_id, rental_date DESC); }}}
+[[Image(query4_result_index.png)]]
+PostgreSQL веднаш ги лоцира само релевантните записи преку Index Scan, без потреба од сортирање (податоците се веќе сортирани во индексот). Новото време на извршување е само 0.334 ms што е многу побрзо од извршување без индекс.