= Напредна тема

== Зошто се одлучивме за темата Партиционирање ?

Во овој проект се одлучивме да примениме партиционирање на табели (table partitioning) со цел да се подобрат перформансите, скалабилноста и одржливоста на базата на податоци. Системот претставува железничка платформа каде што се генерира голем обем на податоци, особено за патувања, билети и плаќања, кои со тек на време значително се зголемуваат. Поради тоа, класичен пристап со една голема табела би довел до намалени перформанси и побавно извршување на SQL барања.

За решавање на овој проблем користевме RANGE партиционирање базирано на временски атрибути, бидејќи податоците во системот се природно временски ориентирани, освен за билетите за нив користевме HASH партиционирање.

== 1. Train Trip табела – партиционирање по departure_time ==

Табелата **Train_Trip** претставува централна табела во системот, бидејќи ги содржи сите информации за железничките патувања, како што се времето на поаѓање и пристигнување, статусот на патувањето, поврзаниот воз, како и вработените кои учествуваат во неговото извршување.

=== Причини за партиционирање 

- **Висока фреквенција на податоци**  
Секојдневно се генерираат голем број нови патувања. Со тек на време, оваа табела станува една од најголемите во системот, што може значително да ги намали перформансите при пребарување и обработка на податоци.

- **Природна временска структура**  
Секое патување има точно дефиниран атрибут `departure_time`. Овој атрибут е природно погоден за RANGE партиционирање, бидејќи податоците логички се групираат по временски интервали (месеци или години).

- **Типични прашања во системот ** 
Најчестите барања во системот се од типот:
  - Сите патувања во одреден месец  
  - Патувања во одредена година  
  - Анализа на доцнења во одреден временски период  

Овие операции бараат временско филтрирање, кое со партиционирање се извршува значително побрзо, бидејќи системот пристапува само до релевантната партиција.

- **Како помага партиционирањето**  
Со примена на месечни партиции, PostgreSQL обработува само мал дел од податоците (околу 1/12 од годишните податоци), наместо целата табела. Ова значително ги подобрува перформансите на: SELECT операции, UPDATE операции и DELETE операции.


- **DEFAULT партиција**  
Се користи и DEFAULT партиција која обезбедува стабилност на системот. Таа ги прима сите записи кои не спаѓаат во дефинираните временски опсези и спречува грешки при внесување на податоци.

=== Kод со објаснување

- **STEP 1: Преименување на старата табела**

[[Image("Screenshot 2026-05-21 185825.png", 800px)]]

-Се зачувуваат постоечките податоци во стара табела train_trip_old

-Ова овозможува безбедна миграција кон нова партиционирана структура

-Не се губат податоци

- **STEP 2: Креирање на нова партиционирана табела**

[[Image("Screenshot 2026-05-21 190107.png", 500px)]]

-Се креира нова главна табела train_trip

-Таа е parent (главна) партиционирана табела

-Податоците ќе се делат според departure_time

- **STEP 3: Креирање DEFAULT партиција (сигурносна мрежа)**

[[Image("Screenshot 2026-05-21 190326.png", 500px)]]

-Ги прима сите редови што не спаѓаат во дефинираните интервали

-Спречува грешки при INSERT

-Многу важно за стабилен систем

- **STEP 4: Автоматско креирање партиции (динамички)**

[[Image("Screenshot 2026-05-21 190749.png", 500px)]]

-Автоматски креира месечни партиции

-Почнува од 2020 до 2030

-Секоја партиција добива име: train_trip_2020_01, train_trip_2020_02 итн.

-Спречува рачно пишување на многу SQL команди

- **STEP 5: Проверка на сите партиции **

[[Image("Screenshot 2026-05-21 190958.png", 500px)]]

-Прикажува сите креирани партиции

-Проверка дали DO блокот работел

-Покажува кои табли се вистински партиции на train_trip

-Важно за проверка на правилна структура

- **STEP 6: Внесување податоци од стара табела**

[[Image("Screenshot 2026-05-21 191347.png", 500px)]]

-Ги префрла старите податоци во новата структура

-Спречува дупликати

-Внесува само нови/недостасувачки редови

=== Оптимизација

[[Image("Screenshot 2026-05-21 191347.png", 500px)]]

Со цел да се автоматизира процесот на креирање на партиции, беше имплементирана процедурата train_trip_partitions. Оваа процедура овозможува динамичко креирање на месечни партиции за табелата Train_Trip врз основа на временски интервал внесен од корисникот.
Процедурата прима два параметри: p_start_date – почетен датум и p_end_date – краен датум. Врз основа на овие вредности, автоматски се генерираат партиции за секој месец во зададениот период. Секоја партиција добива име во формат train_trip_YYYY_MM, што овозможува подобра организација и полесно управување со податоците.

Дополнително, процедурата автоматски ги мигрира податоците од старата табела train_trip_old во новата партиционирана структура. При тоа се користи NOT EXISTS проверка за да се спречи внесување на дупликати записи.

Со оваа функционалност: се автоматизира целиот процес на партиционирање, се намалува потребата од рачно креирање на партиции, се подобрува одржувањето на системот и се обезбедува подобра скалабилност и перформанса при работа со големи количини на податоци.

=== Заклучок

Со партиционирањето на табелата Train_Trip добиваме поделба на податоците во месечни табели (партиции) според departure_time. На тој начин пребарувањата се многу побрзи, бидејќи системот чита само податоци од конкретниот месец, наместо целата табела. Ова резултира со подобри перформанси, полесно одржување и поефикасна работа со големи количини на податоци.

== 2. Payment табела – партиционирање по transaction_date==

Табелата **Payment** претставува централна финансиска табела во системот, бидејќи ги содржи сите информации за извршените плаќања, како што се износот на трансакцијата, датумот и времето на плаќањето, како и поврзаната резервација.

=== Причини за партиционирање
- **Константен и брз раст на податоци**
Секојдневно се генерираат голем број нови трансакции. Со тек на време, оваа табела станува една од најголемите во системот, што може значително да ги намали перформансите при пребарување и обработка на финансиски податоци.
- **Природна временска структура**
Секое плаќање има точно дефиниран атрибут `transaction_date`. Овој атрибут е природно погоден за RANGE партиционирање, бидејќи финансиските записи логички се групираат по временски интервали, а исто така одговара на потребите за финансиско известување и ревизија.

Овие операции бараат временско филтрирање, кое со партиционирање се извршува значително побрзо, бидејќи системот пристапува само до релевантната партиција.

- **Како помага партиционирањето**
Со примена на годишни партиции, PostgreSQL ги изолира податоците по години. Кога сметководството бара извештај за 2026 година, базата целосно ги игнорира (не ги ни чита на хард дискот) податоците за другите години. Ова обезбедува инстантни резултати на SELECT аналитичките операции и овозможува побрзо архивирање на старите податоци.

- **Default партиција**
Се користи и DEFAULT партиција која служи како сигурносен механизам за стабилноста на апликацијата. Таа ги прифаќа сите плаќања чии датуми поради системска грешка или неусогласено време паѓаат надвор од предвидениот опсег, со што се спречува паѓање на трансакцијата при купување билет.

=== Kод со објаснување

- **STEP 1: Преименување на старата табела**

[[Image("Screenshot 2026-05-22 015945.png", 800px)]]

-Пред да се направи каква било промена, старата табела се преименува во payment_original. На овој начин сите постоечки финансиски записи остануваат недопрени и може да се користат при миграцијата.

- **STEP 2: Креирање на нова партиционирана табела**

[[Image("Screenshot 2026-05-22 015953.png", 500px)]]

-Се креира новата главна табела Payment со PARTITION BY RANGE (transaction_date). Важно е transaction_date да биде вклучен во PRIMARY KEY – тоа е барање на PostgreSQL кога табелата е партиционирана. Оваа табела сама по себе не чува податоци, туку служи само како логичка обвивка над партициите.

- **STEP 3: Партиција по години**

[[Image("Screenshot 2026-05-22 020000.png", 500px)]]

-Податоците се партиционираат по години, при што секоја партиција го покрива целосниот период од почетокот до крајот на соодветната година. Горната граница на секој опсег е ексклузивна, со што се осигурува дека записите прецизно и без преклопување се распоредуваат во точната партиција.

- **STEP 4: Креирање DEFAULT партиција**

[[Image("Screenshot 2026-05-22 020010.png", 800px)]]

-Секој запис чиј transaction_date не спаѓа во опсегот, автоматски завршува во оваа партиција. Ова е важен механизам – без него, INSERT со датум надвор од опсегот би предизвикал грешка и би го нарушил работењето на системот


- **STEP 5: Миграција на постоечките податоци **

[[Image("Screenshot 2026-05-22 020017.png", 800px)]]

-Сите записи од payment_original се пренесуваат во новата партиционирана табела. PostgreSQL автоматски одлучува во која партиција оди секој запис врз основа на неговиот transaction_date.

=== Заклучок

Со партиционирањето на табелата Payment добиваме поделба на финансиските трансакции во годишни табели (партиции) според transaction_date. На тој начин пребарувањата се многу побрзи, бидејќи системот чита само податоци од конкретната година, наместо целата табела. Ова резултира со подобри перформанси, полесно одржување и поефикасна работа со големи количини на трансакциски податоци.


== 3. Ticket табела – партиционирање по ticket_id ==
Табелата Ticket претставува една од трансакциски најоптоварените табели во системот, бидејќи во неа се зачувува секој купен билет за секое поединечно патување, вклучувајќи детали за седиштето, вагонот, цената и релевантните дестинации.

=== Причини за партиционирање 

- **Природата на табелата како релациски јазол** Табелата Ticket функционира како централна агрегациска табела која ги поврзува Train_Trip (патувањата) и Payment (плаќањата) – двата ентитети со најголем секојдневен прилив на податоци во целиот систем. Бидејќи секое патување продуцира стотици продадени билети, а секое плаќање резултира со фискален запис за билет, волуменот во оваа табела се мултиплицира експоненцијално во споредба со останатите табели.

- **Екстремно висок волумен на податоци** Бидејќи табелата моментално содржи 12 милиони записи, и при секое ново плаќање се прави нов тикет оваа табела станува критична за перформансите.

- **Природа на пребарувањата (Клуч за партиционирање)**Билетите во реалниот систем најчесто се пребаруваат поединечно преку нивниот уникатен ID (`ticket_id`) при валидација на станица или при проверка од кондуктер. Поради ова, HASH партиционирањето е најефикасниот избор.

- **Рамномерна распределба** Преку HASH партиционирање со користење на `ticket_id`, податоците математички се делат на еднакви делови. Наместо една масивна табела, системот користи 16 помали партиции каде што податоците се идеално распределени.

- **Како помага партиционирањето** Кога системот извршува прашање за конкретен `ticket_id`, PostgreSQL врши брзо хаширање на бараниот ID и веднаш детерминира во која точно партиција се наоѓа билетот. Базата целосно ги игнорира останатите 15 партиции, со што драстично се крати времето на пребарување и се одржуваат мали и брзи индекси.

=== Kод со објаснување
- **STEP 1: Преименување на старата табела**

[[Image(Old_ticket.png, 800px)]]

-Се зачувуваат постоечките податоци во стара табела old_ticket

-Ова овозможува безбедна миграција кон нова партиционирана структура

-Не се губат претходно генерираните податоци

- **STEP 2: Креирање на нова партиционирана табела**

[[Image(new_ticket.png, 500px)]]

-Се креира нова главна табела Ticket која служи како parent табела

-Податоците се дефинирани да се делат со користење на PARTITION BY HASH (ticket_id)

-Типот на податок за цената е оптимизиран во NUMERIC(5,2) за соодветна поддршка на вредностите

- **STEP 3: Автоматско креирање партиции (динамички преку DO блок)**

[[Image(Particija.png, 500px)]]

-Се користи динамички DO блок со FOR јамка за автоматизација

-Автоматски се креираат 16 партиции (од ticket_p0 до ticket_p15)

-Секоја партиција се заснова на MODULUS 16 и соодветниот REMAINDER

-Спречува мануелно пишување на 16 посебни SQL команди за креирање табели

- **STEP 4: Внесување податоци од стара табела (Миграција)**

[[Image("Insert vo particiite.png", 500px)]]

-Ги префрла сите зачувани записи од old_ticket во новата структура

-PostgreSQL автоматски во позадина ги распределува редовите низ 16-те партиции врз основа на хаш функцијата

- **STEP 5: Проверка на сите партиции**

[[Image("Proverka dali site particii postojat.png", 500px)]]

-Врши селекција од системската табела pg_inherits

-Ги прикажува сите реално креирани партиции под главната табела ticket

-Служи како потврда за успешна структура на базата

=== Заклучок

Со имплементација на HASH партиционирање на табелата Ticket, успеавме масовниот волумен од милиони податоци да го поделиме на 16 рамномерни физички табели. Пребарувањето на билетите сега се извршува моментално бидејќи PostgreSQL точно знае во која под-табела се наоѓа бараниот ticket_id. Ова резултира со драстично намалување на оптоварувањето, побрз одзив на системот и долгорочна скалабилност на железничката платформа.