Čo všetko sa dá zistiť o návštevníkovi stránky?

(Zadanie bakalárskej práce, naspäť na zoznam bakalárskych prác)

Každá komerčná stránka sa snaží optimalizovať svoju návštevnosť. Dôležitú časť pri tom predstavuje zisťovanie informácii o návštevníkovi stránky. Kto si prezerá našu stránku? Prečo prišiel, čo na nej hľadá? Ako dlho sa zdržal? Našiel, čo potreboval?

Niektoré z týchto informácií možno vyčítať zo samotného pripojenia (IP adresa - určuje organizáciu, geografickú lokalitu, čas pripojenia, verzia prehliadača a operačného systému, ...), niekedy sa používa aj javascript (veľmi dobrý príklad Google Analytics: zisťuje aj rozlíšenie, rýchlosť, čas pobytu na jedntlivých podstránkach, a pod.)

Aj informácia o stránke, z ktorej návštevník prichádza, môže veľa napovedať: ak je to vyhľadávač, môžme si prečítať, čo návštevník hľadal (a zhodnotiť). Alebo vieme, ktoré stránky k nám prinášajú - posielajú návštevníkov.

Niektoré finty využívajú funkčnosť CSS a dokážu zistiť, ktoré stránky užívateľ navštevuje (a tak vlastne extrahovať históriu prehliadača). Stránka potom môže napríklad pri platení ponúknuť ako prvú možnosť aplikáciu tej banky, v ktorej má návštevník otvorený účet.

Takéto a podobné triky okrem pohodlia samozrejme hraničia so súkromím návštevníka. Čo všetko sa dá vlastne zistiť? Pôvod, vek, vzdelanie, záujmy, pohlavie, zamestnanie, sexuálna orientácia?


Práca je zameraná na pochopenie a implementáciu známych metódy získavania dát. Dáta možno dokopy agregovať a odvodzovať z nich (s väčšou či menšou istotou) ďalšie informácie. Na získané dáta sa dá nazerať z dvoch strán: 1. pohľad návštevníka (ochrana súkromia, bezpečnosť) 2. pohľad stránky (reklama, SEO, ...)

Odvodzovanie je možné robiť priamočiaro, predpripravenými pravidlami (napr. vo forme logického programu), alebo aj online učením, ktoré mení pravdepodobnosti, alebo priamo mení či vytvára nové pravidlá alebo iným spôsobom modifikuje svoju činnosť (napr. neurónové siete). Odvodené informácie potom môžu meniť ponúkaný obsah, a tak vlastne interagovať s návštevníkom.

Požiadavky

Zákadné znalosti o protokole HTTP, jazyku HTML, v určitej miere aj CSS. Záujem o problematiku bezpečnosti. Znalosť Javascript. Znalosť PHP alebo niektorý iný server-side jazyk. Vhodné je mať prehľad o trendoch na webe (napr. Google Analytics). Znalosť a záujem o niektorú z vhodných metód strojového učenia alebo expertné systémy alebo logické programovanie alebo neurónové siete (podľa výberu).

Téma je už zadaná. Michal Malý