Bajeso teorema

Straipsnis iš Enciklopedijos Lietuvai ir Pasauliui (ELIP).

Bajeso teorematikimybių teorijos teorema, kuri nustato įvykio tikimybę, kai stebint žinoma tik dalis informacijos apie įvykius. Kitaip tariant, pagal Tomą Bajesą galima daug tiksliau nustatyti tikimybę, imant iš anksto žinomą informaciją ir naujų stebėjimų duomenis.

Matematinė formuluotė

,

kur

– apriorinė A hipotezės tikimybė;
A hipotezės tikimybė, atsirandant B įvykiui (aposteriorinė tikimybė);
– įvykio B atsiradimo tikimybė esant teisingai A hipotezei;
– įvykio B tikimybė.

Pritaikymas

Kova su spamu

Elektroninio pašto žinučių spamo filtrams sukurti naudojami „mokymosi“ procese sudaryti žodynai. Tam paimamas senas rankiniu būdu išrinktų pranešimų archyvas ir perduodamas programai mokytis ir tolimesnei analizei. Programa nustato kiekvieno tipo pranešime pasikartojančius žodžius – kiek kartų kiekvienas žodis pasirodo laiškuose iš nurodytos bylos. Kai žodynai galutinai sudaryti, tikimybė, kad nauja žinutė yra spamas, apskaičiuojama pagal Bajesą kiekvienam žodžiui iš laiško. Normalizuojant ir sumuojant žodžių tikimybę gaunama bendra tikimybė, pagal kurią galima priskirti žinutę spamui.

Bajeso teoremos taikymas leidžia apsieiti be pašto dėžučių „juodųjų sąrašų“ sudarymo. Bajeso filtrai gali savarankiškai, nedaug nusileisdami žmogaus sugebėjimams, atpažinti „blogą“ žinutę, kurioje reklaminė informacija pateikiama kaip paprastas tekstas ar HTML. Po mokymo ir didelio įdirbio pasiseka atrinkti iki 95 –97 % spamo.

Bet šiukšlintojai surado būdą apeiti tokius filtrus. Dėl to į laišką įdedamas neutralus tekstas, o reklama pridedama kaip paveikslėlis prie teksto. Atsitiktinis tekstas apgauna filtrą ir neduoda galimybės mokyti. Nors ir yra galimybė pasinaudoti teksto atpažinimo programomis, kuriuos gali iš paveikslėlių išimti tekstą, o paskui jį perduoti Bajeso filtrui, dažniausiai taip programos nedaro. Beje, tokių programų veikimas reikalauja papildomų kompiuterio pajėgumų.

Bajesijinė Statistika

Angliškai "Bayesian Inference", statistikos kryptis, pavadinta Tomo Bajeso garbei. Statistiniai metodai gali būti skirstomi į dvi sritis: klasikiniai ir Bajesijiniai. Klasikinė statistika, tai ta, paremta "maximum likelihood" principu, mokoma visose mokyklose ir universitetuose (Lietuvoje). Bajesijinė statistika, paremta Bajeso teorema, mokoma jau gerai žinant klasikinę statistiką, universitetuose su stipriais matematikos ir statistikos departamentais, yra tarsi alternatyva klasikinei statistikai. Bajesijinės statistikos atstovai neretai kritikuoja klasikinę statistiką dėl įvairių prielaidų darymo, kurie nieko bendro neturi su tikrove. Bajesijinė statistika pradėjo ypač populiarėti tik dabar, atsiradus galingiems kompiuteriams, nes dauguma Bajesijinės statistikos parametrų apskaičiavimo metodų yra paremta skaičių simuliacijomis, vadinamaisiais MCMC (Markov Chain Monte Carlo) metodais.

Literatūra

Nuorodos


Sudarytojai, rašytojai ir redaktoriai

Kitur naudojant ar cituojant šį straipsnį, būtina nurodyti jo sumanytojus, sudarytojus, rašytojus ir redaktorius.
  • Vitas Povilaitis – autorius ir redaktorius – 101% (+5139-48=5091 wiki spaudos ženklai).