Teoretično ozadje umetnih nevronskih mrež sega 100 let v preteklost k začetkom nevroznanosti in temelji na bioloških raziskavah povezav med živčnimi celicami in signaliziranja med njimi. Prvi koraki k prenosu biološkega delovanja v matematično obliko so bili narejeni s pomočjo analogij z dobro raziskanimi fizikalnimi sistemi, delovanje sodobnih umetnih nevronskih mrež pa še vedno temelji na povezavi s statistično fiziko.
Za razumevanje fizikalnega ozadja podeljene Nobelove nagrade je nujno vsaj opisno razložiti t. i. Isingov model. To je poenostavljen fizikalni model magnetnih snovi, ki predpostavlja, da so magnetni gradniki, ki jim v tem kontekstu rečemo »spini«, urejeni v pravilno mrežo in lahko zavzamejo le dve magnetni stanji: »gor« in »dol«. Težnjo po ureditvi v magnetizirano stanje, v katerem je večina gradnikov poravnana v isto smer, pripišemo temu, da se sosedi v mreži poskušajo poravnati vzporedno. Vsak par sosedov k celotni energiji prispeva energijo interakcije, ki je negativna, če kažeta v isti smeri, in pozitivna, če kažeta v nasprotni smeri. Sistem teži k stanju z najnižjo energijo, zaradi termičnih fluktuacij pa gradniki stalno preskakujejo med stanji. Pri večji temperaturi so fluktuacije dovolj velike, da podrejo urejenost in dobimo nemagnetno stanje, z nižanjem temperature pa urejanje prevlada nad fluktuacijami in pride do prehoda v magnetizirano stanje. Z različno izbiro povezanosti mrež in jakosti vezi lahko opišemo različne sisteme, kot so feromagneti, antiferomagneti in spinska stekla. Zaradi njegove enostavnosti je Isingov model šolski primer sistema s faznim prehodom, ki se pogosto uporablja tudi kot analogija za druge sisteme, ki niso povezani z magnetizmom, med katere spadajo tudi nevronske mreže.
Tako lahko tudi na nevrone gledamo kot na celice, ki imajo dve možni stanji – vklopljeno stanje, ko oddajajo signale, in izklopljeno stanje, ko signalov ne oddajajo. Hebbova teorija sinaptične plastičnosti pravi, da nevroni, ki so pogosto aktivirani hkrati, utrdijo to obojestransko medsebojno povezavo in težijo k sočasnemu signaliziranju. Parom povezanih nevronov pripišemo »uteži«, ki opisujejo jakost povezave med njima. Hopfield je opazil, da je ta opis matematično analogen Isingovemu modelu, če vklopljeno in izklopljeno stanje razumemo kot smer spina, uteži povezanosti nevronov pa kot jakost vezi sosednjih spinov. Takšna »Hopfieldova mreža« je sposobna opisati optimalno aktivacijo nevronov na podlagi uteženosti povezav med njimi. To, kar je bilo pri magnetnih sistemih urejeno (magnetizirano) stanje z lokalno najnižjo energijo, tu predstavlja usklajeno stanje nevronskih aktivacij glede na izbrane uteži. Vsak preklop nevrona v drugo stanje bi energijo kvečjemu povečal. Takih lokalnih ravnovesnih stanj je lahko več, vsako predstavlja eno »zapomnjeno« stanje, kar daje Hopfieldovim mrežam sposobnost shranjevanja informacij. Če začnemo z drugačnim začetnim stanjem, ki nima minimalne energije in torej ne sodi med zapomnjena stanja, se bo Hopfieldova mreža preuredila v tisto zapomnjeno stanje, ki je najbolj podobno začetnemu, tako kot bi se magnetni sistem samodejno uredil v magnetizirano stanje. Kot začetno stanje lahko vzamemo na primer stanje, ki ga le delno poznamo, ali pa neznano stanje, ki mu iščemo ustrezno informacijo v spominu. Hopfield je torej pokazal, kako lahko nevronska mreža deluje kot asociativni spomin in kot odziv na neko informacijo prikliče eno izmed zapomnjenih stanj. Učenje take mreže pomeni iskanje takih uteži, da bodo minimalna energijska stanja ustrezala podatkom, ki si jih poskušamo zapomniti.
V originalnem Hopfieldovem modelu so bile pri iskanju stanj z minimalno energijo dovoljene le poteze, ki energijo zmanjšajo. Hinton se je Isingovemu modelu še bolj približal tako, da je Hopfieldov model dopolnil s termičnimi fluktuacijami. Dobljeni model je t. i. Boltzmannov stroj, ki omogoča tudi naključne preklope, ki zvišajo energijo, s tem da so višji skoki redkejši. Ta proces je v fiziki dobro poznan kot Metropolisov algoritem in je način, kako metode statistične termodinamike prenesemo v računalniške simulacije. Boltzmannov stroj tako ne vrača več enoličnega stanja z minimalno energijo ampak deluje kot generativni model – ob vsakem zagonu lahko ustvari povsem nove podatke, ki pa vsi spominjajo na naučena stanja, pri čemer je podobnost odvisna od izbrane temperature.
Čeprav Hopfieldove mreže in Boltzmannovi stroji temeljijo na direktni podobnosti z obnašanjem nevronskih spletov v možganih, so se sodobne nevronske mreže od teh modelov oddaljile zaradi lažje izračunljivosti in hitrejšega treninga na realnih podatkih. Pionirski koncepti, izpeljani iz fizikalnih analogij pa so v obstoječih tehnologijah pustili velik pečat. Z mnogimi naknadnimi izboljšavami so nevronske mreže v zadnjem desetletju presegle začetne omejitve in postale vsakdanja orodja v obliki digitalnih asistentov, prognostičnih in diagnostičnih modelov ter multimedijskih in jezikovnih orodij.
Besedilo: doc. dr. Simon Čopar in prof. dr. Borut Paul Kerševan
Slika: https://www.nobelprize.org/prizes/physics/2024/summary/