Integracija podatkovnih virov z uporabo referen nih slovarjev in algoritmov za iskanje podobnosti med nizi

Size: px

Start display at page:

Download "Integracija podatkovnih virov z uporabo referen nih slovarjev in algoritmov za iskanje podobnosti med nizi"

Angela Bertina Weaver
6 years ago
Views:

1 UNIVERZA V MARIBORU FAKULTETA ZA ELEKTROTEHNIKO, RAƒUNALNI TVO IN INFORMATIKO Mitja La en Integracija podatkovnih virov z uporabo referen nih slovarjev in algoritmov za iskanje podobnosti med nizi MAGISTRSKO DELO MARIBOR, JULIJ 2012

2 UNIVERZA V MARIBORU FAKULTETA ZA ELEKTROTEHNIKO, RAƒUNALNI TVO IN INFORMATIKO Integracija podatkovnih virov z uporabo referen nih slovarjev in algoritmov za iskanje podobnosti med nizi MAGISTRSKO DELO Avtor: Mentor: Somentor: Mitja La en, univ. dipl. inº. ra. in inf. izr. prof. dr. Milan Ojster²ek prof. dr. Peter Kokol MARIBOR, JULIJ 2012

4 ZAHVALA Iskreno se zahvaljujem mentorju, izr. prof. dr. Milanu Ojster²ku za ²tevilne napotke in pripravljenost pomagati ob nastalih preprekah pri izdelavi magistrskega dela. Posebna zahvala velja druºini, ki me je spodbujala in verjela vame.

5 Integracija podatkovnih virov z uporabo referen nih slovarjev in algoritmov za iskanje podobnosti med nizi UDK: :004.89(043.2) Klju ne besede: inteligentni agenti, kakovost podatkov, podatkovno skladi² e, upravljanje z mati nimi podatki, integracija podatkov o strankah, SAP Business Warehouse Povzetek V sodobnem informacijskem sistemu se vsakodnevno kopi i velika koli ina podatkov, ki jih podjetja potrebujejo za vsakodnevno poslovanje. Zaradi omenjenega dejstva so podatki teºko obvladljivi. V praksi pogosto naletimo na problem zdruºevanja dveh ali ve podatkovnih baz v enotno podatkovno bazo. V magistrskem delu predstavimo sistem za zdruºevanje dveh poljubnih podatkovnih baz v enotno podatkovno bazo. Naloga procesa je torej odkriti morebitno redundanco znotraj mnoºice podatkovnih zapisov in vsako resni no entiteto v ciljni podatkovni bazi predstaviti le z enim zapisom.

6 Data source integration using reference dictionaries and similarity algorithms UDK: :004.89(043.2) Keywords: intelligent agent, data quality, data warehouse, master data management, customer data integration, SAP Business Warehouse Abstract In a modern information system a huge amount of data is daily gathered that companies need for their daily operations. Due to this fact the data are dicult to manage. In practice we often encounter the problem of combining two or more databases into a single database. In this master thesis we present a system for linkage of records from two or more databases into a single database. The task of this process is therefore detect a possible redundancy of data records, detect duplicates and dene only one real entity record in the target database.

7 Kazalo 1 Uvod 1 2 Inteligentni agenti Denicija agenta Bistvo agentov Okolje Kaj je agent? Kontrolni sistemi Programski demoni Aplikacije inteligentnih agentov Vmesni²ki agenti Informacijski agenti Mobilni agenti Sodelovalni agenti Filtrirni agenti Sodelovalno-ltrirni agenti Nakupovalni agenti Agenti za e-poslovanje Agenti za podporo odlo anju Agenti za planiranje in na rtovanje Agenti za nadzor omreºja Agenti za iskanje zakonitosti v podatkih Agenti za kategoriziranje Podatkovno skladi² e Podro no podatkovno skladi² e Priprava podatkov Sprotna analiti na obdelava Vrtanje v globino i

8 KAZALO ii Zvijanje navzgor Rezanje in kockanje Vrtenje Vrtanje skozi Primerjanje, izra uni in agregiranje Cilji podatkovnega skladi² a Kratkoro ni cilji Dolgoro ni cilji SAP Business Warehouse Arhitektura poslovne re²itve SAP BW Shranjevanje podatkov v SAP BW Orodja za izvajanje analiz in poro il v SAP BW Komponenta SAP poslovni raziskovalec Uporaba poslovne re²itve SAP BW Podatkovno modeliranje Kakovost podatkov Lastnosti kakovosti podatkov Na ini za dosego visoko kvalitetnih podatkov Metrike Osnovna orodja za kakovost podatkov Preizkusi kakovosti podatkov Preizkus pravilnosti dav ne ²tevilke Preizkus pravilnosti ulic, po²tnih ²tevilk in mest Povezava s zunanjimi viri podatkov Sistem pravil Primer pravil za ugotavljanje dav ne ²tevilke za pravne osebe Povezovanje podatkov Priprava podatkov Raz lenitev besedila Blokiranje Dvojniki Primerjanje nizov Levenshteinova razdalja Jaro razdalja Jaro-Winklerjeva razdalja

9 KAZALO iii 6.4 Sørensenov indeks Needleman-Wunsch algoritem Smith-Waterman-Gotoh algoritem q-gram algoritem Razlaga uporabe algoritmov Dolo anje pragov Referen ne tabele in slovarji Slovar po²tnih ²tevilk in mest Slovar ulic Proces normalizacije ulic, po²tnih ²tevilk in mest Konsolidacija poslovnih partnerjev Opis problema Povezovanje vsebinske enakosti Opis podatkovnih baz Proces konsolidacije z uporabo agentov Odstranjevanje dvojnikov Rezultati konsolidacije Dodatno raziskovanje Integracija podatkov na osnovi ontologij Zaklju ek 85

10 Slike 2.1 Agent v svojem okolju Klasikacija agenta na osnovi temeljnih atributov [45] Kako deluje uporabni²ki agent po Maes [38] Informacijski agent Okolje SAP Business Warehouse [24, 3] Arhitektura poslovne re²itve SAP Business Warehouse [31] Zvezdna shema v podatkovne skladi² u Zvezdna shema na podro ju prodaje Gra ni prikaz podatkov iz dveh podatkovnih baz Kartezijski produkt poslovnega partnerja in naslova Primerjava parov s pomo jo blokiranja Prikaz delovanja referen ne tabele Najdeni pari in skupno ²tevilo ujemanj po vsakem koraku tevec enoli nih imen na logaritmi nem in linearnem merilu Analiza razli nih zapisov po podatkovnih poljih poslovnih partnerjev Nivojski prikaz delovanja konsolidacije podatkov Prenos delnih podatkov in poloºaj agenta Celotna slika delovanja agenta za konsolidacijo poslovnih partnerjev Uporaba ontologij v integraciji podatkov iv

11 Tabele 4.1 Trenutna poraba sredstev Priporo ena poraba sredstev Kateri pari predstavljajo isto osebo? Raz lenitev po²tnega naslova Primerjava niza meilenstein in levenshtein Prva pot skozi matriko Levenshteinove razdalje Druga pot skozi matriko Levenshteinove razdalje Primer poravnave znakov s JaroWinkler razdaljo Delovanje Needleman-Wunsch algoritma (metoda vra anje nazaj) na nizu AUGG in AUG Primer primerjave nizov Prikaz po²tnih ²tevilk in mest, ki so v napa ni relaciji Prikaz po²tnih ²tevilk in mest, kjer je tipkarska napaka Mesta in po²tne ²tevilke, katere ne moremo zdruºiti Mesta in po²tne ²tevilke, katere lahko zdruºimo Primer nekaterih parov pri Levensteinovi razdalji ve ji od 0, Primer nekaterih parov, ko je Sørensenov indeks ve ji od 0, Primer nekaterih parov pri JaroWinkler razdalji ve ji od 0, Primer nekaterih parov pri Needleman-Wunsch razdalji ve ji od 0, Primer nekaterih parov pri q-grams razdalji ve ji od 0, Primer nekaterih parov pri Smith-Waterman-Gotoh razdalji ve ji od 0, Ujemajo i pari, ki predstavljajo dve razli ni ulici in jih moramo ozna iti kot neujemajo e Atributi poslovnega partnerja. Posamezna celica predstavlja stolpec v tabeli Primer podatkov poslovnega partnerja v

12 TABELE vi 8.3 Primerjalna funkcija pred in po normalizaciji atributov Prikaz dvojnikov

13 Poglavje 1 Uvod Danes se pri mnogih poslovnih in tudi znanstvenih aplikacijah uporabljajo razli ne tehnike za ugotavljanje kakovosti podatkov. Namen tovrstnih tehnik je odkrivanje zakonitosti in novega znanja iz obstoje ih podatkov. Rezultat poslovnih analiz in statisti nih poro il nad o i² enimi podatki je pravilen, kar predvsem v poslovnem svetu lahko predstavlja konkuren no prednost pred tekmeci. Na primer; kadar podjetje po²ilja pisna obvestila svojim uporabnikom se pri podvojenih zapisih tudi stro²ki po²iljanja podvojijo. Mnoge zbirke podatkov niso popolne, saj lahko vsebujejo nenatan ne in redundantne podatke o entitetah realnega sveta. Rezultati analiz in statisti nih poro il iz tak²nih podatkov pa obi ajno niso dobri in lahko vodijo do napa nih zaklju kov. Problem identikacije zapisov v zbirkah podatkov, ki se nana²ajo na enako entiteto, imenujemo dvojnik. Zapis se lahko podvaja, eprav vrednosti niso enake, zaradi napake v zapisu ali manjkajo ih podatkov, a vseeno predstavlja vsebinsko enak zapis. Poleg tega pa ne obstaja enoli en identikator, ki bi omogo al, da jih neposredno prepoznamo kot dvojnike. Klasi en scenarij za odkrivanje podvojenih podatkov so podatkovna skladi² a, kamor se pretakajo podatki iz razli nih virov. Iskanje povezav med podatki je proces i² enja podatkov za izbolj²anje kakovosti podatkov v podatkovnem skladi² u. Analize in statisti na poro ila, ki jih izvajamo v podatkovnih skladi² ih, lahko vplivajo na poslovne odlo itve, zato je kakovost podatkov zelo pomembna. V ta namen na² modul homogenizira podatke preden se prikaºejo v analizah in poro ilih. V veliko primerih podjetja zaposlijo profesionalce, ki ro no istijo podatkovno bazo. Tak²en proces je dolgotrajen, drag in odvisen od posameznika, ki i² enje izvaja. So asno prihaja do napak in nedoslednosti. Zato je logi na odlo itev, da se zaradi velike koli ine podatkov ter hitrosti obdelave vpelje ra unalni²ki proces za dvigovanje kakovosti podatkov. Iz prakse je znano, da najve jo u inkovitost dobimo s sodelovanjem 1

14 2 loveka in stroja. Tako zdruºimo hitrost in doslednost s love²ko presojo, ki izlo i nesmiselne in napa ne predloge. Namen magistrskega dela je poudariti pomembnost ve plastne kakovosti podatkov, ki posredno in neposredno vplivajo na u inkovitost poslovanja. Splo²ni trend kopi enja podatkov v razli nih podatkovnih zbirkah postavlja vpra²anje ali se obvladovanju podatkov namenja dovolj pozornosti. Poleg tehni nega vidika kakovosti podatkov velike koli ine podatkov zahtevajo obravnavanje nadzora nad podatki v splo²nem. V magistrskem delu bo predstavljen na in obvladovanja podatkov, odstranjevanja dvojnikov, povezovanja podatkov (istih entitet) ter na in preverjanja in zagotavljanja dolgoro ne in ²iroke opredeljene kakovosti podatkov. Cilj magistrskega dela je re²itev dejanskega problema konsolidacije poslovnih partnerjev iz dveh podjetij ali dveh zbirk podatkov. Pri tem je najpomembnej²a analiza kakovosti obstoje ih podatkov, s katerim upravljata podjetji. Rezultat dela je predstavitev agenta, ki uporabniku omogo a nadzor nad kakovostjo podatkov. Uporabljene metode dela pri izdelavi magistrskega dela temeljijo na ²tudiju strokovne literature, na podlagi katere bo razvit agent, ki uporablja opisane na ine za doseganje in ohranjevanje kakovosti podatkov. V magistrskem delu bo za uvodom, v drugem poglavju predstavljen ²irok pojem in pregled inteligentnih agentov. V tretjem poglavju je predstavljeno podatkovno skladi² e ter programsko orodje SAP Business Warehouse, kjer so shranjeni podatki iz katerih agent rpa podatke in na koncu shrani rezultat. V etrtem poglavju je predstavljena kakovost podatkov in natan na opredelitev pojmov, povezanih s kakovostjo podatkov, poglobljen pregled strokovne literature in analiza vpliva kakovosti podatkov na poslovanje druºb. Peto poglavje opisuje proces povezovanja podatkov in povezane procese, ki smo jih uporabili. Naslednje, ²esto poglavje zajema podroben opis metod, algoritmov in tehnik za primerjavo nizov. V sedmem poglavju so predstavljeni slovarji in referen ne tabele, ki jih uporabljamo za normalizacijo atributov (npr. ime ulice) pri zdruºevanju podatkov. V osmem poglavju je predstavljen problem konsolidacije poslovnih partnerjev dveh ali ve podjetij. Predstavljen bo tako tehni ni kot prakti ni vidik kakovosti in zdruºevanja podatkov, v smislu tehni nih in tehnolo²kih okvirjev, kakor vplivi kakovosti podatkov, ki se odraºajo znotraj druºbe in v njenem odnosu do okolja, torej poslovnih partnerjev. Tako bo v tem poglavju predstavljen model upravljanja s podatki za zagotavljanje in vzdrºevanje kakovosti podatkov. V zadnjem poglavju bomo podali ugotovitve in smernice za prakti no uporabo v poslovnem okolju.

15 Poglavje 2 Inteligentni agenti Ra unalniki sami ne poznajo re²itve problema - vsaka akcija, ki jo ra unalnik izvede, mora biti vnaprej predvidena in pripravljena s strani programerja. ƒe ra unalni²ki program naleti na situacijo, ki je ni predvidel, lahko pride do sesutja sistema, izgube podatkov itd. Pri opravljanju ve ine opravil smo zadovoljni in sprejemamo ra unalnike kot poslu- ²ne in natan ne pomo nike brez domi²ljije. Za veliko aplikacij to popolnoma zadostuje, vendar pa se pojavlja tudi vedno ve je ²tevilo aplikacij, ki zahtevajo sisteme, ki se lahko sami odlo ijo, kaj potrebujejo za dosego dolo enega cilja. Tak²ne sisteme imenujemo agenti. Agenti, ki morajo delovati v robustnih neprevidljivih in hitro spreminjajo- ih se okoljih, z veliko stopnjo verjetnosti pojavljanja neuspe²nih akcij, se imenujejo inteligentni agenti [56]. Ker se agenti uporabljajo na ²tevilnih podro jih, trenutno ne obstaja univerzalna denicija izraza agent. Obstaja splo²no prepri anje, da je avtonomija klju na lastnost agenta, medtem ko ostale lastnosti niso tako enoumno dolo ene, saj so na razli nih podro jih uporabe pomembne razli ne lastnosti. Najbolj primerno denicijo agenta je podal M. Wooldridge [63], ki trdi, da je glavna lastnost agentov avtonomnost in podaja naslednjo denicijo: Agent je ra unalni²ki sistem, zmoºen avtonomnega delovanja v dinami nem okolju. Avtonomnost je lastnost, ki predstavlja, da so agenti zmoºni samostojnega delovanja brez kakr²negakoli posredovanja ljudi. ƒe dodamo agentom predpono inteligentni, s tem dobimo naslednjo denicijo: Inteligentni agent je ra unalni²ki sistem, zmoºen prilagodljivega avtonomnega delovanja v dinami nem okolju. Poleg avtonomnosti mora agent v tem primeru zadostiti ²e na- elu prilagodljivosti, to je naslednjim lastnostim: dojemanje okolja, ki vklju uje oba namena delovanja (prilagajanje okolju in doseganje ciljev) ter dojemanja drugih agentov, kjer mora biti zadovoljena predvsem komunikacijska komponenta. 3

16 2.1: Denicija agenta 4 Vplivanje na okolje agent okolje Slika 2.1: Agent v svojem okolju. Inteligentni agent je sistem, ki izvaja mnoºico nalog v imenu uporabnika, z dolo eno stopnjo neodvisnosti ali avtonomnosti. Pri svojem delovanju uporablja znanje oziroma uveljavlja uporabnikove cilje in ºelje. Inteligenca predstavlja zmoºnost agenta, da sprejme uporabnikov nabor ciljev in temu primerno izvede niz operacij. Najbolj inteligentni naj bi bili sistemi, ki se u ijo in prilagajajo okolju tako iz vidika uporabnika kot z vidika porabe dostopnih virov. Kaj in kako naj bi inteligentni agent v praksi zares deloval, pa je odvisno od konkretne aplikacijske domene in pogledov na potencialne re²itve dolo enega problema. V zadnjih letih in ²e posebej v zadnjem desetletju so se raziskave inteligentnih agentov mo no raz²irile v mnogih disciplinah, od ra unalni²tva do psihologije, odlo anja, ekonomije, informacijskih sistemov in druºboslovja. Prihod programskih agentov je vzdignil veliko razpravo kaj sploh agent je in kako se razlikuje od drugih programov. Tukaj predlagamo formalno denicijo avtonomnega agenta, ki jasno razlo uje programskega agenta od drugih programov. 2.1 Denicija agenta Raziskovalci, ki sodelujejo v razvoju agentov so ponudili raznolike denicije v upanju, da se bo njihova obdrºala in za ela predstavljati agente. Podane denicije imajo obseg od enostavnih do kompleksnej²ih, kjer vsaka izmed njih izraºa stanje, ki ga je razvijalec imel v mislih. Spodaj so na²tete nekatere izmed denicij (povzeto po [15]): MuBot Agent [54] Izraz agent predstavlja dva ortogonalna koncepta. Prvi je agentova sposobnost avtonomnega delovanja, drugi pa je agentova zmoºnost izvajanja domensko orientiranega sklepanja.

17 2.1: Denicija agenta 5 AIMA Agent [49] Agent je lahko karkoli, kar zaznava okolje s pomo jo senzorjev in deluje/igra nad tem okoljem z efektom. Avtorji lanka v [49], so se zanimali za programske agente, ki poosebljajo tehnike umetne inteligence. Denicija AIMA (angl. Articial Intelligence a Modern Approach) je odvisna od tega, kar uporabnik smatra za okolje in zaznavanje oz. igranje. ƒe deniramo okolje kot nekaj, kar sprejme vhod in odda izhod ter vzamemo, da je vhod zaznavanje in izhod igranje, potem je lahko vsak program agent. Potemtakem, e ºelimo priti do razlike med agenti in programi, moramo dolo iti vsaj nekaj pojmov o okolju, zaznavanju in igranju. Maes Agent [39] Avtonomni agenti so ra unalni²ki sistemi, ki se nastanijo v kompleksnem okolju, zaznavajo in delujejo avtonomno v tem okolju in tako realizirajo mnoºico ciljev ali nalog za katere so bili narejeni. Pattie Maes je dodala klju en element v njeno denicijo agenta: Agenti morajo delovati avtonomno in morajo biti nastavljeni tako, da realizirajo mnoºico ciljev. Tudi okolja so omejena na kompleksna in dinami na. KidSim Agent [51] Naj deniramo agenta kot vztrajno programsko entiteto namenjeno za speci no nalogo. Vztrajno lo i agente od podprogramov; agenti imajo svoje ideje kako dokon ati naloge oz. njihovo lastno poslovanje. Speci na naloga lo i agente od celotne mnoºice ve funkcionalnih aplikacij; agenti so ve inoma dosti manj²i. Eksplicitna zahteva za vztrajnost je pomembna novost. ƒeprav ima mnogo agentov speci no nalogo, lahko re emo, da to ni bistvena posebnost agenta. Hayes-Roth Agent [23] Inteligentni agenti nepretrgano izvajajo tri funkcije: zaznavanje dinami nih pogojev/okoli² in v okolju, vplivanje na pogoje/okoli² ine v okolju ter sklepanje za razlago zaznav, re²evanje problemov, dobivanje povzetkov in dolo anje akcij.

18 2.1: Denicija agenta 6 Barbara Hayes-Roth vztraja, da agenti razmi²ljajo med procesom izbiranja akcije. Njena arhitektura dovoljuje reeksne in planirane akcije. IBM Agent Inteligentni agenti so programske entitete, ki izvr²ijo mnoºico operacij v imenu uporabnika ali drugega programa s stopnjo neodvisnosti ali avtonomnosti in tako se hkrati u ijo o uporabnikovih ciljih ali ºeljah. Ta denicija prikazuje inteligentne agente, da delajo za drugega z dovoljenjem katerega izmed preostalih agentov. Tipi en primer je informacijski agent, eprav lanek govori o osmih razli nih aplikacijah. Wooldridge Jennings Agent [63] Agenti so strojni ali (ve inoma) programski ra unalni²ki sistemi, ki imajo naslednje lastnosti: ˆ avtonomnost, ˆ dojemanje drugih agentov (socialnost), ˆ nenehnost delovanja, ˆ proaktivnost. Ta agent poleg avtonomnosti, zaznavanja in delovanja doda tudi ²iroko, ampak kon no zbirko okolij. Dodatno doda ²e zahtevo za komunikacijo. Ve v poglavju 2.4. SodaBot Agent [32] Programski agenti so programi, ki za nejo dialog oz. pogajanje ter koordinirajo potek informacij. SodaBot je razvojno okolje za programske agente, ki ga je razvil Michael Coen v MIT laboratoriju. Dialog potrebuje komunikacijo. Ta denicija je zelo razli na od prej²njih in izlo i skoraj vse navadne aplikacije. Brustolini Agent [4] Avtonomni agenti so sistemi zmoºni avtonomnih, odlo nih akcij v realnem svetu. Brustolinijev agent, za razliko od ostalih, mora delovati v realnem svetu. Brustolini tudi vztraja, da so njegovi agenti reakcijski, kar pomeni, da se lahko odzovejo zunanjemu asinhronemu stimulansu v realnem asu. Franklinova splo²na denicija [15]

19 2.2: Bistvo agentov 7 Avtonomen agent je sistem postavljen v okolje, v katerem zaznava spremembe in reagira na le-te, ez as, pa se za dosego svojega na rta odlo i katerim spremembam bo sledil v prihodnosti. Vse te denicije jasno povedo, da ni splo²nega dogovora kaj dejansko je agent in kako ga lo imo od navadnih aplikacij. 2.2 Bistvo agentov Rusell in Norvig [49] sta rekla takole: Pojem agent je mi²ljen kot orodje za analizo sistemov in ne kot absolutna karakterizacija, ki lo i svet na agente in ne-agente. Edini pojmi, ki prina²ajo ostro lo evanje kategorij, so matemati ni pojmi. Ti pa uspejo le zato, ker nimajo vsebine. Agenti delujejo v realnem svetu in tukaj se uporablja mehka (angl. fuzzy) kategorizacija. Vsak agent je postavljen v okolje, kjer zaznava spremembe in se ustrezno odziva na le-te. Nobeni drugi entiteti ni potrebno podajati vhoda ali uporabiti njegov izhod. Vsak deluje za dosego svojega cilja, tako da zadovolji potrebe ljudi ali pa izvaja naloge, podane od drugega programskega agenta. Vsak deluje tako, da njegove trenutne akcije lahko vplivajo na njegovo kasnej²e zaznavanje - tako njegove akcije vplivajo na okolje. Tudi vsak deluje v nekem asovnem obdobju. Programski agent, deluje tako dolgo, dokler se ne odlo i, da bo kon al izvajanje ali pa ljudje kon ajo njegovo delovanje. Avtonomni agenti so postavljeni v neko okolje, e spremenimo okolje se lahko zgodi, da agent ne bo ve deloval. Na primer robot s samo vizualnimi senzorji v okolju brez svetlobe ni agent! Zgoraj omenjeni agent AIMA zahteva, da lahko pogledamo v agenta kako zaznava spremembe in deluje v okolju, tako mora obstajati okolje v katerem je agent. Kaj pa navadne aplikacije? V realnem svetu lahko re emo, da na primer program za pla e zaznava spremembe skozi svoj vhod in njegovo delovanje opazimo na izhodu, ampak to ni agent, saj njegov izhod ne vpliva na njegovo kasnej²o zaznavo sprememb. Program za pla e tudi ne deluje neprekinjeno, namre deluje tako dolgo, dokler ne opravi opravila in nato se postavi v mirovanje ter aka, da ga znova pokli emo. Vsi programski agenti so aplikacije, niso pa vse aplikacije tudi agenti. Agenti tudi niso denirani glede na svoje delo. ƒrkovalnik, ki je dodatek urejevalniku besedila, ni agent zaradi razloga, ki smo ga podali v prej²njem odstavku. Kljub temu pa je rkovalnik, ki uporabnika spremlja med vna²anjem besedila in napake takoj popravi, lahko agent. Programski agenti so po deniciji programi; program pa mora vselej zado² ati pogojem (2.1 in 2.4), da je lahko agent.

20 2.3: Okolje Okolje Agent deluje v nekak²nem okolju in glede na stanje ustvari akcijo, s katero vpliva na okolje, in to z namenom, da doseºe zadane cilje. V ve ini primerov ima le delno kontrolo nad okoljem. Pri svojem delovanju ima agent na voljo mnoºico moºnih akcij, s katerimi lahko vpliva na okolje. Klju ni problem je odlo itev, katero od moºnih akcij naj izvede, da bo le-ta kar najbolje ustrezala zadanim ciljem. Russell in Norvig [49] sta predlagala naslednjo klasikacijo okolja: ˆ Dostopnost - nedostopnost: Okolje je dostopno takrat, ko lahko agent na osnovi pridobljenih podatkov okolje popolnoma dolo i; v nasprotnem primeru je nedostopno. V izrednih primerih nam zakoni zike prepre ujejo, da bi lahko okolja bila popolnoma dostopna. Na primer: na Marsu je lahko 100, ampak nam zakoni zike prepre ujejo, da bi to lahko zagotovo trdili. Tako je tak²na informacija nedostopna za nas. Bolj kot je okolje dostopno, enostavneje je zgraditi agenta, ki u inkovito deluje v tak²nem okolju. Dober agent je tisti, ki dela prave odlo itve. Kakovost odlo itev, ki jih agent lahko naredi, je odvisna od kakovosti informacij. ƒe je informacij malo ali pa so neto ne, potem je agentova odlo itev "nepou ena"in bo tako reko slaba. ƒe je informacija podrobna in to na, potem se pove a moºnost dobre odlo itve. ˆ Deterministi nost - nedeterministi nost: Deterministi no okolje je popolnoma predvidljivo saj je njegovo naslednje stanje okolja popolnoma dolo eno s trenutnim stanjem in akcijo, ki jo agent izvede. Nedeterministi nost zajema dejstvo, da imajo agenti dolo eno podro je dejavnosti ter imajo dobro delno kontrolo nad njihovim okolje. Akcije so tipi no izvedene od agentov z namenom, da vzpostavijo dolo eno stanje. ˆ Stati nost - dinami nost: ƒe se lahko okolje med agentovim na rtovanjem akcije spremeni, imamo opravka z dinami nim okoljem, zato ga mora agent nenehno preverjati. V nasprotnem primeru imamo stati no okolje, kjer je delovanje agenta laºje, saj mu ni potrebno preverjati okolja, medtem ko na rtuje akcijo, s katero bo na okolje vplival. Iz agentovega zornega kota, dinami no okolje ima najmanj dve pomembni lastnosti. Prva je: e agent ne izvede zunanje akcije med asom t 0 in t 1, potem ne more domnevati, da bo okolje v asu t 1 enako kot je bilo v asu t 0. To pomeni, e ºeli agent izvesti primerno akcijo, mora prvo izvesti akcijo zbiranje informacij, da dolo i stanje okolja [41]. V stati nem okolju ni potrebe po tak²nih akcijah.

21 2.4: Kaj je agent? 9 Druga lastnost je, da drugi procesi lahko v okolju posegajo z akcijami, katere ºelimo izvesti. ƒe ºeli agent preveriti, da ima okolje lastnost φ in nato za ne izvajati akcijo α na bazi te informacije, ne more jam iti, da bo okolje ²e naprej imelo lastnost φ, medtem ko izvaja α. Ti dve lastnosti povesta, da je za stati no okolje laºje prilagoditi agenta kot pa za dinami no. ˆ Diskretnost - zveznost: Okolje ozna imo kot diskretno, e v njem obstaja to no dolo eno in kon no ²tevilo moºnih akcij in stanj. Primer diskretnega okolja je igranje ²aha, kjer v vsakem stanju obstaja kon no ²tevilo akcij (moºnih premikov gur). Diskretno okolje je tak²no, kjer lahko zagotovimo, da bo imelo le kon no ²tevilo diskretnih stanj; zvezno okolje, lahko ima ne²teto veliko stanj. Npr. igra ²aha je diskretno okolje, saj obstaja kon no ( eprav veliko) ²tevilo stanj. 2.4 Kaj je agent? Terminologija inteligentnih agentov se je razvijala skozi as in danes ²e vedno nimamo dokon nega standarda. Programske agente poimenujemo po opravilih, ki jih opravljajo. Nadalje lahko agente opredelimo glede na na in delovanja. V tem primeru lo imo preudarne in reaktivne programske agente. Prvi delujejo na osnovi notranjega simboli nega vzro nega modela svojega okolja in ºelijo koordinacijo z ostalimi agenti dose i z na rtovanjem in pogajanji. Pravimo, da uporabljajo preudarno mi²ljenje. Takega notranjega simboli nega modela nimajo reaktivni programski agenti. Njihovo obna²anje je odvisno od trenutnega stanja okolja, v katerem se nahajajo, ter z njim povezanimi spodbudami in zaznavami [45]. Nekoliko druga no delitev priporo ata Jennings in Wooldridge [63]. Med obstoje imi programskimi aplikacijami glede na zahtevnost nalog, ki jih agenti izvajajo, identicirata tri razli ne razrede. Na najbolj preprostem nivoju so agenti, ki izvajajo enostavne naloge na osnovi vnaprej dolo enih pravil in predpostavk. Na naslednji stopnji so izvajalci storitev, agenti, ki na zahtevo uporabnika izvr²ujejo bolj zahtevne, dobro denirane naloge. Na koncu so tu ²e prero²ki agenti, ki uporabniku prostovoljno ponujajo informacije ali storitve, kadar se jim to zdi primerno, ne pa le, kadar se to od njih eksplicitno zahteva [63]. Naslednja moºna klasikacija je zgrajena na osnovi primarnih atributov, ki jih lahko pripi²emo agentom. V kolikor se omejimo zgolj na samostojnost, zmoºnost u enja ter zdruºljivost, ob predpostavki, da morajo agenti imeti vsaj dve izmed njih, dobimo ²tiri

22 2.4: Kaj je agent? 10 vrste programskih agentov: sodelovalni, sodelovalni zmnoºni u enja, uporabni²ki in pametni agenti (Slika 2.2). Tak²no klasikacijo lahko dodatno raz²irimo ²e s sekundarnimi atributi, pri emer nas zanima, e so agenti verodostojni, racionalni, mnogostranski, dobronamerni, asovno kontinuirani itd. [45] Pametni agenti Sodelovalni agenti zmožni učenja Sodelovanje Učenje Sodelovalni agenti Avtonomija Uporabniški agenti Slika 2.2: Klasikacija agenta na osnovi temeljnih atributov [45] Agent je ra unalni²ki sistem (program), z (nekaterimi) naslednjimi lastnostmi [14, 64, 45, 49, 15]: Avtonomnost je sposobnost agenta neodvisno dolo iti in izvesti mnoºico akcij brez neposrednega love²kega posredovanja (ali posredovanja drugih agentov) glede na dogodke, ki se proºijo v okolju (predvideni ali nepredvideni). To pomeni, da je samostojen, ima nadzor nad svojimi akcijami in notranjim stanjem, kar pomeni, da se sam odlo i ali se bo odzval in izpolnil zahteve drugih agentov ali ne. Nenehnost delovanja je v nasprotju z navadnimi programi, ki se po opravljeni nalogi zaustavijo. Agenti delujejo neprestano skozi dalj²e asovno obdobje in neprestano opazujejo okolje in urejajo svojo bazo znanja. Veliko opravil, kot je npr. zbiranje informacij, ltriranje itd., ki jih agenti opravljajo, zahteva neprestano delovanje. Prilagodljivost pomeni da, v nekem asovnem obdobju, agent pridobi izku²nje, na podlagi katerih je zmoºen prilagoditi svoj odnos (vedenje) tako, da se im bolje prilega ºeljam in pri akovanjem razli nih uporabnikov. Dojemanje okolja pomeni da, agent deluje v okolju, v katerem je nastanjen z dvema namenoma:

23 2.4: Kaj je agent? 11 ˆ Prilagajanje okolju: agent ob uti in zaznava svoje okolje ter spremembe v njem; na podlagi teh informacij primerno reagira v ustreznem asovnem intervalu; rezultat akcij agentov lahko povratno vpliva na okolje. ˆ Doseganje ciljev: agent ne reagira samo na spremembe v okolju pri doseganju zadanih ciljev, marve je zmoºen tudi prepoznavanja priloºnosti in prevzemanja pobude, kjer je to primerno. Komunikativnost in dojemanje drugih agentov pomeni, da agent lahko modelira druge agente (ali ljudi), logi no razmi²lja o njih in komunicira z njimi preko komunikacijskih/koordinacijskih protokolov; namen zahteve je zadovoljevanje na- rtovanih ciljev in medsebojna pomo pri izvajanju aktivnosti. Inteligenca pove, da agent lahko vklju uje razli ne pristope in tehnike umetne inteligence, kot so npr. strojno u enje, avtomatsko na rtovanje, sklepanje, modeliranje, itd. Antropomorzem je, da agent lahko izraºa love²ke mentalne in ustvene kvalitete; zna se opredeliti glede svojih prepri anj ali dolºnosti, zna izraºati razumevanje ali presene enje s pomo jo obraznih upodobitev, prikazati jezo, prijaznost, itd. Mobilnost je zmoºnost agenta, da se za doseganje svojih ciljev, lahko prosto giblje (npr. po internetu) oziroma se je sposoben migracije iz enega okolja (ra unalni- ²kega sistema) v drugega. Reprodukcija je lastnost agenta, da je zmoºen reproducirati sam sebe. Druºbenost je sposobnost interakcije agenta z drugimi agenti ali uporabniki za dosego svojih ciljev oziroma pomo i pri doseganju ciljev drugih agentov. Komuniciranje, sodelovanje in pogajanje agentov ponavadi poteka preko nekega skupnega komunikacijskega jezika. Reaktivnost je sposobnost agenta, da zaznava svoje okolje (uporabnik preko gra nega vmesnika, mnoºice drugih agentov, internet ali pa kombinacija vsega tega) in se na njegove spremembe primerno odzove z namenom, da doseºe na rtovane cilje. Proaktivnost je ciljno usmerjeno delovanje agenta, pri katerem je tudi sam sposoben prevzeti pobudo, e je to potrebno.

24 2.5: Programski demoni Kontrolni sistemi Na vsak kontrolni sistem lahko gledamo kot na agenta. Preprost primer je termostat. Termostat ima senzor, s katerim ugotovi sobno temperaturo. Tak²en senzor je vgrajen v okolje (soba) in njegov izhod je lahko eden izmed dveh moºnih signalov: prvi nam pove, da je temperatura prenizka in drugi nam pove, da je temperatura ravno prava. Akciji, ki sta na voljo termostatu sta za ni z gretjem in prekini z gretjem. Akcija za ni z gretjem bo imela u inek dviga sobne temperature, ampak to ne bo garantiran u inek - npr., e je odprto okno ali vrata, lahko sploh nima u inka. Zelo preprosta odlo itvena komponenta, ki jo termostat implementira ima, naslednja pravila: Mrzlo za ni z gretjem. Toplo prekini z gretjem. Bolj kompleksni nadzorni sistemi za okolje imajo seveda bogatej²o izbiro odlo itev. Primeri tak²nih okolij so avtonomne vesoljske sonde, letala brez pilotov, jedrski reaktorji, itd. 2.5 Programski demoni Programski demoni (to so procesi, ki te ejo v ozadju v operacijskem sistemu Unix in nadzorujejo programsko okolje ter izvajajo akcije na tem okolju) so lahko tudi agenti. Primer program v okolju X Windows obstaja z imenom xbiff. Ta program neprestano nadzoruje uporabni²ko elektronsko po²to in nato uporabnika opozori s pomo jo gra ne ikone, da ga aka neprebrana po²ta. Medtem ko se je na² termostat v prej²njem primeru nastanil v zi no okolje, se je xbiff program nastanil v programsko okolje. Pridobil je informacije o okolju tako, da je izvajal programske funkcije (sistemske programe, kot npr. ls) in akcije, ki jih je izvedel so programske akcije (sprememba ikone na zaslonu ali izvajanje programa). Odlo itvena komponenta je prav tako zelo enostavna, kot pri na²em termostatu. 2.6 Aplikacije inteligentnih agentov Tehnologija agentov se razvija in raz²irja tradicionalne informacijske sisteme tako, da nam inteligentni sistemi pomagajo izbolj²ati na²o u inkovitost in uspe²nost s poenostavitvijo in avtomatizacijo mnogih opravil, povezanih s procesiranjem informacij in sprejemanjem odlo itev.

25 uèenje na primerih 2.6: Aplikacije inteligentnih agentov 13 Zavedati se moramo, da obstaja mnogo inteligentnih agentov, ki jih ni enostavno postaviti v eno od zgoraj navedenih kategorij, saj jih je veliko deniranih za to no dolo ene domene. Naslednji seznam predstavlja inteligentne agente, ki so v tem trenutku najbolj v uporabi [30, 64, 38] Vmesni²ki agenti Vmesni²ki agenti (Interface agents) [30] zagotavljajo pomo, tipi no uporabniku, ki se u i uporabljati dolo eno aplikacijo (urejevalnik besedil, operacijski sistem, itd.). Agent opazuje in nadzoruje vse aktivnosti uporabnikov in se u i, da lahko v prihodnosti predlaga bolj²e na ine za opravljanje nalog. Ti agenti se u ijo ponujati pomo na ²tiri razli ne na ine: ˆ z opazovanjem in posnemanjem uporabnika, ˆ s sprejemanjem pozitivne in negativne povratne informacije, ˆ s sprejemanjem nedvoumnih navodil, ˆ s povpra²evanjem drugih agentov po nasvetih. Prednosti te vrste agentov so, da zmanj²ujejo stopnjo ponavljajo ih opravil, prilagajajo se uporabnikovim navadam in ºeljam ter ²irijo in delijo znanje med razli nimi uporabniki skupine. Sem spadajo tudi osebni agenti. Uporabnik Aplikacija komunicira opazuje in posnema povratna informacija komunicira Osebni agent Slika 2.3: Kako deluje uporabni²ki agent po Maes [38]

26 2.6: Aplikacije inteligentnih agentov Informacijski agenti Informacijski agenti izvajajo naloge upravljanja, obdelave, zbiranja in primerjanja informacij iz mnoºice razli nih virov. Za razvoj tak²nih vrst agentov, je potreba po razvoju orodij in tehnologij za upravljanje in vzdrºevanje velikih koli in dostopnih informacij. Hkrati pa se pojavljajo nan ne priloºnosti. Obvladovanje nalog Sposobnost delovanja informacije - pridobivanje - filtriranje - strukturiranje - strnjevanje - upravljanje -vzdr evanje iskanje zakonitosti poizvedovanje viri ovijanje dostop preko: - spleta - vmesnika API Sposobnost komunikacije agent ACL uporabnik V/I procesiranje èloveška signalizacija apriori Obvladovanje znanja pridobljeno ontologije meta podatki procesiranje naravnega jezika strojno uèenje uporabnik IUA agent pogovor pogajanje posredovanje ujemanje Slika 2.4: Informacijski agent Mobilni agenti Mobilni agenti so zmoºni gibanja po razli nih okoljih (ra unalni²kih mreºah), komunikacije z razli nimi viri, izvajanja nalog na oddaljenih virih in vzpostavljanja privzetega stanja ob zaklju ku opravil Sodelovalni agenti Sodelovalni agenti imajo naslednje lastnosti: ˆ Uporabljamo jih za re²evanje problemov, kateri so preveliki za enega centraliziranega agenta zaradi omejitev virov oz. sposobnosti. ˆ Uporabljamo jih tudi za re²itev, kjer uporabljajo porazdeljene vire izvorov. Primer za mreºne informacijske vire

27 2.6: Aplikacije inteligentnih agentov 15 ˆ Uporabljamo jih za pove anje modularnosti (katera zmanj²uje kompleksnost), hitrosti (vzporedno s paralelnostjo), zanesljivosti, eksibilnosti in ponovne uporabe Filtrirni agenti Filtrirni agenti (angl. Filtering Agents) se pogosto uporabljajo v avtomatiziranem iskanju in zbiranju informacij, ki je dolo eno z uporabni²kimi poizvedbami. Uporabnikom pomagajo pri klasikaciji, urejanju, organiziranju in lociranju informacij iz razli nih virov (internet, podatkovne baze, skladi² a... ) Sodelovalno-ltrirni agenti Sodelovalno-ltrirni agenti (angl. Collaborative Filtering Agents ) uporabniku pripravljajo informacije glede na njegov prol, prav tako pa tudi vsem ostalim uporabnikom, ki jih zdruºujejo podobni interesi ali vzorci delovanja Nakupovalni agenti Nakupovalni agenti (angl. Shopping Agents) znani tudi pod imenom shopbots, so namenjeni pomo i uporabniku pri izbiranju najugodnej²ega izdelka z najmanj vloºenim trudom Agenti za e-poslovanje Medtem, ko so nakupovalni agenti sluºabniki kupcev pri nakupovanju, so agenti za e-poslovanje (angl. E-commerce Agents) namenjeni za pomo prodajalcem ali pa za pospe²evanje izvajanja transakcij Agenti za podporo odlo anju Agenti za podporo odlo anju (angl. Decision Support Agents) so inteligentni agenti, ki imajo dostop do podatkovnih baz in analiti nih orodij ter omogo ajo podporo odlo- anju. Uporabijo se lahko razne metode umetne inteligence, kot je statisti na analiza, ekspertni sistemi na osnovi pravil, sklepanje na podlagi primerov, hevristi no iskanje, mehka logika, nevronske mreºe in evolucijsko ra unanje.

28 2.6: Aplikacije inteligentnih agentov Agenti za planiranje in na rtovanje Agenti za planiranje in na rtovanje (angl. Planning and Scheduling Agents ) so inteligentni agenti, ki podpirajo komuniciranje in sodelovanje med lani skupine Agenti za nadzor omreºja Agenti za nadzor omreºja (angl. Network Management Agents ) so inteligentni agenti, ki avtomatsko nadzorujejo, dodeljujejo, koordinirajo in upravljajo z omreºnimi storitvami preko intraneta in/ali interneta Agenti za iskanje zakonitosti v podatkih Agenti za iskanje zakonitosti v podatkih (angl. DataMining Agents) so inteligentni agenti, ki uporabljajo analiti na orodja za identikacijo vzorcev, trendov in kriti nih dogodkov iz velike koli ine podatkov v podatkovnih bazah ali na spletu Agenti za kategoriziranje Agenti za kategoriziranje (Directory and Category Agents ) so inteligentni agenti, ki avtomatsko i² ejo po spletu ter pripravljajo kataloge in kategorije informacij ter storitev, kot jih najdemo npr. pri spletnih iskalnikih kot sta Najdi.si in Google.

29 Poglavje 3 Podatkovno skladi² e Podjetja zbirajo velike koli ine podatkov o razli nih vidikih poslovanja. Shranjeni so v razli nih sistemih, ki delujejo na razli nih platformah in niso vedno povezljivi. Podatki sami po sebi ne predstavljajo informacij. Le z zdruºevanjem in organiziranjem podatkov lahko pridemo do poslovnih informacij, nujnih za sprejemanje hitrih in pravilnih poslovnih odlo itev [28]. Koncept podatkovnih skladi² se je razvil ob koncu osemdesetih let prej²njega stoletja z namenom, da bi podjetjem pomagal pri poslovnih odlo itvah. Podatkovno skladi² e (angl. Data Warehouse) je torej podatkovna baza, namenjena podpori analiti nemu odlo anju na nivoju celotne organizacije, zato mora zagotavljati kakovostne podatke za analiti ne uporabnike, integrirane iz razli nih virov organizacije. Podatkovno skladi² e s svojimi strukturami in procesi, prirejenimi v podporo poslovnemu procesu, ter podatki, pre i² enimi in integriranimi v procesu migracije podatkov, omogo a tistim, ki odlo ajo in skrbijo za razvoj podjetja, celovit pregled nad podatki posamezne organizacije [19]. Podatki v podatkovnih skladi² ih so namenjeni predvsem podpori odlo anju, zato so tudi primerno strukturirani. Struktuirani so druga e kot v podatkovnih bazah, kjer podpirajo izvajanje operativnih poslovnih procesov. Z uporabo podatkovni skladi² se hkrati razbremeni operativni sistem. Podatki se v podatkovno skladi² e prepisujejo iz vseh operativnih oziroma aplikacijskih sistemov podjetja, informacijskih sistemov partnerjev in zunanjih virov. Podatki se med prenosom v podatkovno skladi² e preoblikujejo in poenotijo. Osnovni namen postavitve podatkovnega skladi² a je zgraditi informacijski sistem, ki bo omogo il aktivnej²e upravljanje s stro²ki, na drugi strani pa tudi natan nej²e planiranje [33]. 17

30 18 Denicija podatkovnih skladi² po Inmonu [27]: Podatkovno skladi² e je predmetno orientirano, integrirano, brez spreminjanja obstoje ih podatkov in asovno spremenljiva zbirka podatkov, ki je v podporo odlo itvam managementa. Ralph Kimball takole denira podatkovno skladi² e [35] Podatkovno skladi² e je kopija transakcijskih podatkov, posebej strukturirana za izvajanje poizvedb in analiz. Larry Greeneld [22] dopolni Kimball-ovo denicijo: Podatkovno skladi² e je kopija transakcijskih podatkov, posebej strukturirana za izvajanje poizvedb in poro il. Greeneld [22] ugotavlja, da se v podatkovno skladi² e shranjujejo tudi ne-transakcijski podatki, eprav je ve ina (95-99%) transakcijskih podatkov. Izhodni podatki iz podatkovnega skladi² a so lahko poizvedbe, ki so prikazane v obliki tabel, ki niso oblikovno obdelane ali pa poro ila, kjer je vklju ena napredna oblika (kon na poro ila). Ni pa nujno, da poizvedbe in poro ila uporabljamo za analizo. Dodaja pa tudi, da podatkovno skladi² e ni nujno uporabno samo za odlo itvene procese, saj vsak uporabnik podatkovnega skladi² a ni nujno odlo evalec. Splo²no opredeljeno je podatkovno skladi² e zbirka podatkovnih baz, povezana in prirejena tako, da im bolje podpira management pri odlo itvah. Zato se podatkovno skladi² e sestoji iz podatkov, ki so primerno integrirani in pre i² eni v enega od arhitekturnih tipov podatkovnih skladi², ter s tem omogo a jedrnat izpis informacij, ki jih je uporabnik zahteval. Inmon [27] opredeljuje podatkovno skladi² e kot arhitekturno strukturo, ki podpira upravljanje podatkov in je: Tematsko usmerjena. Pomeni, da je skladi² e organizirano okoli glavnih entitet organizacije [27] in ni funkcionalno ali aplikacijsko orientirano. To omogo a asovno dolgo uporabo podatkov podatkovnega skladi² a, brez pomembnega spreminjanja njegove organizacije ali strukture. Zdruºljiva. Zdruºevanje (integracija) podatkov v podatkovnem skladi² u se nana²a na zi no

31 3.1: Podro no podatkovno skladi² e 19 zdruºljivost in povezljivost podatkov v skladi² u. Podatki imajo tako, ne glede na izvor, poenotene klju e, oblike zapisov, poenotene merske enote, itd. Za zdruºitev podatkov je potreben proces, ki te podatke iz operativnega sistema ustrezno spremeni oz. prilagodi glede na model podatkov v podatkovnem skladi² u. ƒasovno spremenljiva. Vsak zapis je to en v dolo enem asovnem trenutku. ƒasovno spremenljivost doseºemo z izdelavo posnetkov stanja okolja, ki ga preslikujemo v podatkovno skladi² e. ƒasovno spremenljivost podatkov doseºemo s asovnim elementom v klju u strukture podatkov. ƒasovni elementi so lahko leto, etrtletje, mesec, teden, dan. Obstojna. Obstojnost vsebine podatkovnega skladi² a pomeni, da se zapisi, ko so zapisani v podatkovnem skladi² u, ne spreminjajo ve. ƒasovno obdobje, za katero se hranijo podatki, je lahko tudi dalj²e od enega ali celo deset let. Vsebuje podrobne in zdruºene podatke. Podrobni podatki predstavljajo celotno transakcijo in vse podatke vezane na to transakcijo. Pri zdruºenih podatkih lo imo dve vrsti zdruºenih podatkov - prol in javni zdruºeni podatki. Na drugi strani pa zdruºeni podatki predstavljajo skupek povezanih podatkov, kjer nas zanima celotna vrednost in podrobni podatki niso potrebni za analizo. 3.1 Podro no podatkovno skladi² e Podro no podatkovno skladi² e (angl. Data Mart) je skladi² e podatkov, zbranih iz operativnih sistemov in drugih izvorov, ki sluºi dolo eni skupini uporabnikov. Obsega lahko izvle ek iz podatkovnega skladi² a, ali pa je bolj specializirano. Vir podatkov za podro na podatkovna skladi² a so lahko podatkovna skladi² a, saj vsebujejo ºe integrirane in pre i² ene podatke. Podatkovno skladi² e je torej sredi² na, centralizirana baza podatkov, ki je sicer lahko zi no razdeljena. Podro no podatkovno skladi² e pa je baza podatkov, ki lahko izhaja iz podatkovnega skladi² a, ni pa to nujno in je prilagojena potrebam omejene skupine uporabnikov. Inmon [27] denira podro no podatkovno skladi² e kot podmnoºico podatkovnega skladi² a, ki je prilagojena potrebi uporabnikov dolo enega oddelka. Dopu² a moºnost, da se podro no podatkovno skladi² e uporablja v ve oddelkih, ki imajo enake ali podobne zahteve.

32 3.2: Priprava podatkov 20 Podro no podatkovno skladi² e mora biti v primerjavi s podatkovnim skladi² em prilagodljivo in dostopno. Ker vsebuje, v primerjavi s podatkovnim skladi² em, veliko manj podatkov, je odzivnost podro nega podatkovnega skladi² a bolj²a. V nasprotju z Inmonom pa Kimball [35] denira podatkovno skladi² e kot unijo podro nih podatkovnih skladi², pri kateri podatkovno skladi² e nastane iz ºe zgrajenih podro nih podatkovnih skladi². 3.2 Priprava podatkov Podatke je na za etku potrebno prebrati iz razli nih virov in pri tem se soo amo z heterogenimi oblikami hranjenja podatkov. Ve ko je le-teh, teºje je uskladiti podatke, saj so ti rezultat razli nih poslovnih procesov. Pri implementaciji podatkovnih tokov je vedno prisoten problem kakovosti podatkov. Ta je odvisna od dovr²enosti informacijskih sistemov in natan nosti uporabnikov. Tu pa je vedno je prisoten faktor love²ke napake, ki se pojavlja v nepoznavanju okolja, napakah v podatkih in napakah v procesih, ki jih uporablja podjetje [11]. ETL je uveljavljena kratica, ki predstavlja angle²ke besede extract, transform in load, kar pomeni pridobivanje, preoblikovanje in polnjenje podatkov. Predstavlja pa polnjenje podatkov v podatkovno skladi² e. Podatke najprej izvle emo iz izvornih sistemov, jih ustrezno preoblikujemo (preverjanje kakovosti podatkov, i² enje podatkov, integracija), nato pa jih polnimo v skladi² e podatkov. Statistike kaºejo, da proces ETL pri projektih izgradnje podatkovnega skladi² a predstavlja kar 70 do 80 odstotkov asa. Ko pa je skladi² e podatkov v produkcijski rabi, so postopki ETL ponavadi izvedeni kot avtomati ni postopki, ki se periodi no sproºijo na podatkovni bazi in poskrbijo, da se podatki iz operativnih sistemov napolnijo v skladi² e podatkov [40]. Pridobivanje podatkov Prvi korak je branje podatkov iz izvornih sistemov. V tem delu procesa se izvede izbor ºelenih podatkov, nato se le-te podatke spremeni iz razli nih zi nih oblik (tekstovna datoteka, Excelova preglednica, razne podatkovne baze) v obliko, ki jo zahteva proces priprave. Preoblikovanje podatkov Podatki so v izvornih sistemih shranjeni v oblikah, ki so prilagojene operativni rabi v informacijskih sistemih. Tako jih je potrebno preoblikovati v obliko, ki jo zahteva podatkovno skladi² e. Zaradi tega se v tej fazi izvede agregiranje podatkov, kot rezultat pa dobimo pripravljene podatke za dodajanje v podatkovno skladi² e.

33 3.3: Sprotna analiti na obdelava 21 Polnjenje podatkov Ko so podatki preoblikovani v strukturo zahtevano v podatkovnem skladi² u, se jih doda v tabele v podatkovnem skladi² u. Dodajanje je odvisno od strategije podjetja in zahtev regulatorjev. Podjetje se tu odlo a predvsem o ohranjanju zgodovine sprememb oz. o ohranjanju zadnjega stanja podatka. Zunanji regulatorji v svojih zahtevah lahko dolo ajo tako ohranjanje zgodovine, kot tudi razli ne na ine generiranja umetnih klju ev. 3.3 Sprotna analiti na obdelava Sprotna analiti na obdelava (angl. On Line Analytic Processing - OLAP) je splo²na aktivnost izdelave povpra²evanj in predstavitve besedilnih in numeri nih podatkov iz podatkovnih skladi², kot tudi speci ni dimenzijski na in povpra²evanja in predstavitve, ki ga uporabljajo OLAP izdelki. Orodja OLAP omogo ajo sprotno medsebojno primerjavo poslovnih subjektov iz kateregakoli vidika in izvedbo novih analiz, ne samo na podlagi zgodovinskih podatkov, temve ob omogo anju iterativnih sprememb v predvidevanjih in ra unskih formulah. Podatkovno skladi² enje se osredoto a na zbiranje, pre i² evanje in hranjenje velikih koli in podatkov, orodja OLAP pa so sredstva za upravljanje in analize informacij. Sinergija predstavlja celoto, ki je veliko ve kot vsota njenih delov [18]. Delo z orodji OLAP je praviloma precej intuitivno za uporabo, tako da kompleksno predznanje ni potrebno. Med najosnovnej²e operacije ²tejemo naslednje: ˆ vrtanje v globino (angl. drill down), ˆ zvijanje navzgor (angl. drill up), ˆ rezanje (angl. slice and dice), ˆ vrtenje (angl. pivoting), ˆ vrtanje skozi (angl. drill through), ˆ primerjanje, izra uni, agregiranje (angl. comparing, calculating, aggregating) Vrtanje v globino Z operacijo vrtanja v globino dobimo podrobnej²i vpogled v podatke, ki se skrivajo za dolo eno vrednostjo. V letnem analiti nem poro ilu se lahko z vrtanjem v globino spustimo na nivo analize po mesecih ali celo dnevih.

34 3.4: Cilji podatkovnega skladi² a Zvijanje navzgor Zvijanje navzgor je obratna operacijo od vrtanje v globino. Ta operacija omogo a manj podroben opis oz. bolj splo²en opis podatkov Rezanje in kockanje Pri operaciji rezanja se omejimo na eno dimenzijo, iz katere si izberemo samo en segment. Pri operaciji kockanja pa naredimo selekcijo na ve dimenzijah. Predvidevamo, da imamo podatke z ve dimenzijami ( as, prostor, izdelek), ki jih ho emo na nekem mestu prerezati. ƒe jih prereºemo samo na eni dimenziji, dobimo t. i. rezino podatkov (angl. slice). ƒe pa dodamo ²e kak²no dimenzijo, na primer prostor, temu re emo kockanje (angl. dicing) Vrtenje Vrtenje je operacija, ki spremeni videz poro ila samo oblikovno. Vrtenje ki vizualno rotira osi pri pogledu, ter s tem omogo i druga en pogled na predstavljene podatke, ne da bi podatke spremenila po vsebini Vrtanje skozi Operacija vrtanje skozi je namenjena predvsem za pridobivanja oz. prikaz podrobnih podatkov. To so isti elementarni podatki, ki predstavljajo eno vrstico (transakcijo) v tabeli dejstev Primerjanje, izra uni in agregiranje Operacija primerjanja omogo a primerjanje podatkov po razli nih dimenzijah. S takimi primerjavami lahko spremljamo na primer ºe teko e poslovanje s prej²njimi leti. Izra une in agregacijo podatkov pa uporabljamo pri zahtevnih analizah, ko ho emo sproti prikazati imve informativnih in izpeljanih podatkov. 3.4 Cilji podatkovnega skladi² a Glavni cilj podatkovnega skladi² a mora biti odpravljanje teºav v organizaciji, kot so zniºanje dohodka, nezmoºnost sledenja konkurenci, visoki stro²ki proizvodnje, izgubljanje strank, zamujene priloºnosti... [2]

35 3.4: Cilji podatkovnega skladi² a Kratkoro ni cilji Kratkoro ne cilje mora podatkovno skladi² e uresni iti takoj, ko je projekt vzpostavitve kon an in se morajo odpraviti najbolj pogoste napake, ki veljajo za tradicionalne sisteme za podporo odlo anja. Podatki, ki jih ºelimo prenesti v podatkovno skladi² e iz operativnih sistemov, lahko vsebujejo napake. Tak²ne napake moramo najprej o istiti (angl. data cleaning), kar je asovno zahtevna naloga, za katero potrebujemo tudi veliko drugih virov [2]. Napake so lahko tudi v neskladnosti podatkov v poro ilih, katere izvor je napa na raba podatkov, ki izvira iz razli nega tolma enja pomena podatkov. Odpravljanje razli nih tolma enj podatkov zahteva sporazum o pomenu podatkov med vsemi uporabniki in razvijalci. Tak²en primer so podatki iz razli nih operativnih virov, ki jih navadno ne moremo neposredno zdruºiti med seboj, ker se podatki v razli nih sistemih identicirajo na razli ne na ine. Cilj je zdruºiti te podatke v podatkovnem skladi² u, kjer jih lahko so asno uporabljamo. Ampak ºe pred zajemom je potreben dogovor o samem pomenu podatkov - opisni podatki (angl. metadata). Namen gradnje podatkovnega skladi² a je navadno deljenje podatkov med uporabniki iz razli nih delov organizacije. Pri deljenju je potrebno upo²tevati katere podatke potrebujejo in kako podroben vpogled v podatke je zahtevan. So asno je potrebno poskrbeti za zgodovinske podatke, ki jih lahko uporabniki enostavno primerjajo s trenutnimi. Podatki, ki so nam na voljo v operativnem sistemu, navadno obsegajo le podatke za obdobje zadnjih nekaj let. Zgodovinskih podatkov pri vsakdanjem delu ne potrebujemo, ker lahko dodatno obremenjujejo sistem in so zato celo nezaºeleni. Poleg tega se zaradi prilagajanja operativnega sistema razli nim zahtevam spreminjata oblika in vsebina podatkov Dolgoro ni cilji Dolgoro ne cilje lahko s podatkovnim skladi² em uresni imo, e so izpolnjeni kratkoro ni cilji in e podatkovno skladi² e ves as posodabljamo, tako da sledi potrebam uporabnikov [2]. Izdelava celotne slike podatkov v organizaciji se naredi takrat kadar pri gradnji podatkovnega skladi² a izdelamo tudi logi ni podatkovni model podatkov, ki jih bomo vklju ili v podatkovno skladi² e. Med dodajanjem podatkov v podatkovno skladi² e se tudi pove uje obseg podatkov, ki so zajeti v logi nem modelu in tako bo s asoma logi ni model obsegal vse, ali pa ve ino, podatkov v organizaciji. Posledi no bo s pomo jo podatkovnega skladi² a nastala ena vstopna to ka do

3.5: SAP Business Warehouse 24 vseh podatkov organizacije. Kar pomeni, da so vsi podatki v podatkovnem skladi² u dosegljivi prek skupnega uporabni²kega vmesnika ali vstopne to ke. 3.

36 3.5: SAP Business Warehouse 24 vseh podatkov organizacije. Kar pomeni, da so vsi podatki v podatkovnem skladi² u dosegljivi prek skupnega uporabni²kega vmesnika ali vstopne to ke. 3.5 SAP Business Warehouse SAP je svojo prvo re²itev podatkovnega skladi² a predstavil leta Takratna re²itev je zajemala predvsem orodja, ki so podjetju omogo ala u inkovitej²e upravljanje s podatki. Kasnej²i razvoj je zajemal vse ²ir²i pogled poslovanja in je tako vklju eval tudi vse ²ir²i zajem posameznih poslovnih komponent in aplikacij, ki so zdruºevale poslovno re²itev. SAP Business Information Warehouse (SAP BW) predstavlja re²itev, ki zajema ²iroko zbirko orodij, ki omogo ajo zajem, transformacijo in polnjenje podatkov (ETL 1 proces ), orodja za podatkovno modeliranje in orodja namenjena analizam in poro anju ter orodja poslovne inteligence (angl. business intelligence). Poleg tega poslovna re²itev SAP BW zajema tudi ²tevilne analiti ne aplikacije, ki so uporabnikom v pomo pri obdelovanju, analiziranju podatkov in omogo ajo izvajanje sprotnih analiti nih obdelav podatkov (OLAP tehnologija, ve v poglavju 3.3), izvajanje ve -dimenzionalnih analiz z razli nih poslovnih vidikov ter najrazli nej²ih analiz podatkov, ki so pridobljeni iz SAP transakcijskih poslovnih sistemov oz. drugih podatkovnih virov [9, 10, 31]. Slika 3.1: Okolje SAP Business Warehouse [24, 3] 1 Opis ELT procesa je v poglavju 3.2

37 3.6: Arhitektura poslovne re²itve SAP BW 25 Poslovna re²itev SAP BW zajema ²tevilne poslovne komponente in orodja za upravljanje podatkov, podatkovno modeliranje, analiti na orodja, orodja za zajem, prenos in polnjenje transakcijskih podatkov v podatkovno skladi² e in jo lahko opredelimo s tremi nivoji: ˆ zajem, prenos in polnjenje transakcijskih podatkov (ETL proces) iz razli nih podatkovnih virov v SAP podatkovno skladi² e, ˆ podro je podatkovnega skladi² a, ki je namenjeno shranjevanju prenesenih podatkov v razli nih strukturah, oblikah, vklju ujo tudi multidimenzionalne strukture imenovane podatkovne kocke (angl. InfoCube), ˆ orodja za izvajanje analiz in poro il. Poslovna re²itev SAP BW vsebuje orodja, ki omogo ajo prilagodljivo izvajanje analiz, poro il ter predstavitev podatkov uporabnikom na prijazen in razumljiv na in. SAP BW zdruºuje ve poslovnih re²itev in orodij kot so poslovna inteligenca (angl. business intelligence), analiti na orodja, orodja za poro anje in orodja podatkovnega skladi² enja podatkov (angl. data warehousing) [24, 17, 34]. Od leta 2004 naprej je SAP BW podatkovno skladi² e ena izmed temeljnih komponent SAP poslovne platforme imenovane SAP NetWeaver. Ta zdruºuje skupino poslovnih re²itev, ki lahko pripomorejo k optimizaciji poslovnih procesov, bolj²emu skladi² enju podatkov, u inkovitej²emu poslovnemu obve² anju, izvajanju analiz in obdelav, ter s tem tudi k uspe- ²nej²emu in u inkovitej²emu poslovanju celotnega podjetja [24]. 3.6 Arhitektura poslovne re²itve SAP BW SAP BW poslovna re²itev je zasnovana tako, da zajema vse klju ne koncepte podatkovnega skladi² a. Koncepti za izvajanje procesov, ki so povezani s podatkovnimi skladi² i so: ˆ zajem podatkov iz podatkovnih virov, transformacija ustreznih podatkov in polnjenje podatkovnega skladi² a, ˆ funkcije za izvajanje ETL procesa, ˆ komponente za shranjevanje podatkov, ˆ orodja za obdelavo, analizo podatkov in izvajanje poro il,

38 3.6: Arhitektura poslovne re²itve SAP BW 26 ˆ predstavitvene komponente, ki omogo ajo predstavitev pridobljenih podatkov na razli ne na ine. Poročanje Bex Analyzer (MS Excel) Bex Browser (splet) Mobilno poročanje OLAP procesor BW strežnik Matični podatki Infoponudnik Metapodatkovni slovar Transak. podatki Skrbniško namizje Sistem za zbiranje in prenos Podatkovni vir SAP R/3 SAP BW... ne-sap XML Datoteka Podatkovna baza Sap komponente Slika 3.2: Arhitektura poslovne re²itve SAP Business Warehouse [31] Arhitektura podatkovnega skladi² a se deli na tri nivoje po Henry Fu-ju [17]: 1. Najvi²ji nivo je namenjen poro anju. To je SAP BW poslovni raziskovalec (angl. BW Business Explorer Analyzer BEx Analyzer) ali pa kako drugo orodje namenjeno poro anju (angl. third party tool). SAP BW poslovni raziskovalec sestavljata dve komponenti in sicer se razlikujeta glede na na in dostopa. BEx Analyzer je dodatek za programsko orodje Microsoft Excel in je namenjeno izvajanju razli nih analiz in obdelav. BEx Browser pa deluje kot spletna aplikacija, ki uporabnikom omogo a iskanje, pregledovanje in urejanje vseh vrst informacij znotraj spletnega brskalnika. 2. Srednji nivo predstavlja SAP BW streºnik (angl. SAP BW server), ki je zadolºen za naloge, kot so upravljanje podatkovnega skladi² a in sistema, shranjevanje podatkov ter pridobivanje ustreznih podatkov, ki jih potrebujejo uporabniki.

39 3.6: Arhitektura poslovne re²itve SAP BW 27 Srednji nivo sestavljajo naslednje komponente: ˆ Skrbni²ko namizje sestavljajo orodja za upravljanje podatkov, spremljanje toka podatkov in na rtovanje podatkov. ˆ Orodje za upravljanje z meta podatkovnim slovarjem in meta podatki. Metapodatkovni slovar vsebuje podatke o podatkovnem skladi² u. Meta podatke lahko opredelimo kot podatke o podatkih. Podatkovni slovar vsebuje tako tehni ne podatke (npr. pravila za zajem in prenos podatkov), kot tudi vsebinske podatke (npr. denicije in opise namenjene poro anju). ˆ Sistem za zbiranje in prenos omogo a zbiranje in prenos podatkov. V izvorni podatkovni sistem po²lje zahtevo po podatkih na podlagi katere izvorni sistem izbere in pripravi podatke za polnjenje podatkovnega skladi² a. ˆ PSA (angl. Persistent Staging Area - PSA), omogo a shranjevanje podatkov v prvotni obliki med izvajanjem procesa polnjenja podatkovnega skladi² a. PSA omogo a preverjanje kakovosti podatkov preden so le-ti preneseni v objekte (info kocke in objekti ODS) podatkovnega skladi² a. ˆ Objekti ODS (angl. Operational Data Store ODS) nam omogo ajo, da zgradimo ve plastno strukturo za operativne podatke. Namenjeni so shranjevanju operativnih, transakcijskih podatkov (ampak ne v obliki zvezdne sheme) na podlagi katerih se izvajajo lahko podrobna poro ila. Ti objekti zagotavljajo najnovej²e podatke, ki so namenjeni vsakodnevnim analizam in obdelavam. ˆ Info kocke (angl. InfoCube) lahko opredelimo tudi kot tabele dejstev in z njimi povezane dimenzionalne tabele strukturirane v obliki zvezdne sheme. ˆ Komponenta za upravljanje s podatki (angl. Data Manager) je namenjena upravljanju s podatki v ODS objektih in info kockah ter sporo a OLAP procesorju kateri podatki so primerni za poro anje. ˆ OLAP procesor je orodje, ki je namenjeno izvajanju sprotnih analiti nih obdelav podatkov in prikazovanju dobljenih rezultatov. Ve v poglavju 3.3. ˆ Komponenta za upravljanje z dokumenti (angl. Business Document Services) omogo a shranjevanje dokumentov v razli nih formatih. Rezultati poizvedbe izvedenih z orodjem za analiziranje (BEx Analyzer) ali MS Excel orodjem se shranjujejo kot delovne mape v tej komponenti. ˆ Uporabni²ke pravice so koncept v SAP avtorizacijskem upravljalskem sistemu.

40 3.7: Shranjevanje podatkov v SAP BW Spodnji nivo predstavljajo izvorni podatkovni sistemi, ki vsebujejo transakcijske in mati ne podatke. Izvorni sistemi so lahko sistem SAP R/3, sam sistem BW, podatkovne datoteke in drugi sistemi. V primeru, da je izvorni sistem informacijski sistem SAP R/3, je za prenos podatkov iz transakcijske podatkovne baze treba namestiti SAP komponento imenovano SAP Plug-In. Komponenta vsebuje programe, podatkovne tabele in druge objekte, ki omogo ajo zajem podatkov iz SAP R/3 informacijskega sistema. SAP BW omogo a povezavo s sistemi SAP R/3 in podatkovnimi datotekami s pomo jo tehnologije ALE (angl. Application Link Enabling), za vse druge sisteme pa preko tehnologije BAPI (angl. Bussines Application Programming Interface). Poslovna re²itev SAP BW je samostojna komponenta in deluje na osnovi arhitekture odjemalec/streºnik in kljub temu, da je poslovna re²itev tesno povezana s informacijskim sistemom SAP R/3 je ta popolnoma neodvisna in deluje samostojno. 3.7 Shranjevanje podatkov v SAP BW Osnovni gradniki podatkovnega modela v SAP BW poslovni re²itvi so info objekti (angl. InfoObject). SAP denira tak²ne objekte kot [9]: ˆ kazalniki (angl. key gures); vsebujejo dejansko vrednosti, ki bodo analizirane (znesek, koli ina, vrednost....), ˆ karakteristike (angl. characteristics); opisujejo posamezne poslovne dogodke in njihove medsebojne povezave. SAP zagotavlja naslednje tipe karakteristik: poslovne karakteristike (stranka, stro²kovno mesto, ²ifra podjetja, obrat... ), enote (valuta in merska enota), asovne karakteristike (koledarski dan, koledarsko oz. poslovno leto, etrtletje... ), tehni ne karakteristike (na primer koli ina podatkov, ki jih je treba pridobiti za obdelavo). Info objekti lahko vsebujejo mati ne podatke, atribute in hierarhije. V info objektih so podatki, ki so shranjeni v posameznih tabelah. Medsebojno povezani info objekti ob povezavi s tabelami tvorijo strukturo, ki jo imenujemo tudi zvezdna shema (angl. star schema). Sestavljena je iz osrednje tabele oz. tabele dejstev (angl. fact table),

3.7: Shranjevanje podatkov v SAP BW 29 ki povezuje dimenzijske tabele (angl. dimension table). Vsaka dimenzijska tabela je neposredno povezana s tabelo dejstev.

41 3.7: Shranjevanje podatkov v SAP BW 29 ki povezuje dimenzijske tabele (angl. dimension table). Vsaka dimenzijska tabela je neposredno povezana s tabelo dejstev. Tabela dejstev vsebuje kazalnike, avtomati no ustvarjene numeri ne klju e, ter klju e dimenzij. Dimenzijske tabele hranijo karakteristike in dimenzijske klju e. Tako dimenzijske tabele ovijejo tabelo dejstev v obliki zvezde. Dimenzijske tabele ne hranijo dejanskih ²ifer karakteristik ampak hranijo dodaten numeri ni klju (angl. master data ID), ki se avtomati no generira. Povezava, ki jo predstavlja glavna tabela mati nih podatkov (angl. master data table oz. SID tabela) pa povezuje master data ID in dejansko vrednost karakteristike. Slika 3.3 prikazuje zvezdno shemo s dimenzijskimi tabelami in mati nimi podatki, medtem ko slika 3.4 prikazuje podrobnej²o sliko iz podro ja prodaje. Slika 3.3: Zvezdna shema v podatkovne skladi² u Taka organizacija podatkov predstavlja u inkovit podatkovni model, kar omogo a hitro izvajanje poizvedb nad velikim ²tevilom podatkov in jo lahko imenujemo tudi podatkovna kocka. Zvezdna shema je optimizirana predvsem za namene sprotnega analiti nega obdelovanja podatkov [9]. Orodja SAP BW poslovne re²itve omogo ajo prenos podatkov iz posameznih virov preko integriranih povezav, ki omogo ajo neposreden dostop do podatkov in prenos podatkov v SAP podatkovno skladi² e na podlagi deniranih pravil in postopkov. Pravila prenosa podatkov opredeljujejo, kako bodo podatki preneseni v SAP podatkovno skladi² e. Pravila omogo ajo tudi deniranje pogojev, ki dolo ajo osveºevanje podatkov [17, 24]. Podatkovni cilj (angl. data target) so objekti, kamor se prena²ajo vsi podatki iz posameznih podatkovnih virov in so osnova za izvajanje analiz, obdelav in poro il. Podatkovne cilje predstavljajo podatkovne kocke (angl. InfoCube), objekti ODS (angl.

42 3.7: Shranjevanje podatkov v SAP BW 30 ODS objects) in info objekti (angl. Info objects), s pomo jo katerih se izvajajo analize, obdelave in poro ila. Info kocke so sestavljene v obliki zvezdne sheme, kjer so posamezne dimenzije povezane z glavnimi podatki in drugimi podrobnimi zapisi v podatkovnem skladi² u. Info kocke lahko vsebujejo tudi zdruºene/agregirane pred-izra une podatkov, ki omogo ajo hitrej²i odziv in delovanje posameznih poizvedb. Dimenzija stranke Atributi STR_ID Mesto Regija Teksti SID Tabela STR_ID SID_STR STR_ID Ime stranke Dim. podatkovnega paketa SID Tabela ZAHTEVA_ID SID_ZAHTEVE DIM_ID_PAKETA Dimenzijska tabela stranke DIM_ID_STR SID_STRANKA Dimenzijska tabela podatkovnega paketa SID_ZAHTEVE Tabela dejstev DIM_ID_PAKETA DIM_ID_ČAS DIM_ID_ENOTA DIM_ID_MATERIAL DIM_ID_STRANKA Količina prodaje Časovna dimenzija Časovna dimenzijska tabela SID Tabela LETO_ID SID_LETO DIM_ID_ČAS SID_MESEC SID_LETO SID Tabela MESEC_ID SID_MESEC Dimenzija materiala Atributi MATERIAL_ID Dimenzijska tabela materiala DIM_ID_MATERIAL SID_MATERIAL Skupina mat. Skupina materiala Teksti MATERIAL_ID SID Tabela MATERIAL_ID SID_MATERIAL Dimenzija enote Dimenzijska tabela enote DIM_ID_ENOTE SID_ENOTA SID_VALUTA Ime materiala Zunanja hierarhija SID Tabela VALUTA_ID SID_VALUTA SID Tabela ENOTA_ID SID_ENOTA Slika 3.4: Zvezdna shema na podro ju prodaje Za u inkovito shranjevanje podatkov, ki ustrezajo razli nim potrebam posameznih uporabnikov poslovna re²itev SAP BW omogo a tri nivoje skladi² enja podatkov (podatkovno skladi² e, podro no podatkovno skladi² e in ODS objekti). Podro na skladi² a (angl. data marts) shranjujejo speci ne podatke in informacije posameznega poslovnega podro ja (npr. kadrovske evidence). Podro na skladi² a so primerna za izvajanje ve dimenzionalnih analiz. Vsako podro no skladi² e je tesno povezano s podatkovnim skladi² em.

43 3.8: Orodja za izvajanje analiz in poro il v SAP BW Orodja za izvajanje analiz in poro il v SAP BW SAP BW analiti na orodja uporabniku omogo ajo dostop in pregled zdruºenih predizra unanih podatkov, podrobnih podatkov, izpeljanih analiti nih rezultatov. SAP BW poslovni raziskovalec (angl. SAP BEx Analyzer) omogo a kreiranje poizvedb in poro il ter prikaz rezultatov s pomo jo spletnega portala ali pa preko Microsoft Excela. Hitro odzivnost analiz in poizvedb omogo ajo ²tevilni pred-denirani objekti kot so ODS strukture, info kocke, poizvedbe, poro ila, ki so ºe denirani za posamezna poslovna podro ja [50] Komponenta SAP poslovni raziskovalec SAP poslovni raziskovalec (angl. SAP Business Exporer) predstavlja komponento, ki zajema prilagodljiva orodja za izvajanje analiz in poslovno obve² anje. Komponenta zagotavlja vsa potrebna orodja za podporo pri izvajanju strate²kih analiz in sprejemanju poslovnih odlo itev podjetja. Omogo a izvajanje poizvedb, poro il, kot tudi sprotno analiti no obdelavo podatkov. Z uporabo teh orodij lahko uporabniki izvajajo ²tevilne razli ne funkcije, ki jim omogo ajo pridobitev podatkov. SAP BW omogo a uporabo orodij, kot so orodja za kreiranje poizvedb, orodja za kreiranje poro il v obliki spletnih aplikacij, orodja za izvajanje analiz, itd. Orodje za kreiranje poizvedb se lahko uporablja kot samostojna komponenta, ki omogo a kreiranje razli nih vrst poizvedb in ponuja ²tevilne moºnosti izbora, prikaza podatkov ter omogo a neposredno izvajanje poizvedbe, ko je le-ta shranjena. Orodja za kreiranje spletnih poro il omogo ajo kreiranje poizvedb, ki so prikazana s pomo jo internetnega prikazovalnika. Kreirana poro ila so shranjena kot spletna poro ila v obliki HTML znotraj sistema SAP BW [9]. Analize in poro ila v SAP podatkovnem skladi² u temeljijo na komponenti SAP BW poslovni raziskovalec, ki je namenjena izvajanju podatkovnih analiz, obdelav in poro il. Kreiranje poizvedb se izvaja preko orodja za kreiranje poizvedb imenovanega SAP Query Designer. S kreiranjem poizvedb lahko za nemo, ko smo pridobili ustrezne podatke iz posameznih podatkovnih virov in so le-ti shranjeni v podatkovnem skladi- ² u. S pomo jo orodja za kreiranje poizvedb se kreirajo poizvedbe, preko katerih se analizirajo podatki. Orodje omogo a kreiranje posameznih poizvedb, kjer iz drevesne strukture info ponudnikov izberemo ustrezne karakteristike in glavne parametre, ki jih ºelimo imeti v dolo eni poizvedbi. Pri kreiranju poizvedbe lahko u inkovito deniramo podatke, ki jih ºelimo v analizi, omogo eno je tudi deniranje ra unskih operacij za posamezna polja, ki jih opredelimo ob kreiranju poizvedbe. S pomo jo posameznih funkcij lahko za vsako polje deniramo ustrezno formulo, pravilo, itd. Ko se posa-

44 3.9: Uporaba poslovne re²itve SAP BW 32 mezna poizvedba denira jo je potrebno shraniti, umesti pa se jo lahko v posamezno vlogo, tako da uporabnik lahko enostavno do nje dostopa [9, 10, 31]. Ko je poizvedba izpisana ima uporabnik na voljo ²tevilne moºnosti urejanja in obdelovanja pridobljenih podatkov s pomo jo sprotne analiti ne obdelave 2. Poizvedbe se lahko shranijo neposredno v uporabni²ko deniranih vlogah, ki so uporabniku dodeljen. ƒe ima uporabnik v svoji vlogi dodeljeno poizvedbo, jo lahko izvede, ter pridobi podatke, ki so denirani z dolo eno poizvedbo. 3.9 Uporaba poslovne re²itve SAP BW Za uspe²no in u inkovito uvajanje podatkovnega skladi² a je potrebno na podlagi izvedene analize opredeliti poslovne potrebe in cilje, ki jih ºelimo dose i. Z dobro opredeljenimi poslovnimi zahtevami in cilji projekt izgradnje podatkovnega skladi² a lahko poteka uspe²no in u inkovito ter nam omogo i dosego na rtovanega rezultata. Izgradnja SAP podatkovnega skladi² a poteka v ve korakih, kjer opredelimo posamezne komponente, ki sestavljajo SAP BW. Pri vsakem uvajanju novosti so v veliki ve ini potrebne tudi aktivnosti, s katerimi ustrezno prilagodimo poslovno re²itev speci nim potrebam posameznega podjetja. V grobem lahko proces implementacije SAP podatkovnega skladi² a opredelimo z deniranjem podatkovnih virov, ki predstavljajo izvor podatkov. V naslednjem koraku se opredelijo aktivnosti povezane s procesom ETL in za to potrebnih komponent. Na strani podatkovnega skladi² a se opredelijo pravila prena²anja in aºuriranja podatkov, info viri, kamor se prena²ajo zajeti podatki iz zunanjih podatkovnih virov. Podatki se shranjujejo v deniranih podatkovnih modelih, kot so podatkovne kocke, info objekti, objekti ODS. S pomo jo orodij za izvajanje analiz in obdelav se na podlagi zgrajenih modelov izvajajo najrazli nej²e obdelave, analize, poro ila, itd [9] Podatkovno modeliranje Deniranje osnovnih gradnikov imenovanih info objekti, predstavlja osnovo na podlagi katere se nato opredelijo podatkovni modeli. Posamezni info objekti se kreirajo za dolo eno poslovno podro je. Info objekti se zdruºujejo v katalog, kjer so zdruºeni posamezni info objekti, ki spadajo k dolo enemu poslovnemu podro ju. Ko so osnove info objektov kreirane, lahko pri nemo z gradnjo podatkovnega modela, kamor se shranjujejo transakcijski podatki, ki so namenjeni obdelavi. Ti se v SAP podatkovnem skladi² u imenujejo tudi info ponudniki in so lahko kocke, objekti ODS ali info objekti. 2 Ve v poglavju 3.3

45 3.9: Uporaba poslovne re²itve SAP BW 33 Najpogosteje se za potrebe analiz uporabljajo kocke, ki so sestavljene iz posameznih info objektov in jo lahko opredelimo tudi kot zbirko relacijskih tabel razporejenih v obliki zvezdne sheme (Slika 3.3). Tabela dejstev Tabela dejstev (Slika 3.3), ki je postavljena v sredi² u je povezana s ²tevilnimi dimenzijskimi tabelami. Dimenzijske tabele, ki so povezane s tabelo dejstev so manj²e kot tabela dejstev in zavzamejo od 1% do 5% velikosti tabele dejstev. Obvezni dimenziji sta as in enota. Za dimenzijske tabele ni potrebna normalizacija, zato lahko vsebujejo tudi neuporabne, odve ne podatke [17]. Za izgradnjo zvezdne sheme je posamezne dimenzije treba kreirati in jim dolo iti ustrezne karakteristike. Posamezne kocke so dodeljene to no dolo enemu podatkovnemu podro ju, ki se navezuje na dolo eno poslovno podro je. Kocke pridobivajo potrebne podatke preko enega oz. ve ih info virov, ki se jih opredeli ob izgradnji [9, 10, 31].

46 Poglavje 4 Kakovost podatkov Skrb za kakovost podatkov je klju nega pomena za ohranjanje in za izbolj²anje le tega. To zveni kot zelo o iten predlog, da se vpra²amo, ali se lahko prepustimo toku in prepoznamo slabe podatke, ko jih vidimo? Veliko analiz in veliko izku²enj nam pove jasen odgovor ne. Odkrivanje, ali so podatki sprejemljive kakovosti je meritvena naloga in je zelo zahtevna. Ta ugotovitev postaja vse pomembnej²a v tej informacijski dobi, ko je kvaliteta podatkov vse bolj pomembna. V nasprotnem primeru podatki lahko postanejo dezinformacije. Stro²ek ra unalnikov in podatkovnih shramb se je v zadnjih 50 ali 60 letih zmanj²al, zato se je ²tevilo podatkovnih baz zelo pove alo. S ²iroko dostopnostjo kompleksnih statisti nih programskih orodij in veliko dobro usposobljenih podatkovnih analitikov, se pojavi ºelja za analizo takih zbirk podatkov. Ko analitiki pri nejo s svojim delom ugotovijo, da so njihovi podatki preve razdrobljeni in analiza brez i² enja podatkov ni mogo a [25]. Primeri teºav nekakovostnih podatkov [12]: ˆ podvojeni zapisi, ve virov podatkov, ˆ manjkajo e podatkovne relacije, ˆ nesmiselni podatki, ˆ rkovalne napake, ˆ zastareli podatki, ˆ nekonsistentna struktura in poimenovanje podatkov, ˆ podatki shranjeni na napa nih mestih (podatkovnih poljih), ˆ neto en vnos podatkov zaradi pomanjkljive kontrole, 34

47 4.1: Lastnosti kakovosti podatkov 35 ˆ nezaºelene spremembe podatkov (brisanje, spreminjanje). 4.1 Lastnosti kakovosti podatkov Trenutno so lastnosti kakovosti podatkov precej splo²ne in se ne morejo uporabljati brez nadaljnje predhodne analize domene podatkov. Te lastnosti so [26, 25]: Pomembnost Obstaja ve vidikov, ki podatke ozna ijo za pomembne ˆ Ali podatki izpolnjujejo osnovne potrebe, za katere so bili zbrani? ˆ Ali se podatki uporabijo za druge namene (na primer, trºne analize)? ƒe podatkov trenutno ni mogo e uporabljati v te namene, koliko asa in stro²kov je potrebno, da to omogo imo? ˆ Ali je mogo e uporabiti zbirko podatkov za ve razli nih namenov? Da bi tak²no podatkovno bazo lahko uporabljali na razli ne na ine je potrebno, da vse enote, ki bi lahko imele koristi od uporabe podatkov skrbijo, da se podatki ustrezno polnijo. Natan nost Nepravilne telefonske ²tevilke, napa ni naslovi, ali napa no rkovana imena lahko ote- ºijo ali celo onemogo ijo podjetju kontakt s svojimi strankami. Vseh napak seveda v na²i podatkovni bazi ne moremo odstraniti. Se pa pojavi vpra²anje, kaj pa so glavni parametrih v na²i bazi podatkov in kako morajo biti natan ni na²i podatki? ƒe izberemo domeno trgovine morajo biti na²i podatki to ni tako, da lahko odgovorimo na naslednja vpra²anja: ˆ Kateri kupci bodo kupili dolo ene izdelke v trgovini? ˆ Kateri kupci so ali bodo kupili dolo en izdelek (naslednji mesec, v prej²njem letu, v tem letu... )? ˆ Ali moramo katere izdelke naro iti v ve jih koli inah, e gledamo prodajo v zadnjem mesecu? ˆ Kateri izdelki so najbolj donosni?

48 4.2: Na ini za dosego visoko kvalitetnih podatkov 36 Veljavnost Kolik²en je as veljavnost posamezne informacije, da napovemo kateri kupci bodo kupili izdelek. Kako dolgo lahko uporabimo informacijo o prej²njih volitvah, da napovemo rezutat novih? Primerljivost Ali je primerno povezati ve razli nih baz podatkov v podatkovno skladi² e za laºjo uporabo v raziskovalne analize, modeliranje in statisti ne ocene? Ali so podatkovna polja (na primer, dav na ²tevilka), prisotna v vseh podatkovnih bazah in nam tako omogo ajo enostavno povezavo posameznikov? Kako to na so identikacijska polja? ƒe ima vsaka od dveh razli nih podatkovnih baz podatek o prihodku, katero vrednost je bolje uporabiti. Ali obstaja na in, da bi vklju ili obe? Popolnost S popolnostjo mislimo, da ni manjkajo ih zapisov in da v zapisih ni manjkajo ih elementov. V literaturi celoten manjkajo zapis ali vsaj manjkajo element lahko nakazuje pomanjkanje kakovosti. V mnogih podatkovnih bazah, kot so nan ne baze podatkov, lahko imajo pomanjkljivi zapise katastrofalne posledice. Resne posledice so lahko v velikih podjetjih ali oddelkih z velikim deleºem zaposlenih v enem podjetju. Ko se tak²ne teºave pojavijo, je potrebno preveriti proces, ki ustvarja tak²ne podatke, da dolo imo: ˆ ali zaposleni potrebujejo dodatno usposabljanje za uporabo programske opreme, ˆ ali programska oprema ni uporabniku dovolj prijazna, ˆ ali so postopki za posodabljanje baze podatkov nezadostni ali zmotni. Podjetje ºeli popolno podatkovno bazo, vendar stranke niso pripravljene zmeraj deliti vseh zahtevanih podatkov. Na primer, stranka ne ºeli deliti svoje telefonske ²tevilke. 4.2 Na ini za dosego visoko kvalitetnih podatkov V praksi je skoraj nemogo e zagotoviti, da bi vsi podatki vedno 100% ustrezali gornjim kriterijem. V dolo enih primerih niti ni potrebno, da bi bili podatki popolni. Skupno za vsako podjetje pa je najpomembnej²e, da podatki zadostijo zahtevam uporabnikom [47].

49 4.2: Na ini za dosego visoko kvalitetnih podatkov 37 Obstajajo trije na ini za dosego visoko kvalitetnih podatkov. Prvi na in je prepre iti vnos slabih oz. napa nih podatkov. Pri tem pomaga sistem, ki uredi/preveri podatke preden se jim dovoli zapis v bazo podatkov. Izvor tak²nih slabih podatkov nastane na naslednji na in: ˆ vnos podatkov s strani zaposlenega, stanke ali poslovnega partnerja, ˆ spremembe na drugih izvornih sistemih, ˆ slabo realizirane poslovne zahteve, ˆ neskladne denicije in poslovna pravila, ˆ projektne selitve in pretvorbe podatkov, ˆ nezanesljivi zunanji viri, ˆ spremembe poslovnih pravil, ˆ sistemske napake. Drugi na in je proaktivno odkrivanje slabih podatkov, ki so ºe vneseni v podatkovno bazo. S tem problemom se ukvarja analitik, ki i² e slabe podatke in jih nato popravlja. ƒe imamo veliko podatkov se lahko posluºujemo razli nih metod odkrivanja napak. Ena tak²nih tehnik je povezovanje podatkov (angl. record linkage). Ta tehnika se lahko uporablja tudi za izbolj²anje kakovosti podatkovne baze s povezovanjem dveh ali ve podatkovnih baz. To lahko predstavimo na primeru kjer imamo dve bazi podatkov o zaposlenih v podjetju. Ena od podatkovnih zbirk ima zelo kvalitetne osebne podatke zaposlenih, vendar le razdrobljene podatke o pla ilni zgodovini. Medtem, ko ima druga zbirka podatkov v bistvu popolne in natan ne podatke o pla i a ne tako popolnih osebnih podatkov. Obe zbirki podatkov bi lahko povezali in pla ilna zgodovina iz druge zbirke podatkov lahko dopolni prvo zbirko podatkov, s imer se izbolj²a kakovost podatkov prve zbirke. Tretji na in je popravilo in se smatra za najslab²i pristop. Ali trgovina resni no ºeli, da njihovi kupci opravljajo delo popravila podatkov ter tako obve² ajo delavce, da je skenirana cena juhe vi²ja kot v reklami? Slaba kakovost podatkov lahko vrne nerealne ali ob utno udne odgovore na statisti ne analize in ocenjevanja. Pojavi se vpra²anje koliko deleºa sredstev naj porabimo za prej omenjene na ine? Tabeli 4.1 in 4.2 prikazujta trenutno razdelitev in ºeljeno razdelitev v prihodnosti [25].

50 4.3: Metrike 38 Prepre evanje 10% Odkrivanje 30% Popravilo 60% Prepre evanje 45% Odkrivanje 30% Popravilo 25% Tabela 4.1: Trenutna poraba sredstev 4.3 Metrike Tabela 4.2: sredstev Priporo ena poraba Metrike za merjenje kakovosti podatkov (ali pomanjkanje le-te), so pomembno orodje in nam dajejo meritve s kak²nimi podatki se ukvarjamo. V idealnem primeru bi radi dobili to no ²tevilo podvojenih zapisov kot tudi ²tevilo napa nih zapisov v podatkovni bazi. Radi bi, da bi bila podatkovna baza popolna in le malo, e sploh, podvojenih zapisov ter nobenih napak v podatkovni elementih. Metrike se lahko uporablja z razli nimi vrstami podatkovnih baz. Pomembno je vedeti, da je metrika, ki je primerna za eno bazo podatkov, lahko neprimerna za podobne baze podatkov z razli no strukturo [25]. Imamo dve mnoºici zapisov (ali dve podatkovni bazi) ozna eni z A in B. ƒe je zapis a A in zapis b B, potem lahko trdimo da je par zapisov (a, b) enak, e oba zapisa predstavljata enako entiteto. Naj mnoºica M predstavlja enake zapise in mnoºica U predstavlja neenake zapise M = {(a, b); a = b; a A; b B} U = {(a, b); a b; a A, b B} Torej mnoºici M in U predstavljata delitev kartezijskega produkta A B in zato lahko zapi²emo A B = M U. Mi bi ºeleli primerjati dva tak²na seznama za ugotavljanje morebitnih ujemanj parov zapisov. V mnoºici M so pari dolo eni za ujemanje. M = {(a, b) : a A; b B} in v mnoºici Ũ so pari, ki niso dolo eni za ujemanje Ũ = {(a, b) : a A; b B} Torej mnoºici M in Ũ predstavljata delitev kartezijskega produkta A B in zato lahko zapi²emo A B = M U = M Ũ. V praksi pa verjetno ne bomo mogli najti vseh zapisov v M in tako bomo po navadi imeli M M in Ũ U.

51 4.4: Osnovna orodja za kakovost podatkov 39 Napa no ujemanje je dejansko razmerje od neujemanj, ki so bili dolo eni za ujemanje. P [(a, b) M (a, b) U] Napa no neujemanje, je dejansko razmerje od ujemanj, ki so bili dolo eni za neujemanje. P [(a, b) Ũ (a, b) M] Natan nost je deleº od parov dolo enih za ujemanje, ki se dejansko ujemajo: P [(a, b) M (a, b) M] Odstranitev je deleº parov, ki se ujemajo in so bili ozna eni za ujemanje: P [(a, b) M (a, b) M] Za verjetnostno funkcijo P [ ], ki jo uporabljamo tukaj, velja domneva, da se vsi dogodki pojavijo z enako verjetnostjo. 4.4 Osnovna orodja za kakovost podatkov V tem poglavju bomo opisali nekatere osnovne tehnike urejanja podatkov. Mnogi sistemi podatkov uporabljajo tehnike urejanja podatkov in za preproste podatkovne baze je dovolj ºe nekaj osnovnih preverjanj ter testov. Za ve je podatkovne baze, pa se ²tevilo teh testov obi ajno pove a. Velike kompleksne podatkovne baze, ki vsebuje veliko razli nih vrst podatkovnih elementov pa potrebujejo nekaj sto testov. Pri obravnavi velikih baz podatkov pa ²tevilo preizkusov raste zelo hitro. Preizkus obmo ja Najenostavnej²i test je tisti, kjer preverjamo vrednosti le enega podatkovnega elementa. Na primer, test preverja vrednosti za mesec in e je vrednost zapisana v obliki {01, 02, 03, 04, 05, 06, 07, 08, 09, 10, 11, 12} bo test pozitiven, sicer pa negativen. Tak test, ki preveri ali je vrednost v obmo ju dovoljenih vrednosti, se imenuje test obmo ja. ƒe je, na primer, v podatkovni bazi spol zaposlenega ozna en z 0 = manjka, 1 = mo²ki, 2 = ºenski potem so vrednosti zunaj dolo enih {0, 1, 2} napa ne.

52 4.4: Osnovna orodja za kakovost podatkov 40 Preizkus If-Then ƒe ima podatkovni element X vrednost x, potem so lahko vrednosti v podatkovnem elementu Y samo vrednosti iz mnoºice {y 1, y 2,..., y n }. Na primer, e vrednost v podatkovnem elementu vrsta gradnje hi²e nova, potem starost hi²e ne more vsebovati vrednosti ve ja od 1 leto. ƒe je vrednost starosti hi²e ve ja od 1 leto, potem moramo zavrniti vrednosti. Kontrolni preizkus Tak²en test ugotovi ali vrednost v podatkovnem elementu izpolnjuje aritmeti ne omejitve in tak²en je tudi kontrolni preizkus. Na primer, predstavljajmo si nabavo vijakov za veliko podjetje. V tem primeru imamo dva podatkovna elementa, v prvem je zapisana koli ina vijakov v po²iljki in v drugem vrednost po²iljke. Glede na na²e poznavanje problema, lahko enostavno dolo imo vrednost posameznega vijaka vrednost po²iljke koli ina po²iljke in tako dolo imo spodnjo (L) in zgornjo mejo (U). L < vrednost po²iljke koli ina po²iljke < U ƒe je vrednost posameznega podatkovne elementa v dovoljenih mejah je preizkus uspe- ²en. Ni elni preizkus Ni elni preizkus uporabljamo z ve podatkovnimi elementi za namene nadzora. Ta metoda ima svoje korenine v ra unovodskih preizkusih, kjer se sestavni elementi in njihove vsote beleºijo lo eno v podatkovni bazi. Na primer, voja²ka ladja poro a, da je njena posadka sestavljena iz dvajsetih vojakov in treh astnikov. ƒe kasnej²e poro ilo vra a skupno 25 lanov, posadke potem je preizkus neuspe²en. V tem primeru morajo dolo eni elementi dati enako vsoto. Drugi razni preizkusi Nekatere podatkovne elemente je potrebno imeti skladne, kot je ime, spol, leto rojstva, as zaposlitve... Na primer, v podatkovni bazi zaposlenih je zapis, v katerem je ime zaposlenega navedeno kot Maja Novak (ime zaposlenega je Maja) in spol, je enako

53 4.5: Preizkusi kakovosti podatkov 41 1 za mo²ki. Poleg tega, e imamo zabeleºeno, da je delovna doba zaposlenega ve ja ali malo manj²a od dejanske starosti je to napaka v podatkih. Napake ve jega tipa se pojavijo, kadar ima ena oseba ve variant zapisov v podatkovni bazi, kot je na primer Joºica in Joºefa. To, na primer, lahko prinese ve je stro²ke pri obve² anju uporabnika po po²ti. 4.5 Preizkusi kakovosti podatkov Sledijo preizkusi kakovosti podatkov, katere smo uporabili v procesu integracije podatkov (poglavje 8) Preizkus pravilnosti dav ne ²tevilke V primeru, da ima poslovni partner zapisano dav no ²tevilko je potrebno narediti preizkus pravilnosti po [8]. Dav na ²tevilka je sestavljena iz osmih ²tevilk; sedem je naklju no izbranih, osma pa je izra unana po modulu 11. Prvih sedem mest je osnovna ²tevilka, ki je naklju no izbrana iz nabora ²tevilk od do , na osmem mestu je kontrolna ²tevilka, izra unana po modulu 11. Postopek izra una kontrolne ²tevilke je slede. Posamezno ²tevilko osnovne ²tevilke pomnoºimo s konstantnimi ponderji 8, 7, 6, 5, 4, 3 in 2. Zmnoºke se²tejemo in se²tevek delimo z 11. Ostanek deljenja od²tejemo od 11 in razlika je kontrolna ²tevilka. ƒe je ostanek deljenja 1 in je razlika zato 10, je kontrolna ²tevilka 0. ƒe je ostanek deljenja 0 in je razlika zato 11, se ta osnovna ²tevilka izklju i iz nabora moºnih dav nih ²tevilk. Primer: ˆ osnovna ²tevilka: ˆ konstantni ponderji: 8, 7, 6, 5, 4, 3, 2 ˆ se²tevek zmnoºkov: = 81 ˆ se²tevek delimo z 11 in dobimo 7 ˆ ostanek je 4 ˆ kontrolna ²tevilka je razlika do 11. Po izra unu je to 7 ˆ dav na ²tevilka: Napa na dav na ²tevilka, katere smo opazili v podatkih:

54 4.6: Povezava s zunanjimi viri podatkov 42 ˆ 0 ˆ ˆ ; ta ²tevilka ustreza gornjim kriterijem je pa vsebinsko napa na Preizkus pravilnosti ulic, po²tnih ²tevilk in mest Kot smo opisali v poglavju 7.1 in 7.2, lahko prihaja do napak v imenih ulic, mest in po²tnih ²tevilk, ki so zapisane v na²ih podatkih. Preizkus naredimo, da primerjamo vrednosti iz zapisov s tabelo ²ifrantov po²tnih ²tevilk in mest 1 in slovarjem ulic. V primeru, da se razlikujeta, uporabimo vrednosti iz slovarja za primerjavo celotnih zapisov in ugotavljanja podobnosti. 4.6 Povezava s zunanjimi viri podatkov Pri dolo anju pravilnosti podatkov se lahko zanesemo na preverjen in zaupanja vreden zunanji vir podatkov. V na²em primeru lahko pridobimo podatke o podjetjih iz poslovnega registra Slovenije. Poslovni register Slovenije (PRS) je osrednja javna baza podatkov o vseh poslovnih subjektih s sedeºem na obmo ju Republike Slovenije, ki opravljajo pridobitno ali nepridobitno dejavnost ter o njihovih podruºnicah in drugih delih poslovnih subjektov. PRS vsebuje tudi podatke o podruºnicah tujih poslovnih subjektov, ki opravljajo dejavnost na obmo ju Republike Slovenije. PRS vzdrºuje Agencija Republike Slovenije za javnopravne evidence in storitve (AJPES) Spletna storitev je namenjena neposrednemu povezovanju programskih re²itev uporabnikov s Poslovnim registrom Slovenije (PRS). Storitev zagotavlja takoj²nje in aºurne informacije o enotah iz PRS. Enote PRS so poslovni subjekti, deli teh poslovnih subjektov in podruºnice tujih podjetij. Iskanje in pridobivanje uradnih podatkov o poslovnih subjektih iz PRS je omogo eno, v minimalnem, oºjem in ²ir²em naboru podatkov. Programske re²itve uporabnikov lahko i² ejo poslovne subjekte po razli nih podatkih. Iskanje podatkov o poslovnih subjektih poteka preko identikatorjev kot so mati na ²tevilk, dav na ²tevilka, naziv, naslov... [48]. S uporabo te spletne storitve lahko osveºimo podatke o enotah PRS v na²em informacijskem sistemu. Spletni servis uporabljamo pri preverjanju pravilnosti vnesenih podatkov o poslovnih partnerjih in posodabljanju manjkajo ih ali napa nih podatkov. Med delovanje agenta, se izvede preverjanje pravilnosti podatkov in na primer, da je napa no zapisan po²tni naslov se ta ustrezno spremeni ob prejemu podatkov iz PRS-ja. 1 Iskano na spletnem naslovu Po²te Slovenije d. o. o. [7]

55 4.7: Sistem pravil 43 Dolo anje podobnosti med subjektoma (eden iz na²ih podatkovnih baz in drugi iz PRS), poteka preko dav ne ²tevilke. Vrnjeni podatki se primerjajo s vnesenimi podatki in e primerjalna funkcija vrne majhno razdaljo (niza sta podobna), se ti podatki ustrezno posodobijo s podatki iz PRS-ja. V primeru, ko primerjamo dva poslovna subjekta in dav ne ²tevilke niso enake, a sta naziva in naslova podjetja podobna, potem tak²no odlo itev prepustimo uporabniku. 4.7 Sistem pravil Sistem pravil (angl. rule-based system) so enostavna pravila sestavljena iz nekaj IF- THEN izjav, vendar so podlaga za tako imenovane ekspertne sisteme, ki se ²iroko uporabljajo na mnogih podro jih oz. problemih. V umetni inteligenci je to sistem, ki simulira odlo itve uporabnika oz. strokovnjaka. Ko so dani isti podatki, bo ekspertni sistem deloval na podoben na in kot uporabnik oz. strokovnjak [16]. V na²em primeru smo zgradili pravila za ugotavljanje dav ne ²tevilke za pravne osebe. IF pogoj THEN akcija Sistemi pravil so relativno preprost model, ki se lahko prilagodi na razli na podro ja, kjer lahko vse znanje napi²emo v obliki IF-THEN pravilih in kjer teh pravil ni veliko. ƒe je pravil preve, je vzdrºevanje teºje in pove a se as izvajanja. Za ustvarjanje sistema pravil za dolo en problem, je potrebno [16]: ˆ Dolo iti dejstva, ki predstavljajo za etno stanje. ˆ Dolo iti sklop pravil, ki predstavljajo vse ukrepe, ki jih potrebno sprejeti v okviru problema. Velika koli ina pravil v sistemu lahko vpliva na njegovo delovanje. Tako je potrebno odstraniti vsa pravila, ki niso potrebna. ˆ Dolo iti pogoje, ki dolo ijo ali je bila re²itev najdena in e sploh obstaja. Sistem pravil za ne delovanje s pravili, ki vsebujejo vso potrebno znanje zapisano v IF-THEN pravilih ter delovno okolje, ki vsebuje vse potrebne podatke. Sistem preu i vsa pravila (IF) in dolo i podmnoºico pravil, katere pogoji so izpolnjeni. Iz te podmno- ºice pravil se eno od teh sproºi. Ko se pravilo sproºi, se vsa dejanja dolo ena v THEN izvedejo (izvede se akcija). Ta zanka proºenja pravil in izvajanje akcij se nadaljuje, dokler je izpolnjen eden od dveh pogojev: ˆ ni ve pravil, katere pogoji so izpolnjeni, ˆ sproºeno dejanje (THEN) zahteva prekinitev izvajanja.

56 4.7: Sistem pravil 44 Strategijo re²evanja sporov dolo i razvijalec sistema glede na dolo en problem. Tak²na strategija ima pravila razvr² ena v dolo enem vrstnem redu, katera se po vrsti izvajajo. Pri izdelavi sistema smo upo²tevali metodo izvajanja naprej (angl. forward chaining), kjer sistem sledi pravilom po vrsti in ²e naprej uporablja pravila glede na rezultate prej²njih. Primer Predstavljamo si sistem za dodeljevanja nagrad zaposlenim. Sistem sprejme odlo itev o nagradi glede na kvaliteto dela (kvaliteta) in hitrost dela (hitrost). Sistem sprejme vhodne parametre kvaliteta in hitrost in vrne rezultat nagrada. Vrednosti parametra kvaliteta so lahko le iz mnoºice {slaba, normalna, dobra, odli na}. Vrednosti parametra hitrost so lahko iz mnoºice {po asna, hitra}. Vrednosti izhodnega parametra nagrada so iz mnoºice {minimalna, majhna, normalna, velika}. Tako lahko tvorimo pravila dolo anja nagrade: R1: IF (kvaliteta je slaba) AND (hitrost je po asna) THEN (nagrada je minimalna) R2: IF (kvaliteta je normalna) AND (hitrost je po asna) THEN (nagrada je majhna) R3: IF (kvaliteta je dobra) AND (hitrost je hitra) THEN (nagrada je normalna) R4: IF (kvaliteta je odli na) AND (hitrost je hitra) THEN (nagrada je velika)

57 4.7: Sistem pravil Primer pravil za ugotavljanje dav ne ²tevilke za pravne osebe Delovno okolje: A1: je pravna oseba A2: ima dav no ²tevilko A3: naziv podjetja je TELEKOM SLOVENIJE, d.d. A4: naslov podjetja je CIGALETOVA ULICA 15 A5: mesto je LJUBLJANA A6: po²tna ²tevilka je 1000 Pravila: R1: IF (je zi na oseba) THEN exit R2: IF (neveljavna dav na ²tevilka) THEN exit R3: IF (je pravna oseba) AND (veljavna dav na) THEN (pridobi podatke iz poslovnega registra Slovenije (PRS)) R4: IF (naziv je razli en nazivu v PRS) THEN (spremeni naziv) R5: IF (naslov je razli en naslovu v PRS) THEN (spremeni naslov) R6: IF (mesto je razli no mestu v PRS) THEN (spremeni mesto) R7: IF (po²tna ²tevilka je razli na po²tni ²tevilki v PRS) THEN (spremeni po²tno ²tevilko) R8: IF (nobeno pravilo se ni sproºilo) THEN (podatki so pravilni, exit) Izvajanje: R3 se izvede in napolni delovno okolje s podatki o pravni osebi. R4 se izvede in spremeni naziv pravne osebe s nazivom iz PRS-ja. R5 se izvede in spremeni naslov pravne osebe s naslovom iz PRS-ja. R6 se izvede in spremeni mesto pravne osebe s mestom iz PRS-ja. R7 se izvede in spremeni po²tno ²tevilko pravne osebe s po²tno ²tevilko iz PRS-ja. R7 se izvede in ozna i pravilnost podatkov.

58 4.7: Sistem pravil 46 Pri pravilu R2 smo se osredoto ili na formulo opisano v poglavju Na poljih poslovnega partnerja, ki ni dav na, lahko vpeljemo preizkus kakovosti podatkov s pomo jo regularnih izrazov 2. S pomo jo teh izrazov lahko preverjamo ali polja vsebujejo kak²ne nedovoljene znake in e izpolnjujejo osnovna vsebinska pravila. Na primer, nobena ulica v Sloveniji nima samo ene rke. 2 Regularni izraz je niz znakov, ki opisuje druge nize znakov v skladu s dore enimi sintakti nimi pravili.

59 Poglavje 5 Povezovanje podatkov Povezovanje podatkov (angl. record linkage) je zdruºevanje zapisov iz dveh podatkovnih baz, ki so v nekak²ni zvezi; na primer, isti posameznik, ista druºina ali isto podjetje. To lahko tudi pomeni povezovanje zapisov v eni podatkovni bazi ali navadni datoteki za prepoznavanje podvojenih zapisov. Cilj je zdruºiti zapise za isto entiteto. Tak²na povezava se imenuje ujemanje. Ta naloga je najlaºja nad enoli nimi podatki, na primer podatki, ki imajo enako dav no ²tevilko. Postaja pa zahtevnej²a, ko ni enoli nih podatkov, ali so zapisani v nestandardnem formatu, ali pa so koli ine podatkov prevelike. ƒe edinstvene identikacijske ²tevilke ni na voljo, potem se obi ajno uporablja ime ali naslov [25]. Slika 5.1: Gra ni prikaz podatkov iz dveh podatkovnih baz 5.1 Priprava podatkov Pred procesom povezovanja podatkov je potrebno izvorne podatke (datoteke, baze podatkov,... ) pretvoriti v znano homogeno obliko tako, da lahko izvedemo primerjavo na ustreznih poljih. To imenujemo proces normalizacije in je znan tudi kot i² enje podatkov, ki se uporablja pred povezovanjem zapisov, da bi pove ali verjetnost odkritja njegovega para. Brez procesa standardizacije bi veliko pravilnih ujemanj bilo ozna enih kot 47

60 5.1: Priprava podatkov 48 neujemanj zaradi razli nih na inov zapisa. Zamenjamo tudi razli ice rkovanja za pogosto ponavljajo e se besede. Na primer Doktor in Dr zamenjamo s Dr; zamenjamo ulica in ul. z ulica; zamenjamo doo in d.o.o. s d.o.o.... Standardiziramo razli ne atribute z enak sistem enot ali na isti sistem kodiranja. Na primer uporabimo 0/1 namesto M/š (Mo²ki/šenska); datum 1. januar 2011 pretvorimo v Klju ni atributi za isto osebo so lahko zapisani na razli ne na ine, kot to prikazuje tabela 5.1. V tej tabeli lahko opazimo, da je ulica Ulica Veljka Vlahovi a zapisana tudi na na in Ulica V. Vlahovi a a vseeno predstavlja isto ulico. V nadaljevanju bomo tak²no poenotenje atributov poimenovali normalizacija. Tabela 5.1: Kateri pari predstavljajo isto osebo? Ime Ulica Hi²na ²tevilka Anica Terglec Prvomajska ulica 5 Ana Terglec Prvomajska ulica 5 Albin Borko Pod vinogradi 35 Albin Barko Pod vinogradi 46 Joºe Haloºan Ulica Heroja Bra i a 67 B Joºef Haloºan Ulica Heroja Bra i a 67 Miro Potisk Ulica Veljka Vlahovi a 16 Miroslav Potisk Ulica V. Vlahovi a 16 A Silva justina Flegar Lesi jekova ulica 27 Justina Flegar Lesi jekova ulica 106 Obstajajo tri metode povezovanja podatkov: Deterministi na metoda Najenostavnej²a oblika povezave zapisov se imenuje deterministi na metoda. Ta metoda ustvari povezave med zapisi glede na ²tevilo ujemajo ih atributov. Zapisa sta enaka, e se s pomo jo deterministi ne metode ujemajo vsi ali pa vsaj nekateri atributi. Verjetnostna metoda Verjetnostna metoda ima druga en pristop k problemu povezovanju podatkov z upo²tevanjem ve je ²tevilo potencialnih atributov in njihovih izra unanih uteºi. Pari s uteºjo ve jo od dolo enega praga se upor²tevajo kot ujemajo i pari. Medtem, ko pare s uteºjo niºjo od praga ozna imo kot neujemajo e. Pari zapisov, ki so med zgornjo in spodnjo mejo praga, pa ozna imo kot moºna ujemanja in katerim je potrebno posvetiti ve jo pozornost s strani uporabnika. Podrobnej²i opis je zapisan v poglavju 6, 6.8 in 8.4.

61 5.2: Raz lenitev besedila 49 Ro na metoda Pri ro ni metodi, uporabniki sami dolo ijo ujemajo e pare zapisov. Tak²en proces je mogo le na majhnem ²tevilo zapisov. 5.2 Raz lenitev besedila Zelo teºko je primerjati imena in naslove, razen morda ro no. Ustrezna raz lenitev komponent v imenu in naslovu je kriti ni del povezovanja podatkov. Ljudje lahko zlahka primerjajo ve vrst po²tnih naslovov, ker lahko med seboj ustrezno povezujejo komponente v naslovih, a pri ra unalnikih je potreben dober algoritem oz. ve iteracij primerjav podatkov. Tabela 5.2 prikazuje raz lenitev prosto napisanega po²tnega naslova v komponente, kot so ulica, hi²na ²tevilka, po²tna ²tevilka in mesto. Tabela 5.2: Raz lenitev po²tnega naslova Raz lenjen naslov Ulica Hi²na Po²tna Mesto Zapisan naslov ²tevilka ²tevilka Cesta XIV. Divizije 37, 2000 Maribor Cesta XIV. Divizije Maribor 2000 Maribor, Cesta 14. Divizije 37 Cesta 14. Divizije Maribor 5.3 Blokiranje Denimo, da imamo dve podatkovni bazi A in B povpre ne velikosti in je ²tevilo zapisov v kartezijskem produktu A B preveliko, da bi preu ili vse moºne pare. To pa zaradi tega, ker se ujema le majhen deleº parov v A B in obstaja le 2 n moºnih primerjav, ki vsebujejo n podatkovnih elementov. Relacija POSLOVNI PARTNER ŠIFRA IME PRIIMEK P1 Jan Kranjc P2 Mojca Novak P3 Mateja Kralj P4 Andrej Knez Relacija NASLOV ŠIFRA ULICA MESTO U1 Mestna 1 Kranj U2 Cankarjeva 10 Maribor U3 Koroška 8 Celje Kartezijski produkt relacij POSLOVNI PARTNER x NASLOV ŠIFRA IME PRIIMEK ŠIFRA ULICA MESTO P1 Jan Kranjc U1 Mestna 1 Kranj P1 Jan Kranjc U2 Cankarjeva 10 Maribor P1 Jan Kranjc U3 Koroška 8 Celje P2 Mojca Novak U1 Mestna 1 Kranj P2 Mojca Novak U2 Cankarjeva 10 Maribor P2 Mojca Novak U3 Koroška 8 Celje P3 Mateja Kralj U1 Mestna 1 Kranj P3 Mateja Kralj U2 Cankarjeva 10 Maribor P3 Mateja Kralj U3 Koroška 8 Celje P4 Andrej Knez U1 Mestna 1 Kranj P4 Andrej Knez U2 Cankarjeva 10 Maribor P4 Andrej Knez U3 Koroška 8 Celje Slika 5.2: Kartezijski produkt poslovnega partnerja in naslova

62 5.4: Dvojniki 50 Blokiranje je sistem, ki zmanj²a ²tevilo parov zapisov, ki jih je potrebno primerjati. Pri blokiranju se iz druge podatkovne baze izlo ijo le zapisi, ki ustrezajo enemu ali pogojem in tako zmanj²amo ²tevilo parov za primerjanje. Pogoje dolo ijo vrednosti v atributih iz zapisov v prvi podatkovni bazi. Na primer, e je v obeh podatkovnih bazah po²tna ²tevilka, potem lahko primerjamo le zapise z isto po²tno ²tevilko. Pari, z razli no po²tno ²tevilko so lahko takoj ozna eni kot neujemanje. Predstavljamo si, da ima podatkovna baza A 2000 zapisov; podatkovna baza B pa 3000 zapisov in podvojeni zapisi ne obstajajo. Potem lahko trdimo naslednje: ˆ tevilo vseh parov v A B je = ˆ Maksimalno ²tevilo ujemanj je 2000, kar je ²tevilo zapisov v manj²i podatkovni bazi A. ˆ tevilo parov, ki se ne ujemajo pa je = ˆ Tudi najve je ²tevilo zadetkov, je relativno majhen deleº celotnega ²tevilo parov v A B. Slabost blokiranja je, da bodo zapisi, ki nimajo enakih vrednosti v klju nem podatkovne elementu, razvr² eni kot neujemanja. Tako ne moremo na primer poiskati iste osebe, ki se je iz Maribora preselila v Ljubljano, saj je lokacija oz. mesto na² pogoj pri blokiranju. Tej situaciji se izognemo z ve imi prehodi po podatkih, kjer prilagajamo pogoje in tako primerjamo ve podatkovnih elementov skupaj. (a) Primerjanje vseh A B parov (b) Primerjava manj kot A B parov Slika 5.3: Primerjava parov s pomo jo blokiranja 5.4 Dvojniki Problem identikacije zapisov v zbirkah podatkov, ki se nana²ajo na enako entiteto imenujemo dvojnik. To so podatki, ki so shranjeni na ve kot enem mestu. Podvojeni podatki so v asih potrebni. Na primer pravne spremembe na poslovnem partnerju (iz samostojnega podjetnika v d.o.o.), v splo²nem pa so nezaºeleni.

63 5.4: Dvojniki 51 Zapis se lahko podvaja, eprav vrednosti niso enake, zaradi napake v zapisu ali manjkajo ih podatkov. Poleg tega pa ne obstaja enoli en identikator, ki bi omogo al, da jih neposredno prepoznamo kot dvojnike. Okolje za odkrivanje podvojenih podatkov so podatkovna skladi² a, kamor se pretakajo podatki iz razli nih virov. Iskanje povezav med podatki je proces i² enja podatkov za izbolj²anje kakovosti podatkov v podatkovnem skladi² u. Najpogostej²i pristop k odkrivanju enakih oz. podobnih zapisov je z zdruºitvijo podobnosti med posameznimi atributi morebitnih dvojnikov.

64 Poglavje 6 Primerjanje nizov Funkcije za primerjavo nizov primerja dva niza s in t in vra a realno ²tevilko r, kjer ve ja vrednost predstavlja ve jo podobnost. 6.1 Levenshteinova razdalja Levenshteinova razdalja je poimenovana po ruskem znanstveniku Vladimiru Levenshteinu, ki je leta 1965 razvil algoritem za izra un tako defnirane razdalje (podobnosti) med dvema nizoma. Levenshteinova razdalja (LR) se uporablja na mnogih podro- jih ra unalni²tva, na primer: preverjanje rkovanja, prepoznavanje govora, analiza DNK... [60, 36]. Ozna imo prvi niz z s in drugega z t. V tem primeru Levenshteinova razdalja izra una minimalno ²tevilo operacij (brisanj, vrivanj in zamenjav enega znaka), ki so potrebne, da prvi niz (s) pretvorimo v drugega (t). Ve ja kot je Levenshteinova razdalja, bolj se niza razlikujeta, manj²a kot je razdalja bolj sta si primerjana niza med seboj podobna. Primer ˆ e je s = AV T O in t = AV T O, potem je LR(s, t) = 0, saj ni potrebna nobena sprememba nizov; niza sta identi na. ˆ e je s = AV T O in t = AV T I, potem je LR(s, t) = 1, saj je potrebna ena zamenjava (I v O), da niz s spremenimo v t. Pri algoritmu si vmesne re²itve shranjujemo v dvodimenzionalno matriko M dimenzije (x + 1) (y + 1). Za poljuben niz s naj oznaka s[0] pomeni prazen niz. Dolºina niza s ozna imo s s. s[i], za i = 1, 2,..., s pa pomenijo vsi znaki v nizu od prvega do i-tega znaka. Oznaka s i pa naj pomeni i-ti znak v nizu s, pri emer je prvi znak na mestu ²tevilka ena. Primer, e je s = AV T O, potem je s[3] = AVT, s 3 = T. 52

65 6.1: Levenshteinova razdalja 53 Element M[i, j] matrike M tako pomeni Levenshteinovo razdaljo med nizoma x[i] in y[j] ali M[i, j] = LR(x[i], y[j]). Matriko M lahko potemtakem izra unamo vrstico po vrstico. Saj je element M[i, j] odvisen od elementov v predhodni vrstici in od elementa M[i, j 1]. Levenshteinova razdalja med nizoma x in y je po zaklju ku postopka shranjena v celici M[x, y], kjer je sta x in y najve ja moºna znaka v svojem intervalu. 0 ; i = 0, j = 0 i ; j = 0, 1 i s j ; i = 0, 1 j t min( ; j > 0, i > 0 M i,j = +1 (Zamenjava) ) M i 1,j 1 M i,j 1 M i 1,j +1 (Vstavljanje) +1 (Brisanje) Algoritem 1 Psevdokod algoritma Levenshteinove razdalje [60] function LevenshteinovaRazdalja(char s[1..x], char t[1..y]) deniramo polje (matrika) M, ki je velikosti (x + 1) (y + 1) for i = 0 to x do M[i, 0] i razdalja od prvega znaka do praznega drugega znaka end for for j = 0 to y do M[0, j] j razdalja od drugega znaka do praznega prvega znaka end for for j = 1 to y do for i = 1 to x do if s[i] = t[j] then M[i, j] M[i 1, j 1] nobena operacija ni potrebna else M[i, j] = minimum ( M[i 1, j] + 1, brisanje M[i, j 1] + 1, vrivanje ) end if end for end for return M[x,y] end function M[i 1, j 1] + 1 zamenjava Za Levensteinovo razdaljo veljajo naslednje trditve kjer je M(s, t) Levensteinova razdalja med nizi s in t in s je dolºina niza s. ˆ M(s, t) s t

66 6.1: Levenshteinova razdalja 54 ˆ M(s, t) max ( s, t ) ˆ M(s, t) = 0 s = t Tabela 6.1 prikazuje matriko, kjer so zapisani koraki in predstavljeno minimalno ²tevilo operacij, ki jih potrebujemo, da niz meilenstein pretvorimo v niz levenshtein. Obstajata pa dve razli ni poti skoti matriko, ki prikazujeta tabeli 6.2 in 6.3. V slednjih tabelah = predstavlja identi na znaka, o predstavlja zamenjavo, + predstavlja vrivanje in predstavja brisanje znakov. Tabela 6.1: Primerjava niza meilenstein in levenshtein m e i l e n s t e i n l e v e n s h t e i n Z algoritmom najdemo le minimalno ²tevilo operacij, ki jih potrebujemo, da iz enega niza dobimo drugega. To lahko pridobimo iz matrike M. Pri nemo pri kon ni re²itvi (torej pri elementu M[x, y]) in se je potrebno premikati nazaj, glede na izra une. Poljuben element M[i, j] (razen za etnih vrednosti) je odvisen od elementov M[i 1, j 1], M[i 1, j] in M[i, j 1]. Kar pomeni, da imamo iz vsakega elementa tri moºne premike (ali manj). ƒe se z elementa M[i, j] premaknemo na element M[i, j 1] (na levega), to pomeni, da smo v drugem nizu vrinili j-ti znak. ƒe se z elementa M[i, j] premaknemo na element M[i 1; j] (na zgornjega), to pomeni da smo v prvem nizu i-ti znak vrinili. In e zadnja moºnost, da smo se z elementa M[i, j] premaknili na element M[i 1; j 1] (levo gor), to pomeni, da sta znaka s i in t j med seboj poravnana. ƒe sta razli na, smo znak s i zamenjali za znak t j. Tabela 6.2: Prva pot skozi matriko Levenshteinove razdalje l e v e n s h t e i n o = + o = = = - = = = = m e i l e n s t e i n

67 6.2: Jaro razdalja 55 Tabela 6.3: Druga pot skozi matriko Levenshteinove razdalje l e v e n s h t e i n o = o + = = = - = = = = m e i l e n s t e i n Normalizacijo Levenshteinove razdalje na intervalu naredimo tako, da od 1 od²tejemo najve jo dolºino nizov (max( s, t )) deljeno s pridobljeno razdaljo. 1 LR(s, t) max( s, t ) ƒasovna zahtevnost opisanega algoritma je O(mn). posplo²itve te metode, ki operacijo denirajo druga e. Obstajajo pa tudi razli ne Za primer lahko navedemo Damerau-Levenshteinovo razdaljo, ki poleg omenjenih operacij denira dodatno operacijo premestitev kot zamenjavo dveh znakov. 6.2 Jaro razdalja Jaro razdalja je zasnovana in najbolj primerna za kratke nize, kot so osebna imena. Rezultat je normaliziran tako, da 1 predstavlja natan no ujemanje in 0 popolno razliko. Vi²ja kot je vrednost razdalje tem bolj sta si niza podobna [59, 29]. Jaro razdalja je za podani vrednosti dveh nizov s i in s j denirana kot kjer je: d j (s 1, s 2 ) = 1 3 ( m s 1 + m s 2 + m t m ) (6.1) ˆ m ²tevilo ujemajo ih se znakov. Primerjana znaka veljata za med seboj ujemajo a, e sta enaka in e razdalja med njima ni ve kot max( s1, s 2 ) 1 (6.2) 2 ˆ t je polovi no ²tevilo transpozicij. S t = m 2 Z m ozna imo ²tevilo ujemajo ih se znakov za katere pa eksplicitno velja, da niso na istih mestih. ˆ 1 3 je faktor, s katerim (v tem primeru) enakomerno uteºimo ujemanje znakov tako prvega in drugega niza, kot tudi transpozicij. Obstajajo pa tudi razli ne variacije, ki posamezne komponente primerjave uteºijo razli no. ˆ s 1 predstavlja dolºino niza s 1, e je s 1 = AV T O potem s 1 = 4.

68 6.3: Jaro-Winklerjeva razdalja 56 Primer 1 Primer2 Vrednosti AVTO in ATVO je m = 4, s 1 = 4, s 2 = 4 in t = 2 2, saj je m = 2. Razli ni rki sta v in t. Tako je podobnost po opisani algoritmu enaka Vsak znak iz niza s 1 je primerjan s vsemi ujemajo imi znaki v nizu s 2. tevilo ujemajo ih (ampak na razli nih mestih) znakov delimo s ²tevilom 2 in tako denirajo ²tevilo transpozicij. ƒe primerjamo niza VRATA s nizom TRAVA, samo rke 'R', 'A' in 'A' se ujemajo in tako je m = 3. ƒeprav se rki 'V' in 'T' pojavita v obeh nizih, je razdalja dalj²a od 1.5 (ena ba 6.2), = 1.5. Tako je t = Jaro-Winklerjeva razdalja Jaro-Winklerjeva razdalja pa je raz²iritev oz. razli ica opisane Jaro metrike in je prav tako namenjena primerjanju nizov znakov [61, 59, 29]. Ta pove a oceno Jaro na na in, da poi² e najve jo dolºino skupne predpone za oba opazovana niza in osnovno oceno pove a po formuli: d w (s 1, s 2 ) = d j (s 1, s 2 ) + (l p(1 d j (s 1, s 2 ))) (6.3) kjer je: ˆ d j (s 1, s 2 ) je Jaro razdalja za niza s 1 in s 2, ˆ l je dolºina skupne predpone nizov. Prve ²tiri znake: 0 l 4, ˆ p pa je konstanta, s katero uteºimo pomembnost ujemanja predpon. p naj ne bi presegal vrenodnosti 0.25 druga e lahko razdalja preseºe vrednost 1. Vrednosti parametrov, ki jih je v svojih aplikacijah uporabljal tudi Winkler pa je p = 0.1. Za primer vzemimo dva niza s 1 = MART HA in s 2 = MARHT A. Tukaj je razdalja oz. ²tevilo ujemajo ih znakov m = = 2 kar pomeni, da sta lahko ujemajo a znaka do dva znaka narazen. Tabela 6.4: Primer poravnave znakov s JaroWinkler razdaljo poloºaj s 1 M A R T H A najdeno s 2 M A R H T A Tabela 6.4 prikazuje poravnano znakov. Znak T na poloºaju 3 v prvem nizu se poravna s znakom T na indeksu 4 v drugem nizu, ko se znak H na poloºaju 4 v prvem

69 6.4: Sørensenov indeks 57 nizu poravna z znakom H na poloºaju 3 v drugem nizu. Znaki, ki se to no ne poravnajo so odebeljeni. 6.4 Sørensenov indeks Sørensenov indeks, poimenovan po Thorvald Sørensenu, izraºa razmerje med ²tevilom skupnih elementov in ²tevilom vseh elementov. V angle²ki literaturi element predstavlja bigram, kar predstavlja mnoºico dveh sosednjih rk [58, 53, 43]. Sørensenov indeks lahko zapi²emo na naslednji na in: QS = 2C A + B (6.4) kjer A predstavljata vse elemente iz niza s in B predstavlja vse elemente iz niza t. C predstavlja elemente, ki so enaki v A in B. Je zelo podoben Jaccardovemu koecientu, le da dvojno oteºi enake fragmente. Sørensenov indeks vra a podobnost na intervalu [0... 1], na na in: QS = 1 2C A + B (6.5) Koncept algoritma je, da niz razdeli na elemente. Element sestavljata dve sosednji rki iz enega niza. Kot primer vzemimo besedo pismo in mnoºica elementov je Drugi niz pismar se razdeli na A = { pi, is, sm, mo } B = { pi, is, sm, ma, ar } Prvi niz ima ²tiri elemente, potem je A = 4; drugi niz ima pet elementov, potem je B = 5. Presek elementov iz A in B je C = { pi, is, sm }. Trije elementi obstajajo v tej mnoºici in tako je rezultat Sørensenovega indeksa: QS = = Needleman-Wunsch algoritem = 0, 66 (6.6) Needleman-Wunsch algoritem sta razvila Saul B. Needleman in Christiana D. Wunsch [44]. Algoritem temelji na dinami nem programiranju in za neujemanja uporablja linearne kazni (presledek v angl. gap) γ(l g ) = l g d, kjer l g predstavlja dolºino presledka in d je kazen za presledek [42].

70 6.6: Smith-Waterman-Gotoh algoritem 58 Za izra un globalne optimalne poravnave med nizoma s dolºine s in nizom t dolºine t se kreira matrika M dolºine ( s + 1, t + 1). 0 ; i = 0, j = 0 f(i) ; j = 0, 1 i s f(j) ; i = 0, 1 j t max( ; 1 i s, 1 j t M i,j = M(i 1, j 1) + w(s i, t j ) (ne/ujemanje) max 1 k i {M(i k, j) + f(k)} (brisanje) max 1 l j {M(i, j l) + f(l)} (vstavljanje) ) Matrika M i,j predstavlja matriko podobnosti; w(s i, t j ) pa predstavlja vrednosti zamenjave in f predstavlja funkcijo vstavljanja presledkov (angl. gaps). Po deniciji je najbolj²i rezultat poravnave med s 1... s in t 1... t v zadnji celici matrike M. Optimalno poravnavo pridobimo tako, da najdemo pot, ki nas pripelje do prej omenjenega najbolj²ega rezultata. Tak²na metoda se imenuje vrnitev nazaj (angl. backtracking). Vra anje nazaj deluje na principu kreiranja povezave v nasprotni smeri. Za ne pri zadnji celici in se vra a po celicah iz katerih je bila trenutna izpeljana [42]. Tabela 6.5: Delovanje Needleman-Wunsch algoritma (metoda vra anje nazaj) na nizu AUGG in AUG - A U G G A U G Na koncu delovanja algoritma (po kon ani metodi vra anja nazaj) pridemo na za- etek matrike M 0,0. Primer delovanja te metode prikazuje tabela Smith-Waterman-Gotoh algoritem Smith-Waterman je algoritem [52, 13], ki izra una optimalno lokalno poravnavo parov s izbolj²avo Gotoh [20], ki ustrezno dopolni algoritem z rokovanjem ve razli no dolgih presledkov (angl. gap). Namesto vstavljanja in brisanja znakov za pretvorbo enega niza v drugega, ta algoritem vstavlja presledke (angl. gap) v oba niza. Namesto brisanja znaka v nizu in vstavljanja znaka v drugega je vstavljen presledek. Primerjamo dva niza, s in t kjer je dolºina niza s ozna ena kot s in dolºina niza t ozna ena kot t.

71 6.7: q-gram algoritem 59 Matrika to kovanja (angl. scoring matrix) W (s i, t j ) je denirana za vse pare. Teºa W (s i, t j ) 0 ko je s i <> t j in W (s i, t j ) > 0 ko sta s i = t j. Dodatno se beleºijo kazni za uvedbo presledka; odvisno ali se presledek pri ne ali nadaljuje. Pri etek presledka ima slab²o oceno in dobi ve jo kazen kot nadaljevanje presledka. Kazen za pri etek presledka in nadaljevanje presledka sta ozna ena kot G zac in G nad. Poravnave, ki se kon ajo s presledkom v s in t so opisane s formulo E in F [13]. { E i,j = max { F i,j = max E i,j 1 G nad H i,j 1 G zac F i 1,j G nad H i 1,j G zac } } (6.7) (6.8) Poravnalna ocena za H i j kjer je 1 i s in 1 j t je denirana s formulo: 0 E i,j H i,j = max F i,j H i 1,j 1 W (s i, t j ) (6.9) Vrednosti za H i j, E i j in F i j so enake 0 kadar i < 1 ali j < q-gram algoritem Imamo niz σ in pozicijski q-gram pridobimo tako, da premikamo okno dolºine q preko znakov iz niza σ. Ker q-grami na za etku in koncu niza nimajo toliko znakov kot celotni q-grami s q znakov, za to vpeljemo znaka # in %, ki pa nista v σ. Tak²na znaka podalj²ata niz σ na za etku za q 1 pojavitev od # in podalj²ata na koncu za q 1 pojavitev znaka %. Tako vsak q-gram vsebuje to no q znakov, eprav nekateri niso iz σ [21]. Pozicijski q-gram niza σ je par (i, σ[i... i + q 1]), kjer je σ[i... i + q 1] q-gram od σ, ki se pri ne na i-tem poloºaju. G σ je mnoºica vseh pozicijskih q-gramov niza σ in je sestavljen iz σ + q 1 parov. Kadar imamo dva niza σ 1 in σ 2, ki sta si podobna, imata veliko ²tevilo skupnih q-gramov. Na primer; imamo q-gram dolºine q = 3 in niz janez_novak. Q-grami so: {(1,##j), (2,#ja), (3,jan), (4,ane), (5,nez), (6,ez_), (7,z_n), (8,_no), (9,nov), (10,ova), (11,vak), (12, ak%), (13, k%%)}

72 6.8: Razlaga uporabe algoritmov 60 Podobno so sestavljeni q-grami dolºine q = 3 za niz janez_a_novak: {(1,##j), (2,#ja), (3,jan), (4,ane), (5,nez), (6,ez_), (7,z_a), (8,_a_), (9,a_n), (10,_no), (11,nov), (12,ova), (13,vak), (14, ak%), (15, k%%)} ƒe pregledamo obe mnoºici q-gramov opazimo, da imata niza 12 skupnih q-gramov. Posebnosti pri tem algoritmu so, da ne najde vseh moºnih rkovalnih napak. Vzemimo na primer besedo VOTKA, ki jo je potrebno popraviti v besedo VODKA. ƒe besedo razdelimo na q-grame, kjer je q = 3 in za besedo VOTKA dobimo: {VOT, OTK, TKA}. V teh q-gramih opazimo, da vsak vsebuje rko T in tako ne bo na²li enakega q-grama iz besede VODKA. 6.8 Razlaga uporabe algoritmov V nadaljevanju se sklicujemo na kratice, ki ozna ujejo posamezne algoritme: Lev - Levenshteinova razdalja, JaroW - Jaro-Winklerjeva razdalja, Sor - Sørensenov indeks, NW - Needleman-Wunsch algoritem, SWG - Smith-Waterman-Gotoh algoritem in QG - q-gram algoritem. Kot primer primerjave med nizom A in nizom B bomo uporabljali tabelo kot je 6.6, ki ima primerjalne ocene uporabljenih algoritmov. Tabela 6.6: Primer primerjave nizov Niz A Niz B Lev Sor JaroW NW QG SWG MITJA MITIJA 0, ,9611 0,8333 0,6667 0,8 MARIBOR KOPER 0, ,4476 0,5714 0,125 0,56 OLA ALA 0,75 0 0,75 0,875 0,5 0,9 6.9 Dolo anje pragov V procesu primerjave nizov je treba dolo iti vrednosti, ki so rezultat algoritmov, iz intervala [0... 1], da lahko re emo, da sta si niza podobna oz. enaka. Vrednost 1 pomeni, da sta si niza popolnoma enaka in 0, da sta si niza popolnoma razli na. Tak²ne pragove smo dolo ili s pomo jo u ne mnoºice, strojnega u enja ter lastne analize rezultatov algoritmov in dobili ustrezne vrednosti (pragove). V prvem koraku smo uporabili strojno u enje, kjer smo na podlagi u ne mnoºice dolo ili pragove. V naslednjem koraku smo ²e s podrobnej²im pregledom ustrezno prilagodili pragove, ki smo jih dobili s pomo jo strojnega u enja.

73 6.9: Dolo anje pragov 61 Za potrebe strojnega u enja smo uporabili programski paket Weka (angl. Waikato Environment for Knowledge Analysis) 1, ki predstavlja enoten programski vmesnik za stojno u enje in vsebuje obseºno zbirko algoritmov za strojno u enje. Nudi ²tiri delovna okolja: simple CLI, explorer, experimenter, knowledge ow [62]. Za potrebe dela smo uporabili le explorer, ki je gra ni uporabni²ki vmesnik, v katerem lahko uporabljamo vse glavne pakete Weke: ltri, klasikatorji, razvr² anje v skupine, povezovalna pravila.... Prva faza pri iskanju znanja v podatkih je seveda priprava podatkov, katere je potrebno zbrati skupaj v neko celoto katero Weka razpozna. Weka uporablja ARFF format za zapis podatkov. Atributi so lahko ²tevil ni, nominalni (poimenski), nizi in datumi. Za algoritem strojnega u enja smo uporabili klasikacijski algoritem C4.5 (v WEKI poimenovan J48), kjer pri podanih atributih (rezultat posameznega primerjalnega algoritma) ºelimo napovedati vrednost ciljnega atributa - ujemanje/neujemanje. Algoritem smo uporabili na u ni mnoºici vrstic, katere smo pred tem ustrezno pripravili in dolo ili ali se niza ujemata. V zadnjem koraku smo pragove ²e dodatno ro no preverili na naklju nih vrsticah in ugotovili, da se razlikujejo za 1% do 2% od rezultatov, ki smo jih dolo ili s strojnim u enjem. Pragovi za uporabljene algoritme so: ˆ Lev > 0,93 ˆ JaroW > 0,95 ˆ Sor > 0,65 ˆ NW > 0,96 ˆ SWG > 0,95 ˆ QG > 0,8 1 Prosto dostopno na naslovu

74 Poglavje 7 Referen ne tabele in slovarji Slovar, v literaturi omenjen tudi kot asociativno polje (angl. associative array), je abstraktna podatkovna struktura, ki jo sestavlja mnoºica parov klju ev in njihovih vrednosti. V slovarju se par klju ev in njihovih vrednosti pojavlja le enkrat. V na²em primeru nam uporaba slovarjev omogo a poenotiti zapise na isti imenovalec, ki so napa no zapisani ali v napa ni relaciji. Hočka ulica Grogova ulica Hoška ulica Hočka ulica Grogva ulica Grogova ulica Slika 7.1: Prikaz delovanja referen ne tabele Hoška ulica Hoška ulica Hočka ulica Hočka ulica Hočka ulica Hočka ulica Grogva ulica Grogva ulica Grogva ulica Grogva ulica Grogova ulica Pri vnosu podatkov o poslovnem partnerju smo ugotovili, da se uporabniki pogosto zmotijo pri po²tnih naslovih, kot je npr. ime ulice. Pri konsolidaciji poslovnih partnerjev primerjamo ime, priimek, ulico, dav no ²tevilo ( e obstaja), po²tno ²tevilko 62

75 7.1: Slovar po²tnih ²tevilk in mest 63 in mesto. V primeru, da obstaja ve razli nih zapisov, ki kaºejo na istega poslovnega partnerja, v prvi podatkovni bazi, potem se nam posledi no pove a ²tevilo dvomljivih ujemanj z zapisi iz druge podatkovne baze. Primerjalna funkcija nam vrne ve jo razdaljo med primerjavo ulic, ki vsebujejo rkovalno napako, kot je pravilna. Za to smo vpeljali slovarje kot referen no tabelo, ki jo zapolnimo z imeni ulic, po²tnih ²tevilk in mest. Tako lahko napa ne vnose preslikamo in jih nato pravilno uparimo, ne da bi posegali v zapise podatkovne baze. Referen ne tabele so nam v pomo pri preslikavi ena proti ena med podatki. Pred primerjavo podatkov iz slovarja in dejanskimi podatki iz na²ih podatkovnih baz je potrebno vse nize pretvoriti v velike rke, saj le tako lahko dobimo pravilen rezultat. Slovarji pridejo v upo²tev pri vrednostih, ki predstavljajo preslikavo v realni svet. Tak²ne preslikave so po²tna ²tevilka, mesto in ulica. 7.1 Slovar po²tnih ²tevilk in mest Za izdelavo slovarja smo uporabili podatke iz spletne stani Po²te Slovenije d.o.o. [7]. Slovar po²tnih ²tevilk smo vpeljali kot referen no tabelo za mesta ter po²tne ²tevilke. V seznamu po²tnih ²tevilk obstaja za Domºale ve razli nih po²tnih ²tevilk (pravilna je 1230). Ob pojavitvi tak²nega primera lahko, s pomo jo primerjalnih funkcij ter s veliko podobnostjo, ustrezno popravimo vrednosti v podatkovni bazi. Ve podobnih parov prikazuje tabela 7.1, kjer so prikazane pravilne vrednosti iz slovarja v stolpcu Mesto A, v stolpcu Mesto B pa napa no vnesene v podatkovnih bazah. Iz rezultatov algoritmov lahko vidimo kako so si nizi podobni. Tabela 7.1: Prikaz po²tnih ²tevilk in mest, ki so v napa ni relaciji Mesto A Mesto B Lev Dice JaroW NW QG SWG KAMNIK 1240 KAMNIK ,9091 0,5 0,9636 0,9545 0,7692 0,9091 LOGATEC 1371 LOGATEC ,9167 0,5 0,9667 0,9583 0,7857 0,9167 DOMšALE 1231 DOMšALE ,9167 0,5 0,9667 0,9583 0,7857 0,9167 TRšIƒ 4291 TRšIƒ ,8 0,5 0,98 0,9 0,6667 0,8 Tabela 7.2 prikazuje nekaj parov mest in po²tnih ²tevilk, kjer so se uporabniki zmotili pri vnosu imena mesta. Dolga imena mest in krajev, kot je npr. SVETA TROJICA V SLOVENSKIH GORICAH se morajo kraj²ati zaradi omejitev velikosti podatkovnega polja. Pravila o kraj²avah niso nikjer zapisana.

76 7.1: Slovar po²tnih ²tevilk in mest 64 Tabela 7.2: Prikaz po²tnih ²tevilk in mest, kjer je tipkarska napaka Zapis Mesto Lev Sor JaroW NW QG SWG I. PROSENJAKOVCI - PARTOSVALVA ,9688 0,75 0,981 0,9844 0,9118 0,95 PROSENJAKOVCI - PARTOSFALVA 9207 II. SVETA TROJICA V SLOV. GORICAH ,9412 0,8333 0,9757 0,9412 0,9143 0,9625 SVETA TROJICA V SL. GORICAH 2235 III. LJUBLJANA - POLJE ,9091 0,3333 0,9518 0,9091 0,8261 0,9 LJUBLJANA-POLJE 1260 IV. KOPER - CAPODISTRIA - P.P ,7742 0,8889 0,9548 0,7742 0,8475 0,9083 KOPER - CAPODISTRIA 6001 Tabela 7.3 prikazuje po²tne ²tevilke in mesta, kjer so mesta enaka, a razlikuje se po²tna ²tevilka, saj lahko ima veliko mesto ve po²tnih ²tevilk, ki so lo ene na mestne etrti ali pa speci ne za razna podjetja in ustanove. V tak²nem primeru je potrebna odlo itev uporabnika, katero po²tno ²tevilko uporabiti, saj podatkovnih zapisov ne moremo samodejno zdruºiti. Ve jo pozornost je potrebno posvetiti podjetjem saj morajo biti podatki na izdanem ra unu enaki kot v poslovnem registru. Tabela 7.3: Mesta in po²tne ²tevilke, katere ne moremo zdruºiti Podatkovna baza A Podatkovna baza B Mesto Po²tna ²t. Mesto Po²tna ²t. LJUBLJANA 1000 LJUBLJANA 1001 MARIBOR 2000 MARIBOR 2106 KOPER 6000 KOPER 6001 CELJE 3000 CELJE 3505 Tabela 7.4 prikazuje dvojne zapise za eno po²tno ²tevilko. Na primer po²tna ²tevilka 2504 predstavlja po²tno ²tevilko podjetja Nova KBM d.d. Tako lahko zapisa, pod zaporedno ²tevilko III., zdruºimo, saj lo ena pove ujeta razdaljo med primerjalnimi nizi. Tabela 7.4: Mesta in po²tne ²tevilke, katere lahko zdruºimo Zapis Mesto Po²tna ²t. I. LJUBLJANA - ISKRA 1521 LJUBLJANA 1521 II. MARIBOR - P.P MARIBOR - PO TNI PREDALI 2001 III. MARIBOR - NKB 2505 MARIBOR 2505

77 7.2: Slovar ulic Slovar ulic Za izdelavo slovarja ulic smo uporabili podatke iz spletne stani mestnih ob in. Za na² primer smo uporabili podatke iz mestne ob ine Maribor [46]. Slovar ulic smo vpeljali kot referen no tabelo pri imenih ulic v mestu Maribor. Najprej smo iz obeh podatkovnih baz izlo ili samo enoli ne zapise imen ulic ter jih medsebojno primerjali s funkcijami za primerjavo nizov (ve o razdalji v poglavju 6). Ugotovili smo, da imamo 998 razli nih zapisov ulic v na²i podatkovni bazi, a le 27% se enoli no ne ujema. Tak²ni neujemajo i zapisi lahko predstavljajo: ˆ enake ulice, ker je pri vnosu nastala tipkarska napaka, ˆ enake ulice napisane s kraticami; npr. namesto ulica je zapisano ul., ˆ razli ne ulice, ki imajo podobno ime. Primerjali smo pare zapisov s raznimi algoritmi kjer smo ugotovili, da en algoritem ne zna upariti vse zapise, ampak je potrebno uporabiti ve razli nih (omenjenih v poglavju 6), da pridemo do ºelenega rezultata. Potek normalizacije ulic je potekal v ve korakih in v vsakem koraku smo uporabili en algoritem. Za eli smo s Levensteinovo razdaljo kot prikazuje slika 7.2 in nadaljevali s drugimi, ki so opisani v korakih II. do VII. Vsak algoritem je vrnil dolo eno ²tevilo ujemajo ih zapisov, ki so prikazani na sliki v stolpi nih grakonih. Po vsakem izvajanju algoritma smo to ²tevilo pri²teli skupnim ujemajo im zapisom in tako se je skupno ²tevilo ujemajo ih zapisov po vsakem koraku pove alo. Ujemajoči zapisi Skupni zapisi Levenstein > 0,93 Sorensen > 0,65 JaroWinkler > 0,95 Need. Wunch > 0,96 q-grams > 0.8 Sm. Wat. Got > 0,95 Slika 7.2: Najdeni pari in skupno ²tevilo ujemanj po vsakem koraku V prvem koraku smo vse ujemajo e zapise ozna ili in jih izlo ili pred za etkom naslednjega koraka ter tako zmanj²ali ²tevilo primerjav. V vsakem od naslednjih korakov

78 7.2: Slovar ulic 66 smo naredili isto. Pravilne vrednosti smo dolo ili s pomo jo referen nih slovarjev ulic in zunanjimi viri podatkov. II. korak V drugem koraku smo uparili zapise, kjer je Levensteinova razdalja ve ja od 0,93. Rezultate, ki imajo razdaljo manj²o od 0,93 ne smemo uporabiti, saj bi s tem uparili nepravilne pare. Rezultat je viden v tabeli 7.5. V tabeli je vidno, da vsi ostali algoritmi pokaºejo veliko ujemanje razen Sørensenovega indeksa pri zapisih I. in III. Tabela 7.5: Primer nekaterih parov pri Levensteinovi razdalji ve ji od 0,93 Ulica Lev Sor JaroW NW QG SWG I. BAVARSKA ULICA 0,9333 0,5 0,9632 0,9333 0,8485 0,9286 BARVARSKA ULICA II. CIRIL METODOVA ULICA 0,95 0,4 0,9379 0,975 0,8636 0,92 CIRIL-METODOVA ULICA III. KMETILSKA ULICA 0,9333 0,5 0,9305 0,9667 0,8235 0,8933 KMETIJSKA ULICA IV. STROSSMAJERJEVA ULICA 0,9524 0,5 0,971 0,9762 0,8696 0,9238 STROSSMAYERJEVA ULICA III. korak V tretjem koraku smo uparili zapise kjer je Sørensenov indeks ve ji od 0,65. V spodnji tabeli lahko vidimo kako dobro se Sørensenov indeks odreºe pri manjkajo ih besedah (zapis I. - IV.) in pri zamenjavah besed (zapis V.). Tabela 7.6: Primer nekaterih parov, ko je Sørensenov indeks ve ji od 0,65 Ulica Lev Sor JaroW NW QG SWG I. BERGLESOVA 0,625 0,6667 0,925 0,625 0, BERGLESOVA ULICA II. BESEDNJAKOVA 0,6667 0,6667 0,9333 0,6667 0, BESEDNJAKOVA ULICA III. BOR TNIKOVA 0,6471 0,6667 0,9294 0,6471 0,75 1 BOR TNIKOVA ULICA IV. CANKARJEVA 0,625 0,6667 0,925 0,625 0, CANKARJEVA ULICA V. ULICA LEONA ZALAZNIKA 0, ,7962 0,5952 0,7391 0,7143 LEONA ZALAZNIKA ULICA

79 7.2: Slovar ulic 67 IV. korak Poiskali smo zapise kjer je Jaro-Winklerjeva razdaljo ve ja od 0,95. Jaro-Winklerjeva razdalja je zelo u inkovita pri tipkarskih napakah na kratkih nizih kot to lahko vidimo v zapisu III. in V., kjer ostali algoritmi pokaºejo veliko razdaljo. Tabela 7.7: Primer nekaterih parov pri JaroWinkler razdalji ve ji od 0,95 Ulica Lev Sor JaroW NW QG SWG I. CESTA PROLETARSKIH B. 0,8 0,6667 0,9505 0,82 0,8 0,9524 CESTA PROLETARSKIH BRIGAD II. NA GORICI 0,8889 0,5 0,9528 0,8889 0,7619 0,875 NA GORCI III. OBRE-NA ULICA 0,9231 0,5 0,9692 0,9615 0,8 0,8769 OBREšNA ULICA IV. PARTIZANSKA CESTA 3-0,85 0,8 0,97 0,85 0, PARTIZANSKA CESTA V. SLO KOV TRG 0,9167 0,5 0,9806 0,9167 0,8148 0,9091 SLOM KOV TRG V. korak Poiskali smo zapise kjer je Needleman-Wunsch-eva razdalja ve ja od 0,96. S tem smo zajeli ²e ve zapisov, pri katerih prej²nji algoritmi niso ugotovili ujemanja. Tabela 7.8: Primer nekaterih parov pri Needleman-Wunsch razdalji ve ji od 0,96 Ulica Lev Sor JaroW NW QG SWG I. LESERSKA ULICA 0,9286 0,5 0,8769 0,9643 0,8125 0,9714 LESARSKA ULICA II. LESIƒJAKOVA ULICA 0,9412 0,5 0,914 0,9706 0,8421 0,9765 LESIƒJEKOVA ULICA

80 7.3: Proces normalizacije ulic, po²tnih ²tevilk in mest 68 VI. korak Poiskali smo zapise kjer je q-grams razdalja ve ja od 0,8. Iz tabele je razvidno, kako dobro se q-grams razdalja spopada s kraticami UL in ULICA (zapis III. in IV.). Tabela 7.9: Primer nekaterih parov pri q-grams razdalji ve ji od 0,8 Ulica Lev Sor JaroW NW QG SWG I. CESTA OSVOBOD. FRONTE 0,8333 0,6667 0,9271 0,8542 0,8163 0,8571 CESTA OSVOBODILNE FRONTE II. METELJSKA CESTA 0,8667 0,5 0,8824 0,9 0,875 0,9231 MELJSKA CESTA III. UL JANKA SERNCA 0,8333 0,6667 0,8489 0,8611 0,8108 0,9067 ULICA JANKA SERNCA IV. UL STANETA SEVERJA 0,8571 0,6667 0,8434 0,881 0,8372 0,9222 ULICA STANETA SEVERJA VII. korak Poiskali smo zapise kjer je Smith-Waterman-Gotohova razdalja ve ja od 0,95. Z vstavljanjem presledkov (angl. gap) lahko uparimo nize kot je zapis II., kjer je rkovalna napaka in manjkajo a beseda. Tabela 7.10: Primer nekaterih parov pri Smith-Waterman-Gotoh razdalji ve ji od 0,95 Ulica Lev Sor JaroW NW QG SWG I. ADAMIƒEVA ULICA 0,8667 0,5 0,8215 0,9333 0,875 1 AMIƒEVA ULICA II. A KARƒEVA 0, ,836 0,5667 0,5 0,9556 A KERƒEVA ULICA III. KO AKI,KLETARSKA ULICA 0,6818 0,5 0,7645 0,8409 0, KLETARSKA ULICA IV. MILANA PLATOV 0,5909 0,4 0,7611 0,7273 0, ULICA MILANA PLATOV KA 7.3 Proces normalizacije ulic, po²tnih ²tevilk in mest Zapise iz podatkovne baze A in B, med procesom kakovosti podatkov in konsolidacije, najprej normaliziramo s slovarjem. Zapisi, bodisi ulice ali mesta, ki predstavljajo dovolj veliko podobnost se pred glavnim procesom primerjave ustrezno preslikajo v pravilno obliko (iz slovarja) in ²ele nato preidejo v fazo primerjave.

81 7.3: Proces normalizacije ulic, po²tnih ²tevilk in mest 69 Iz mnoºice zapisov, ki so ozna ene za ujemanje, nekaterih ne smemo upariti, eprav smo dobili dovolj visoko oceno od primerjalne razdalje. Razlog za to je npr. v imenih ulic, saj so imena zelo podobna, ampak predstavljajo dve razli ni ulici (tabela 7.11). Tabela 7.11: Ujemajo i pari, ki predstavljajo dve razli ni ulici in jih moramo ozna iti kot neujemajo e Zapis Ulica Lev Sor JaroW NW QG SWG I. DALMATINOVA ULICA 0,8824 0,5 0,9529 0,9412 0,7895 0,8118 DALMATINSKA ULICA II. JENKOVA ULICA 0,8667 0,5 0,9644 0,9 0,875 0,9231 JESENKOVA ULICA III. KORƒETOVA ULICA 0,8667 0,5 0,9522 0,9 0,7273 0,8143 KORESOVA ULICA IV. MAROLTOVA ULICA 0,875 0,5 0,9553 0,9063 0,7429 0,8267 MARMONTOVA ULICA V. PRU NIKOVA ULICA 0,8125 0,5 0,9613 0,875 0,5714 0,72 PU KINOVA ULICA VI. RIBNI KA ULICA 0,9286 0,5 0,9833 0,9286 0,8387 0,9231 RIBI KA ULICA Vseh ulic, po²tnih ²tevilk in mest uporabnik ne more poznati in v odlo itveni fazi mu pomaga slovar. Med analizo podatkov smo ugotovili, da je verjetnost pojavitve rkovalne napake ve ja v dalj²ih imenih ulic in mest. Vse pare smo uredili po velikost in razdelili na dve polovici. V prvi polovici, kjer so nizi dalj²i, se ujema 77% zapisov. V drugi polovici, kjer so imena kraj²a, se ujema 91% parov. Iz tega lahko trdimo, da se uporabniki pri vnosu kraj²ega imena ulice poslovnega partnerja zmotijo manj kot pa pri dalj²ih. Za to je pri celotni konsolidaciji smotrno upo²tevati parameter dolºine niza in tistim z ve znaki posvetiti ve pozornosti. Po vpeljavi slovarja in dolo anje pravilnih imen ulic, po²tnih ²tevilk in mest lahko za nemo primerjati posamezne zapise.

82 Poglavje 8 Konsolidacija poslovnih partnerjev 8.1 Opis problema V zdruºevanju dveh ali ve podjetij, ta podjetja tudi vzpostavijo skupen ²ifrant poslovnih partnerjev. Namen zdruºitve poslovnih partnerjev je: ˆ integriteta podatkov, ˆ to nost podatkov, ˆ skladnost podatkov, ˆ odstranitev dvojnikov, ˆ aºurnost podatkov, ˆ enostavnost uporabe podatkov, ˆ podatkovno pokritje in ˆ zaupanje v podatke. Posamezni zapisi v razli nih podatkovnih bazah lahko imajo pomanjkljive podatke, ki jih s konsolidacijo dopolnimo. Integriteta podatkov zajema osnovne mere kakovosti, kot so: polnost zapisov (npr. za nekatere poslovne partnerje nimamo shranjene dav ne ²tevilke), zaloga (obmo ja) vrednosti zapisov, izjemne vrednosti zapisov... Zagotavljanje to nosti podatkov zahteva primerjavo podatkov z dejstvi v resni nem ºivljenju, ki jih ti podatki predstavljajo, ali vsaj primerjavo z nekim drugim verodostojnim virom. Preverjanje to nosti podatkov je vsebinski problem, pri katerem je pogosto potrebno sodelovanje strokovnjakov iz obravnavanega podro ja. Skladnost podatkov vklju uje dva pogleda na medsebojno povezanost oziroma usklajenost podatkov. Podatki v eni tabeli morajo biti skladni s podatki v drugi tabeli. 70

83 8.2: Povezovanje vsebinske enakosti 71 Poslovni partnerji morajo biti povezani s terjatvami in obveznostmi, sicer ne bi mogli ugotoviti povezanosti med pla niki oz. prejemniki. Dinamika delovanja druºb pomeni, da se bodo podatki v zbirkah s asoma spreminjali, brisali in dodajali. S tega stali² a je treba zagotoviti dovolj pravo asne podatke za uporabnike in omogo iti, da so podatki dostopni takrat, ko jih potrebujejo. Pojem enostavnosti uporabe podatkov pomeni, da uporabnikom ni ve potrebno iskati poslovne partnerje v dveh podatkovnih bazah ampak le v eni. S tem poenostavimo dostop do podatkov in uporabnost sistema. Podatkovno pokritje predstavlja zrcalno sliko zapisov iz podatkovne baze z realnim svetom. Posamezno podjetje ima 100% pokritost svojih poslovnih partnerjev in delno ali ni elno pokritost poslovnih partnerjev drugega podjetja. Po zdruºitvi podjetij tako omogo imo podjetju 100% pokritje vseh poslovnih partnerjev. Zaupanje v podatke je izjemnega pomena pri zagotavljanju kakovosti podatkov in pride do izraza na razli nih ravneh odlo anja. Za podatke, ki uºivajo ve je zaupanje, pravimo, da so verodostojni in imajo zato ve jo teºo pri sprejemanju odlo itev. 8.2 Povezovanje vsebinske enakosti Pri samem zdruºevanju mati nih podatkov je rezultat bolj²i, e podjetji delujete na podobnem podro ju ali v isti drºavi. Nesmiselno je iskanje enakih poslovnih partnerjih v slovenskem podjetju in npr. arabskem. Pri zdruºevanju podatkov iz razli nih podatkovnih baz uporabljamo metodo najpogostej²ih zapisov za ugotavljanje kateri stolpci v podatkovnih bazah vsebujejo vsebinsko enake podatke. Na primer v podatkovni bazi A imamo naslednje stolpce, ki opisujejo zi no osebo: {BP_FSTNAME, BP_LSTNAME, STREET60, POSTAL- CODE, CITY_1}. V podatkovni bazi B, so imena stolpcev: {IME, PRIIMEK, ULICA, POSTNA_ST, MESTO}. Naloga agenta je, da sam ugotovi kateri stolpci vsebujejo vsebinsko enake informacije na podlagi analize primarne podatkovne baze (v na²em primeru baza A). V prvem koraku analiziramo primarno podatkovno bazo in v vsakem stolpcu izlo imo najpogostej²e ponovitve ter ²tevilo teh ponovitev. je: ˆ Imena: FRANC, JOšE, MARIJA... ˆ Priimki: NOVAK, HORVAT, KOVAƒIƒ... Nekaj tak²nih ponovitev ˆ Ulice: LJUBLJANSKA CESTA, CANKARJEVA ULICA, CELOV KA CESTA...

84 8.2: Povezovanje vsebinske enakosti 72 Kot primerjavo pogostosti imen in priimkov smo ugotovili skladnost s Statisti nim uradom Republike Slovenije 1. Ugotovljeno je bilo, da lahko z vzorcem najpogostej²ih zapisov ugotovimo vsebinsko enakost stolpcev v razli nih podatkovnih bazah. Po izvedeni analizi primarne podatkovne baze, lahko nadaljujemo z naslednjim korakom, kjer bomo poiskali kateri stolpci so vsebinsko enaki. V drugem koraku dolo imo katere zapise bomo primerjali z drugimi podatkovnimi bazami. Primerjava poteka tako, da vsebino vsakega stolpca iz podatkovne baze A, primerjamo z vsakim stolpcem iz podatkovne baze B. Tak²na primerjava je asovno potratna, za to dolo imo del zapisov katere bomo primerjali. Pred za etkom dolo anja dela zapisov je potrebno pre²teti ²tevilo ponovitev posameznega podatka v stolpcu in vse podatke padajo e razvrstiti glede na ²tevilo ponovitev. tevila zapisov za primerjanje ne moremo dolo iti procentualno in primerjati npr. zgornjih 50% zapisov, ki se najve krat ponovijo, saj bi s tem po nepotrebnem primerjali preveliko ²tevilo zapisov in posledi no upo asnili delovanje. Tudi premajhna mnoºica zapisov (npr. zgornjih 10% zapisov) lahko vrne napa ne rezultate, saj bi v majhnih podatkovnih bazah lahko zajeli le en sam zapis in tako napa no ozna ili ujemanje stolpcev. tevilo ponovitev imen poslovnega partnerja, smo gra no predstavili na sliki 8.1 (desni grakon). V grakonu so na x osi predstavljene vrednosti (v na²em primeru imena poslovnih partnerjev) in na y osi je zapisano ²tevilo ponovitev tak²ne vrednosti. Iz tak²nega grakona je teºje dolo iti pravilen prag, saj so podatki preve zgo² eni na vrednostih, ki predstavljajo veliko ²tevilo ponovitev. Logaritemsko merilo Linearno merilo Podatki za primerjavo Slika 8.1: tevec enoli nih imen na logaritmi nem in linearnem merilu Tako vpeljemo logaritmi no merilo, ki je prikazano na sliki 8.1 (levi grakon) kot primer analize imen poslovnih partnerjev. Iz tak²nega merila lahko razberemo in nastavimo prag, ki nam pove koliko zapisov, ki se najpogosteje uporabljajo, bomo primerjali in s tem dobili dobro sliko kateri podatek se nahaja v katerem stolpcu. Uporaba pra- 1 in

85 8.2: Povezovanje vsebinske enakosti 73 gov nam pomaga pri izlo evanju nepotrebnih primerjav, saj se nekateri zapisi v prvi podatkovni bazi pojavi malo krat ali celo samo enkrat in je zato mala verjetnost, da se pojavijo tudi v drugi podatkovni bazi. Primer nekaterih tak²nih zapisov je: ˆ Imena: EFRET, UƒURIJA, ERMINDA... ˆ Priimki: GJUREKOVIƒ, RIZVANI, ARSIM... ˆ Ulice: ƒampova ULICA, MAJORJA LAVRIƒA ULICA, DOLNJI LAKO... Primer delovanja za podatek MARIJA, ki se pojavlja samo v stolpcih z imenom, kjer je zapisano ime in ne v stolpcih o ulicah oz. mestih. Tako, kot se niz CAN- KARJEVA ULICA pojavi le v stolpcu, kjer so zapisane ulice. Z relativno majhnim ²tevilom najpogostej²ih zapisov smo prepri ani, da lahko v celoti dolo imo stolpce, ki vsebujejo vsebinsko enake zapise. Zapisi, ki lahko imajo niz tako v imenu, kot npr. ulici so zelo redki in jih s pravilno nastavljenim pragom izlo imo. Pri osebnih imenih smo dolo ili prag ²tevila zapisov in sicer zapise, ki imajo ²tevilo ponovitev 1000 ali ve. S tem smo izlo ili 180 najpogostej²ih imen. Kot primer lahko podamo informacijo, da je vseh enoli nih imen pribliºno , a v na²em primeru bomo primerjali le 180 zapisov z drugimi stolpci v ostalih podatkovnih bazah. Pri priimkih smo dolo ili prag ²tevila ponovitev 100, kar pomeni, da bomo primerjali le 1700 najbolj pogostih priimkov (ki se ponovijo ve kot 100 krat) izmed vseh Pri ulicah smo dolo ili prag ²tevila ponovitev 100, kar pomeni, da bomo primerjali 2000 najbolj pogostih imen ulic (ki se ponovijo ve kot 100 krat) izmed vseh Pri mestih bomo primerjali vsa mesta, saj je ²tevilo vse mest relativno malo v primerjavi z drugimi podatki. V tretjem koraku ovrednotimo rezultate. Vsak element zapisa iz podatkovne baze A, ki se pojavi v enem od stolpcev v podatkovni bazi B, ozna imo v za asni tabeli. Te vrednosti pre²tejemo in e se ve kot 40% zapisov iz stolpca BP_FSTNAME ujema z zapisi iz stolpca IME potem ta dva stolpca hranita vsebinsko enake vrednosti. Stolpce, ki so ozna eni za ujemanje, zapi²emo v mapirno tabelo, kjer jo agent bere med uparjanjem podatkov. Za stolpce kot so dav na ²tevilka in hi²na ²tevilka uporabimo regularne izraze, kjer nad vzorcem zapisov izvedemo preverjanje. Proces iskanja vsebinske enakosti ni omejen le na dve podatkovni bazi, saj jih je lahko ve. Izhodi² e na²ega problema pa zahteva primarno podatkovno bazo, s katero po vrsti primerjamo druge. ƒe imamo na primer ²tiri podatkovne baze z razli no strukturo {A,B,C,D}, je na²a primarna baza je A, bomo vsako bazo {B,C,D} primerjali s na²o primarno bazo.

86 8.3: Opis podatkovnih baz Opis podatkovnih baz V na²em primeru bomo podrobno opisali primerjavo med dvema podatkovnima bazama. Podatke iz podatkovna baze A in podatkovne baze B smo s pomo jo raz lenitve besedila (poglavje 5.2) preslikali v enako strukturo (enake atribute), ki jo prikazuje tabela 8.1. Tako posamezen zapis vsebuje vse potrebne informacije o poslovnem partnerju. V tabeli 8.2 so prikazani trije poslovni partnerji z zapolnjenimi vrednostmi. Prvi primer je zi na oseba, preostala dva sta pravna oseba. tevilo zapisov v prvi tabeli je pribliºno in ²tevilo zapisov v drugi tabeli je pribliºno Tabela 8.1: Atributi poslovnega partnerja. Posamezna celica predstavlja stolpec v tabeli Poslovni partner BPARTNER CITY_2 ADDR_LINE0 COUNTRY ADDR_LINE1 COMPANY ADDR_LINE2 GENDER ADDR_LINE3 HOUSE_NUM1 ADDR_SHORT HOUSE_NUM2 ADDR_SH_S NAME_ORG1 BP_CONS NAME_ORG2 BP_FSTNAME NAME_ORG3 BP_LSTNAME POSTALCODE BP_TYPE STREET60 CITY_1 TAX_NUMB Tabela 8.2: Primer podatkov poslovnega partnerja I. II. III. BPARTNER BP_CONS ADDR_LINE0 MITJA LAƒEN TELEKOM PE MARIBOR PO TA SLOVENIJE,D.O.O. ADDR_LINE1 GOLOBOVA ULICA 10 TITOVA CESTA 38 SLOM KOV TRG 10 ADDR_LINE2 SI-2000 MARIBOR SI-2000 MARIBOR SI-2000 MARIBOR ADDR_LINE3 NULL NULL NULL ADDR_SHORT ADDR_SH_S BP_FSTNAME MITJA NULL NULL BP_LSTNAME LAƒEN NULL NULL BP_TYPE Fizi na oseba Pravna oseba Pravna oseba CITY_1 MARIBOR MARIBOR MARIBOR CITY_2 NULL NULL NULL COUNTRY SI SI SI COMPANY NULL NULL NULL GENDER 0 NULL NULL HOUSE_NUM HOUSE_NUM2 NULL NULL NULL NAME_ORG1 NULL TELEKOM SLOVENIJE D.D. PO TA SLOVENIJE,D.O.O. NAME_ORG2 NULL NULL NULL NAME_ORG3 NULL NULL NULL POSTALCODE STREET60 GOLOBOVA ULICA TITOVA CESTA SLOM KOV TRG TAX_NUMB

87 8.3: Opis podatkovnih baz 75 Zaradi narave programa (konsolidacija poslovnih partnerjev), je z vidika razli nih (enoli nih) zapisov najpomembneje, da je seznam poslovnih partnerjev kar se da kakovosten in ne vsebuje podvojenih zapisov. S pomo jo analize razli nih zapisov po posameznih poljih, iz podatkovne baze A in B, dobimo predstavo o problematiki. Analizo predstavlja slika 8.2. Iz slike je razvidno, da v podatkovni bazi A veliko zapisom manjka atribut o dav ni ²tevilki (polje TAX_NUM ), saj zaradi poslovnega procesa podjetje od poslovnih partnerjev ni zahtevalo tega podatka. V konsolidirani podatkovni bazi, se bodo ta polja dopolnila. Podatkovna baza A Podatkovna baza B BP_FSTNAME BP_LSTNAME NAME_ORG1 NAME_ORG2 NAME_ORG3 STREET60 HOUSE_NUM1 HOUSE_NUM2 POSTALCODE CITY_1 CITY_2 COUNTRY TAX_NUMB Slika 8.2: Analiza razli nih zapisov po podatkovnih poljih poslovnih partnerjev To nost podatkov je bila ovrednotena s stali² a izstopajo ih zapisov. V nadaljevanju je opisana analiza podatkovnih baz A in B, kjer obstajajo naslednji izstopajo i zapisi: ˆ V podatkovni bazi A obstaja 18% zapisov brez dav ne ²tevilke, medtem, ko v bazi B obstaja le 1,7% takih zapisov. To nakazuje, da proces na za etku delovanja ni zahteval vnosa dav ne ²tevilke, a kot lahko vidimo na zadnje vnesenih poslovnih partnerjih, se je ta proces spremenil in je vnos dav ne ²tevilke obvezen. ˆ V podatkovni bazi A obstaja 0,6% zapisov zi nih oseb s pomanjkljivimi podatki o imenu in priimku. Tak²ni primeri so kjer sta ime in priimek v istem podatkovnem polju ali kjer podatki manjkajo. ˆ V 11% zapisov iz podatkovne baze B, ki predstavljajo pravne osebe, pa je 5% tak²nih za katere je veljalo lo eno pravilo zapisovanja in ga bo treba v konsolidiranem podjetju uskladiti. Tak²en primer je zapis samostojnih podjetnikov, kjer se naj ime podjetja zapi²e v polje NAME_ORG1.

88 8.4: Proces konsolidacije z uporabo agentov 76 ˆ V podatkovni bazi A je 3% zapisov brez imena ulice in v bazi B je teh zapisov 6%. Enake vrednosti veljajo za podatkovno polje po²tna ²tevilka. 8.4 Proces konsolidacije z uporabo agentov Konsolidacija je rezultat procesa, ki se uporablja za integracijo podatkov. Podatki v isti domeni se raz lenijo, normalizirajo in posredujejo storitvi, ki analizira, poi² e dvojnike, poi² e pravilno vrednost ali pa dolo i, da ta ne obstaja [37]. Slika 8.3 prikazuje delovanje procesa konsolidacije podatkov. Uporabniški vmesnik Meritve Odličitev Primerjava Blokiranje Normalizacija Pridobivanje podatkov Slika 8.3: Nivojski prikaz delovanja konsolidacije podatkov. Proces povezovanja podatkov je sestavljen iz ve faz. Prva faza je blokiranje (opisano v poglavju 5.3), kjer zmanj²amo ²tevilo parov za primerjanje. Blokiranje smo nadgradili z vpeljavo referen ne tabele oz. slovarjev, kjer normaliziramo zapise in tako izbolj²amo rezultat primerjalne funkcije. Celotna slika delovanja agenta za konsolidacijo poslovnih partnerjev je prikazana na sliki 8.5. Agent spremlja okolje in ob vnosu podatkov na SAP BW (prenos iz operativnih sistemov) zazna spremembo ter sproºi obdelavo podatkov. Prenosi podatkov na SAP BW se izvajajo na dnevni ravni in samo tiste zapise, nad katerimi je bila narejena sprememba v operativnih sistemih. Tak²ne zapise oz. prenose imenujemo delni prenosi. Arhitekturni prikaz agenta v celotnem procesu prikazuje slika 8.4. V procesu konsolidacije poslovnih partnerjev, najprej izvedemo preizkuse kakovosti podatkov opisane v poglavjih 4.4 in 4.5. Nato primerjamo podatke z referen nimi tabelami (poglavje 7) in po potrebi spremenimo podatke tistim atributom, kjer primerjalna funkcija vrne veliko podobnost nizov. Na primer, zapis v podatkovni bazi A ima rkovalno napako v imenu ulice, to ulico primerjamo z referen no tabelo in dobimo mnoºico (v najbolj²em primeru le eno vrednost) ulic, ki so podobne. ƒe je rezultat primerjalnih funkcij (ve o pragovih in algoritmih v poglavju 6.8) vrne dovolj veliko podobnost, lahko vrednost ulice za asno zamenjamo s vrednostjo iz referen ne tabele

89 8.4: Proces konsolidacije z uporabo agentov 77 SAP ECC delni prenosi SAP BW CRM... agent Izvajanje procesa konsolidacije poslovnih parnerjev Slika 8.4: Prenos delnih podatkov in poloºaj agenta in tako pove amo rezultat primerjalne funkcije, ki se bo izvedla v fazi primerjava podatkov. V fazi blokiranja se izlo ijo nepomembni zapisi. Na primer, e ima poslovni partner shranjeno ime mesta Maribor bomo iskali podobnosti samo med drugimi poslovnimi partnerji, ki imajo enako ime mesta. Z blokiranjem odstranimo druge poslovne partnerje za primerjavo podobnosti in tako pospe²imo delovanje celotnega procesa. Blokiranje po imenu mesta izvajamo z razlogom, saj lahko povezujemo poslovne partnerje le v enem mestu, ker Janez Novak lahko ºivi v Ljubljani, Mariboru, Novem mestu.... ƒe se pojavita dva Janeza Novaka, ki sta doma na Titovi cesti, eden v Mariboru in drugi v Ljubljani, bo primerjalna funkcija vrnila dokaj veliko podobnost, esar pa ne ºelimo saj zapisa predstavljata razli no osebo. Drugi korak v fazi blokiranja je, ko omejimo mnoºico ²e po imenu ulice, saj dva Janeza Novaka lahko ºivita v Mariboru v razli nih ulicah. V velikih koli inah podatkov se pojavijo izredni primeri, kot je npr. tale, dva Janeza Novaka lahko ºivita v isti ulici ampak na razli nih hi²nih ²tevilkah in bo primerjalna funkcija vrnila veliko podobnost. Odlo itev, kaj narediti v tak²nem primeru, prepustimo uporabniku strokovnjaku. Ne glede na na in primerjave med zapisi je potrebna opredelitev, katere lastnosti (atributi) zapisa so klju, po katerem bo dejansko potekala primerjava. Iz tega sledi, da za iskanje dvojnikov ne moremo primerjati le kombinaciji ime in priimek, kot smo prej opisali, saj lahko obstaja ve oseb z enakim imenom in priimkom. Potrebno je raz²iriti niz s naslovom in mestom ter po²tno ²tevilko, a tudi to ni vedno prava re²itev. Tak²ni primeri iskanja dvojnikov so kompleksni in tudi asovno potratni. Iz mnoºice vseh zapisov smo tako dobili le majhen odstotek poslovnih partnerjev katere medsebojno primerjamo. Primerjava deluje na principu kartezijskega produkta - vsak z vsakim (primer na sliki 5.2). Atribute poslovnega partnerja (ime, priimek, ulica, hi²na ²tevilka, po²ta, ime mesta) zdruºimo v en niz, kjer posamezne atribute lo imo s presledki. Z algoritmi za

90 Okolje Podatkovna baza A Podatkovna baza B SAP BW 8.4: Proces konsolidacije z uporabo agentov 78 Zaznavanje okolja Agent Senzor Kakšno je stanje okolja. Obstajajo novi podatki? Kakovost podatkov in primerjava podatkov Vsebinska enakost Povezava med stolpci Blokiranje Izločanje nepomembni zapisov Kakovost podatkov Primerjava Preizkusi kakovosti Oblika in pravilnost podatkov Povezovanje z zunanjimi viri kot je poslovni register Slovenije Primerjava podatkov Primerjava podatkov s primerjalnim algoritmom ter s pomočjo referenčnih tabel in slovarjev Posodobitve in poročila Normalizacija Referenčne tabele, slovarji ulic in mest Poročila Rezultati v obliki poročil Rezultati Potreben pregled uporabnika Tabele kakovosti podatkov Seznam poslovnih partnerjev: ki imajo napačno davčno številko ki imajo napačno ime ulice ki imajo napačno poštno številko ali ime mesta Primerjava zapisov Tabela zapisov ki so označeni kot možna ujemanja Ujemanje zapisov in posodobitve podatkov kjer ni potreben pregled uporabnika Pravne osebe Posodobitev atributov pri pravnih osebah iz poslovnega registra Slovenije Ujemajoči zapisi Akcije Poročila Rezultati integracije oz. konsolidacije v obliki poročil (akcij) Označitev ujemajočih zapisov in označitev dvojnikov Slika 8.5: Celotna slika delovanja agenta za konsolidacijo poslovnih partnerjev primerjanje podobnosti (poglavje 6) izra unamo podobnost med dvema tak²nima nizoma. Vse zapise, ki imajo rezultat ve ji od dolo enega praga (opisanega v poglavju 6.8) ozna imo kot ujemanja in jih shranimo v tabelo Ujemanja. Zapise, ki imajo odstopanje od praga do -0,05% ozna imo kot moºna ujemanja ter rezultate shranimo v tabelo Moºna ujemanja. Vsem zapisom iz tabele ujemanja posodobimo polje BP_CONS na naslednji na in: ˆ ƒe obstaja v obeh nizih zapolnjeno enako polje BP_CONS, potem zaklju imo proces. ˆ V primeru, da je en niz prazen, prepi²emo vrednost iz drugega niza in zaklju imo proces. ˆ ƒe sta vrednosti razli ni, je pri²lo do izjemnega primera in ta zapis ozna imo (ga prepi²emo v tabelo napa na ujemanja). Tak²ne zapise nato pregleda uporabnik

91 8.5: Odstranjevanje dvojnikov 79 in glede na presojo ustrezno ukrepa. Rezultat delovanja agenta so zapolnjena polja za konsolidacijo in dodatne tabele, kjer so shranjeni podatki o poslovnih partnerjih: ˆ Seznam poslovnih partnerjev, ki imajo napa no zapisano dav no ²tevilko. Kot napa ne dav ne ²tevilke smatramo tiste, ki ne ustrezajo pogojem opisanih v poglavju ˆ Seznam poslovnih partnerjev, ki imajo napa no zapisano ulico. ˆ Seznam poslovnih partnerjev, ki imajo napa no zapisano po²tno ²tevilko, ime mesta ali kombinacijo obeh. Tak²ne primere smo opisali v tabelah 7.1 in 7.2. Zapise v zgoraj omenjenih seznamih po²ljemo uporabniku v obliki poro ila. Uporabnik lahko dostopa do teh tabel tudi s pomo jo orodja za izvajanje analiz in poro il v SAP BW-ju (poglavje 3.8.1). Paralelno ²e izvedemo preizkuse kakovosti podatkov (poglavje 4.5) in rezultate shranimo v podatkovno skladi² e. Pred normalizacijo zapisov je primerjalna razdalja vrnila nizko podobnost, po normalizaciji so pa atributi (ulica, po²tna ²tevilka, mesto) enaki in v primeru, da sta imena in priimka zapisov v obeh bazah enaka, vrne primerjalna razdalja popolno enakost. Tak²en primer prikazuje tabela 8.3. Tabela 8.3: Primerjalna funkcija pred in po normalizaciji atributov brez normalizacije Lev Sor JaroW NW QG SWG I. MITJA LAƒEN RIBNI KA UL MARIBOR 0,8205 0,4286 0,9193 0,859 0,6585 0,7436 MITJA LAƒEN RIBI KA ULICA MAIBOR normalizirano Lev Sor JaroW NW QG SWG II. MITJA LAƒEN RIBNI KA ULICA MARIBOR MITJA LAƒEN RIBNI KA ULICA MARIBOR 8.5 Odstranjevanje dvojnikov Normalizacija podatkovnih modelov je ena od klju nih metod za zagotavljanje logi no konsistentnih podatkovnih baz in eden od temeljnih na inov za prepre evanje anomalij v podatkih. še sama po sebi pa prepre uje podvajanje podatkov. Normalizacija v svoji osnovni ideji skrbi za to, da so podatki v podatkovni bazi vedno zapisani tako, da sistemati no zagotavljajo pravilne rezultate poizvedb. To pomeni, da dodajanje, spreminjanje ali brisanje ne povzro a anomalij. Podvajanja podatkov imajo lahko zelo negativne posledice v poslovnem svetu. V primeru, da imamo podvojene podatke o poslovnih partnerjih, npr. enkrat je kupcu

92 8.6: Rezultati konsolidacije 80 dolo en en naslov, drugi drugi, potem imamo teºave izterjati dolg tega kupca, saj ne vemo na kateri naslov poslati opomin. Dodatno dvojniki povzro ijo nepreglednost nad podatki ter podalj²ajo povpra²evanje po bazi. Dvojnikov ne moremo odstraniti, saj ima vsak zapis unikatno ²tevilko poslovnega partnerja, na katero so lahko vezani drugi dokumenti, kot so npr. obveznosti in terjatve. V na²em primeru smo dodali nov stolpec v podatkovni bazi poslovnih partnerjev s imenom BP_CONS, ki predstavlja svoj ²ifrant konsolidiranih poslovnih partnerjev. Ta vrednost predstavlja povezavo do izbranega poslovnega partnerja in jo zapi²emo na vse najdene dvojnike. V tabeli dvojnikov 8.4, v prvem stolpcu je zapisana ²ifra poslovnega partnerja in v zadnjem konsolidirana ²ifra. S sivo barvo ozna ena vrstica je poslovni partner, kamor referenciframo dvojnike. Tabela 8.4: Prikaz dvojnikov ifra PP Naziv Naslov Dav na ²t. BP Kons NOVA KBM D.D. ULICA VITA KRAIGHERJA NOVA KBM D.D. ULICA VITA KRAIGHERJA NOVA KBM D.D. ULICA VITA KRAIGHERJA NOVA KBM D.D. ULICA VITA KRAIGHERJA NOVA KBM D.D. ULICA VITA KRAIGHERJA 4 SI NOVA KBM D.D. ULICA VITA KRAIGHERJA 4 SI PO TA SLOVENIJE D.O.O. SLOM KOV TRG PO TA SLOVENIJE D.O.O. SLOM KOV TRG PO TA SLOVENIJE D.O.O. SLOM KOV TRG 10 SI PO TA SLOVENIJE D.O.O. SLOM KOV TRG 10 SI Po analizi in ozna itvi dvojnikov lahko vse ostale reference popravimo na novega poslovnega partnerja, e je to moºno in poslovni proces to dovoljuje. 8.6 Rezultati konsolidacije Pri procesu konsolidacije smo naredili u no mnoºico podatkov za zi ne osebe, ki ºivijo v Mariboru. Tak²nih oseb je bilo v podatkovni bazi A in v podatkovni bazi B. Najprej smo izlo ili iz podatkovne baze A vse tiste zapise, ki imajo dav no ²tevilko zapisano vsaj v enem zapisu v podatkovni bazi B in tiste, ki imajo vse podatke (ime, priimek, ulica, hi²na ²tevilka ter mesto) enake v obeh podatkovnih bazah. Tako smo uparili in izlo ili iz podatkovne baze A zapisov. Preostale smo primerjali s funkcijami za primerjanje nizov, ki so opisane v poglavju 6. Proces je dolgotrajen zaradi asovne zahtevnosti posamezne funkcije in tako smo to delali po kosih glede na normalizirano ulico, kjer poslovni partner prebiva. Skupaj smo lahko uparili 76% podatkov iz podatkovne baze A. Ostalih 24% zapisov pa smo razdelili v kategorije: ˆ V istem gospodinjstvu je lahko moº zapisan v podatkovni bazi A in ºena v podatkovni bazi B. Primerjalna funkcija vrne podobnost med nizoma, a vseeno tak²na

93 8.7: Dodatno raziskovanje 81 zapisa ne moremo upariti. Izmed preostalih zapisov je tak²nih 10%. ˆ Poslovni uporabniki, ki so zapisani samo v podatkovni bazi B. Tak²nih je 13%. ˆ Neveljavni uporabniki so tisti, ki nimajo enega ali ve klju nih podatkov. To so tudi uporabniki z ve rkovalnimi napakami, ki jih primerjalne funkcije ne morejo upariti. Tak²nih je 1%. Izdelali smo agenta, ki uspe²no poi² e pare v podatkovnih bazah, po opisani metodi, ter izvaja celoten proces konsolidacije avtonomno v tem okolju in tako realizira mnoºico ciljev ali nalog za katere je bil narejen. Za referenco smo uporabili preprosto primerjavo, kjer smo primerjali atribute v zapisih iz ene podatkovne baze, z atributi v zapisih iz druge podatkovne baze. Primerjava je potekala na principu: IF (A.ime = B.ime) AND (A.priimek = B.priimek ) AND (A.ulica = B.ulica ) AND (A.hisna_²tevilka = B.hisna_²tevilka ) AND... THEN zapisa sta enaka ELSE zapisa sta razli na Z tak²no preprosto primerjavo podatkov smo lahko uspe²no uparili le 62% zapisov. Z primerjalnimi funkcijami omenjenimi v poglavju 6, procesom povezovanja podatkov (poglavje 5) ter procesom konsolidacije (poglavje 8), pa smo pri²li do rezultata 76%. Glede na velikost in raznolikost podatkovnih baz A in B, je tak rezultat izpolnil na²a pri akovanja. 8.7 Dodatno raziskovanje Integracija podatkov je ²iroko podro je in tako smo v asu implementacije re²itve na²li alternativne pristope, moºne dopolnitve in izbolj²ave pri re²evanju problematike: Referen na integriteta Referen ne integritete je lastnost podatkov, ki zagotavlja pravilne relacije med razli nimi podatki in velja, da vsaka vrednost enega atributa v tabeli obstaja kot vrednost atributa v drugi tabeli [1]. Tak²en proces se izvede po normalizaciji podatkov (poglavje 5.1), kjer lahko ²e dodatno preverimo vsebinske zapise ali njihove vrednosti obstajajo v referen nih slovarjih.

94 8.7: Dodatno raziskovanje 82 Vizualizacija podatkov Vizualizacija podatkov je ²tudija vizualne predstavitve podatkov, kar pomeni, da prikaºemo informacije v pregledni obliki, kot so razli ne oblike grakonov, grafov, map, dreves.... Orodje in okolje za vizualni prikaz podaktov je SAP Web Analyzer (poglavje 3.5). Lo ljivost identitete Lo ljivost identite je inteligentni proces, s katerim lahko poveºemo ve razli nih virov podatkov, da bi na²li ujemajo e zapise, hkrati pa tudi ne tako o itne zapise iz razli nih virov. S tem procesom analiziramo vse informacije, ki se navezujejo na npr. posameznika in/ali entiteto iz razli nih virov. Ontologija Podroben opis v poglavju Integracija podatkov na osnovi ontologij Integracija podatkov na osnovi ontologij (angl. Ontology-based data integration) vklju- uje uporabo ontologije za u inkovito zdruºitev podatkov ali informacij iz raznovrstnih virov [55]. Osrednji sistem za integracijo podatkov ima po navadi globalno shemo, ki omogo a uporabniku enoten vmesnik za dostop do informacij shranjeni v podatkovnih virih. Druga razli ica sistem vsak z vsakim (angl. peer to peer), kje ne obstajajo globalne nadzorne to ke o virih podatkov ali odjemalcev (angl. peer). Namesto tega lahko vsak odjemalec prejme poizvedbe za informacije, ki so porazdeljene v celotnem sistemu [6]. Dve najpomembnej²a pristopa k izgradnji sistema za integracijo podatkov sta GAV (angl. Global-as-View) in LAV (angl. Local-as-View). V GAV pristopu, je vsaka entiteta v globalni shemi povezana s pogledom (angl. view) v lokalno shemo. Tak²no poizvedovanje je preprostej²e, vendar razvoj lokalnih shem je teºje vzdrºevati oz. podpreti. Pristop LAV omogo a spreminjanje izvorne sheme, ne da bi vplivali na globalno shemo. Lokalne sheme so denirane kot pogledi glede na globalno shemo. Tak²no poizvedovanje je bolj zapleteno. Ontologije se v veliki meri uporabljajo za predstavitev domene znanja, saj hranijo semanti no znanje za posebno domeno. Ontologije se uporabljajo za standardizacijo in koncept podatkov s pomo jo strojno razumljivo ontologijskih jezikov. Na primer globalna shema v integraciji podatkov je lahko ontologija, ki nato deluje kot posrednik za uskladitev raznovrstnih podatkov med razli nimi viri. Kot primer uporabe ontologij med razli nimi odjemalci, kjer komunikacija poteka vsak z vsakim, lahko pripravimo

95 8.7: Dodatno raziskovanje 83 lokalno ontologijo za vsakega posameznika. Tak²ne ontologije so dostopne drugim odjemalcem z razlogom medsebojnega semanti nega povezovanja [6]. Ontologije v veliki meri uporabljamo v sistemih integracije podatkov, saj zagotavljajo jasno (strojno razumljivo) konceptualno domeno. Ontologije lahko uporabljamo na tri na ine [6, 55]: Pristop z eno ontologijo Ena sama ontologija se uporablja kot globalni referen ni model v sistemu. Vse izvorne sheme so neposredno povezane z globalno ontologijo, ki zagotavlja enoten vmesnik za uporabnika oz. odjemalca [5]. Vendar ta pristop zahteva, da imajo vsi viri enak pogled na domeno in z enako stopnjo zrnatosti. Pristop z ve ontologijami Vsak vir podatkov je opisan s svojo (lokalno) ontologijo. Namesto, da bi uporabljali eno skupno ontologijo, so lokalne ontologije medsebojno povezane. V ta namen je treba denirati pravila, ki dolo i preslikave med ontologijami. Hibridni pristop Uporablja se kombinacija prej²njih dveh pristopov. Najprej se zgradi lokalna ontologija za vsak podatkovni vir (shemo), ki ni povezana z drugimi lokalnimi ontologijami, ampak globalno ontologijo. Nove vire je mogo e zlahka dodati brez sprememb obstoje ih preslikav. Globalna ontologija Globalna ontologija Lokalna ontologija Lokalna ontologija Lokalna ontologija Lokalna ontologija Lokalna ontologija Lokalna ontologija Vir Vir Vir Vir Vir Vir Vir Vir Vir Pristop z eno ontologijo Pristop z več ontologijami Hibridni pristop Slika 8.6: Uporaba ontologij v integraciji podatkov Ontologije v integraciji podatkov se lahko uporabljajo na slede e na ine [6, 57, 55]: Metapodatkovni opis Shema podatkovnega vira z metapodatki opisuje podatkovne vire, kjer so opisani elementi, atributi, relacije, itd. Heterogen sistem uporablja metapodatkovni opis za ustrezen opis vira za komunikacijo vsakega z vsakim (angl. peer to peer). Podatkovne vire tako sintakti no homogeniziramo.

96 8.7: Dodatno raziskovanje 84 Globalni koncept Globalna ontologija zagotavlja celoten pogled na raznovrstne sheme virov. Podpora za visoko nivojske poizvedbe Uporabnik lahko oblikuje poizvedbo, brez podrobnega poznavanja razli nih virov podatkov. Poizvedba se nato pretvori v ve manj²ih poizvedb na podlagi semanti nih preslikav med globalnimi in lokalnimi ontologijami. Podpora preslikavi Uporabimo lahko slovar, ki je oblikovan glede na ontologijo, ki se uporablja za proces preslikave.

97 Poglavje 9 Zaklju ek Zakaj povezujemo podatke: ˆ Pridobivanje dodatnih informacije. ˆ Dopolnitev manjkajo ih podatkov. ˆ Za re²evanje kompleksnih raziskovalnih vpra²anj. ˆ Zaradi preverjanja to nost in zanesljivost podatkov. ˆ Za izbolj²anje kakovosti raziskovanja (iskanje informacij v podatkih). V organizacijah se vedno odlo amo na osnovi informacij. Informacije in informacijski procesi so nujen pogoj za dobro upravljanje in vodenje podjetja, ter za dobro odlo anje. Odlo anje in ukrepanje je potrebno na vseh ravneh upravljanja ter vodenja. Jedro sistemov za podporo odlo anju je podatkovno skladi² e, ki vsebuje pre i² ene, integrirane in zgodovinske podatke o celotnem poslovanju podjetja. Podatki predstavljajo enega najpomembnej²ih virov v vsaki organizaciji, ki ga je potrebno obravnavati in upravljati nadvse pazljivo. Zato morajo biti podatki dostopni takrat, ko jih potrebujejo vodje in v obliki, v kakr²ni jim bodo najbolj koristili. V tem delu smo predstavili na ine povezovanja podatkov in iskanja dvojnikov z integriranjem dveh podatkovnih virov z zelo malo uporabni²kih posegov. Iz vidika avtomatske obdelave podatkov, bi bilo najbolje, da bi bili podatki kar najbolj podobno opisani in konsistentno razvr² eni. V realnem svetu pa je to seveda nemogo e, zato je potrebno ugotoviti, kje prihaja do razlik, kak²ne so te razlike in kako lahko te podatke zdruºimo. Namen agenta in modela za zagotavljanje kakovosti podatkov je vzpostaviti sistemati en na in za izbolj²anje in ohranjanje kakovosti podatkov, ne glede na to, v kak²ni podatkovni bazi se podatki nahajajo. Prav zato morajo biti modeli toliko splo²ni, da 85

98 86 jih je moºno uporabiti na raznolikih primerih. Za vse modele velja temeljno pravilo vstopajo ih in izstopajo ih podatkov: Garbage in - Garbage out 1, ki poudarja bistven pomen kakovosti podatkov ºe na vhodu v podatkovno bazo. V majhnih podjetjih, kjer se uporabljajo razmeroma majhne in preproste zbirke podatkov, se kakovost podatkov lahko neformalno zagotavlja s preprosto obdelavo. V kompleksnej²ih okoljih pa je potrebno pripraviti sistemati ni na rt izvedbe procesa za zagotavljanje kakovosti podatkov. Enkratna vzpostavitev kakovosti podatkov sama po sebi ²e ne zagotavlja, da bo kakovost podatkov ostala na visoki ravni tudi v prihodnje. Zato je smiselno vzpostaviti pravila in mehanizem, ki bo prepre eval vnos nekakovostnih podatkov, samo kakovost pa nato periodi no preverjati. Nadaljnji razvoj bo vklju eval ²e uporabni²kega agenta, ki bo na rezultat opisanega inteligentnega agenta, uporabnika opozoril o rezultatu ter omogo al prejemanje ukaza od uporabnika o nadaljnjih akcijah. Ukaz bo vseboval navodilo kaj storiti v primeru ujemanja oz. neujemanja podatkov. V ta uporabni²ki agent nameravamo vklju iti ²e beleºenje povratne informacije, da bo lahko agent sam odlo il (glede na prej²nje odlo itve uporabnika) kaj narediti pri integraciji in odstranjevanju dvojnikov. 1 Na spletnem naslovu

99 Literatura [1] About.com. Referential integrity. administration/g/refintegrity.htm. [Dostop ]. [2] S. Adelman and L.T. Moss. Data warehouse project management. Number let. 1 in Addison-Wesley information technology series. Addison-Wesley, [3] L. Babnik. Opredelitev predloga implementacije podatkovno-informacijskega skladi² a v Banki Slovenije [4] Jose C. Brustoloni. Autonomous agents: Characterization and requirements, [5] Isabel F. Cruz and Huiyong Xiao. Using a layered approach for interoperability on the semantic web. In WISE, pages IEEE Computer Society, [6] Isabel F. Cruz and Huiyong Xiao. The role of ontologies in data integration. JOURNAL OF ENGINEERING INTELLIGENT SYSTEMS, 13:245252, [7] Po²ta Slovenije d.o.o. Po²tne ²tevilke. postne-stevilke-doma, [Dostop ]. [8] DURS. Dav na ²tevilka - splo²no. vpis_v_davcni_register_in_davcna_stevilka/vpis_v_davcni_register_ in_davcna_stevilka_pojasnila/davcna_stevilka_splosno/, [Dostop ]. [9] N. Egger. Sap Bw Professional. SAP Press, [10] N. Egger, J.M.R. Fiechter, S. Kramer, R.P. Sawicki, P. Straub, and S. Weber. SAP Business Intelligence. SAP Press. Galileo Press, [11] L.P. English. Improving data warehouse and business information quality: methods for reducing costs and increasing prots. Wiley,

100 LITERATURA 88 [12] M.J. Eppler. Managing information quality: increasing the value of information in knowledge-intensive products and processes. Managing information quality. Springer, [13] Michael Farrar. Striped smithwaterman speeds database searches six times over other simd implementations. Bioinformatics, 23:156161, January [14] Jacques Ferber. Multi-Agent Systems: An Introduction to Distributed Articial Intelligence. Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA, [15] Stan Franklin and Art Graesser. Is it an agent, or just a program?: A taxonomy for autonomous agents. In ECAI '96: Proceedings of the Workshop on Intelligent Agents III, Agent Theories, Architectures, and Languages, pages 2135, London, UK, Springer-Verlag. [16] James Freeman-Hargis. Rule-based systems and identication trees: Introduction to rule-based systems. Website, rulebased.html. [17] H. Fu and B. Fu. SAP BW: a step-by-step guide. Addison-Wesley Information Technology Series. Addison-Wesley, [18] Brumen B. Golob I., Welzer T. Podatkovno skladi² enje, [Dostop ]. [19] Welzer T. Golob I. Arhitekture podatkovnih skladi². drustvo-informatika.si/fileadmin/dsi2001/sekcija_a/golob_welzer. doc, april [20] O. Gotoh. An improved algorithm for matching biological sequences. Journal of molecular biology, 162(3):705708, December [21] Luis Gravano, Panagiotis G. Ipeirotis, H. V. Jagadish, Nick Koudas, S. Muthukrishnan, Lauri Pietarinen, and Divesh Srivastava. Using q-grams in a dbms for approximate string processing, [22] Larry Greeneld. A denition of data warehousing. org/defined.html, [Dostop ]. [23] Barbara Hayes-Roth. An architecture for adaptive intelligent systems. Articial Intelligence: Special Issue on Agents and Interactivity, 72(1-2):329365, 1995.

101 LITERATURA 89 [24] SAP Help. Sap business information warehouse. nw04/helpdata/en/e3/e60138fede083de b38f8cf/frameset.htm, [Dostop ]. [25] Thomas N. Herzog, Fritz J. Scheuren, and William E. Winkler. Data Quality and Record Linkage Techniques. Springer, 1 edition, May [26] K.T. Huang, Y.W. Lee, and R.Y. Wang. Quality information and knowledge. Prentice Hall PTR, [27] W.H. Inmon. Building the data warehouse. John Wiley & Sons, [28] Jurij Jakli. Upravljanje in uporaba podatkovnih virov. Ljubljana: Ekonomska fakulteta., [29] Matthew A. Jaro. Advances in Record-Linkage Methodology as Applied to Matching the 1985 Census of Tampa, Florida. Journal of the American Statistical Association, 84(406):414420, [30] N. Jennings, N.R. Jennings, and M.J. Wooldridge. Agent technology: foundations, applications, and markets. Springer, [31] P. Jones. SAP Business Information Warehouse Reporting: Building Better BI with SAP BI 7.0. Essential BI skills for business professionals. McGraw-Hill, [32] Henry A. Kautz, Bart Selman, and Michael Coen. Bottom-up design of software agents. Commun. ACM, 37(7):143146, [33] Berce Janez Kel²in Drago, Zorman Maja. Holisti ni pristop k izgradnji podatkovnega skladi² a in implementacija. dogodki/arhiv/dsi2001/sekcija_d/kelsin_zorman_berce.doc, april [Dostop ]. [34] A. Khan. SAP and BW Data Warehousing: How to Plan and Implement. Khan Consulting and Publishing, LLC, [35] Ralph Kimball and Margy Ross. The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling. John Wiley & Sons, Inc., New York, NY, USA, 2nd edition, [36] VI Levenshtein. Binary Codes Capable of Correcting Deletions, Insertions and Reversals. Soviet Physics Doklady, 10:707, 1966.

102 LITERATURA 90 [37] D. Loshin. Master data management. The MK/OMG Press. Elsevier/Morgan Kaufmann, [38] Pattie Maes. Agents that reduce work and information overload. Commun. ACM, 37(7):3040, [39] Pattie Maes. Articial life meets entertainment: lifelike autonomous agents. Commun. ACM, 38(11):108114, [40] Jasna Marolt mid. Abc skladi² enja podatkov in poslovnega obve² anja. http: // [Dostop ]. [41] R.C. Moore. A formal theory of knowledge and action. In J.R. Hobbs and R.C. Moore, editors, Formal Theories of the Commonsense World, pages Ablex, Norwood, NJ., [42] Ulrike Mückstein. A Variation on Algorithms for Pairwise Global Alignments. Master's thesis, Institut für theoretische Chemie, Währingerstr, September [43] M Murguía and J L Villasenor. Estimating the eect of the similarity coecient and the cluster algorithm on biogeographic classications. Annales Botanici Fennici, 40(6):415421, [44] S. B. Needleman and C. D. Wunsch. A general method applicable to the search for similarities in the amino acid sequence of two proteins. Journal of molecular biology, 48(3):443453, March [45] H. S. Nwana. Software agents: An overview. Knowledge Engineering Review, 11(2):205244, [46] Mesta ob ina Maribor. Seznam ulic po mestni etrti in krajevnih skupnostih [Dostop ]. [47] J.E. Olson. Data quality: the accuracy dimension. The Morgan Kaufmann Series in Data Management Systems. Morgan Kaufmann, [48] Poslovni register Slovenije. Spletni servis wsprsinfo. registri/poslovni_register/ponovna_uporaba/wsprsinfo, [Dostop ]. [49] Stuart J. Russell, Peter Norvig, John F. Candy, Jitendra M. Malik, and Douglas D. Edwards. Articial intelligence: a modern approach. Prentice-Hall, Inc., Upper Saddle River, NJ, USA, 1996.

103 LITERATURA 91 [50] SAP NetWeaver: A Complete Platform for Large-Scale Business Intelligence. Technical report, Winter Corporation, May [51] David Caneld Smith, Allen Cypher, and Jim Spohrer. Kidsim: programming agents without a programming language. Commun. ACM, 37(7):5467, [52] T. F. Smith and M. S. Waterman. Identication of common molecular subsequences. Journal of molecular biology, 147(1):195197, March [53] T. Sørensen. A method of establishing groups of equal amplitude in plant sociology based on similarity of species and its application to analyses of the vegetation on Danish commons. Biol. Skr., 5:134, [54] Sankar Virdhagriswaran, Damian Osisek, and Pat O'Connor. Standardizing agent technology. StandardView, 3(3):96101, [55] H. Wache, T. Vögele, U. Visser, H. Stuckenschmidt, G. Schuster, H. Neumann, and S. Hübner. Ontology-based integration of information - a survey of existing approaches. pages , [56] Gerhard Weiss, editor. Multiagent systems: a modern approach to distributed articial intelligence. MIT Press, Cambridge, MA, USA, [57] Wikipedia. Ontology-based data integration. Ontology_based_data_integration. [Dostop ]. [58] Wikipedia. Sorensen similarity index. B8rensen_similarity_index. [Dostop ]. [59] Wikipedia. Jarowinkler distance. 80%93Winkler_distance, [Dostop ]. [60] Wikipedia. Levenshtein distance. Levenshtein_distance, [Dostop ]. [61] William E. Winkler. String comparator metrics and enhanced decision rules in the fellegi-sunter model of record linkage. In Proceedings of the Section on Survey Research, pages , [62] Ian H. Witten and Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, 2 edition, 2005.

104 LITERATURA 92 [63] Michael Wooldridge and Nicholas R. Jennings. Agent theories, architectures, and languages: a survey. In ECAI-94: Proceedings of the workshop on agent theories, architectures, and languages on Intelligent agents, pages 139, New York, NY, USA, Springer-Verlag New York, Inc. [64] Michael Woolridge and Michael J. Wooldridge. Introduction to Multiagent Systems. John Wiley & Sons, Inc., New York, NY, USA, 2001.

105

106

HANA kot pospeševalec poslovne rasti. Miha Blokar, Igor Kavčič Brdo,

HANA kot pospeševalec poslovne rasti Miha Blokar, Igor Kavčič Brdo, 11.06.2014 Kaj je HANA? pomlad 2010 Bol na Braču, apartma za 4 osebe poletje 2014 2014 SAP AG or an SAP affiliate company. All rights