Estudi de l’entorn WAP i desenvolupament d’un analitzador de crides WAP
Motivació: Aprofitar els entorns de BD de Synera preparats per Data Mining en l’entorn de la telefonia mòbil.
Problema i oportunitat
* Generació de molt tràfic WAP però les operadores i empreses proveïdores en desconeixen les pautes d´ús.
* Cada operadora té la seva solució, incompatibles entre sí i no genèriques.
* Les solucions desenvolupades no permeten un anàlisi gaire complex: es perd informació valuosa tan de tràfic com de clients.
Objectius
* Permeti analitzar, el més ràpid possible, logs de diferent format i/o generats per diferents WAP Gateways.
* Aporti valor afegit a les operadores:
+ Generant anàlisi més complexos que donin ràpidament resposta a les seves preguntes.
+ Facilitant l’extracció de coneixement, generant una BD que homogeneïtzi la informació que s’amaga en gigues de logs.
* Multiplataforma i extensible.
* Genèric i parametritzable al màxim.
* Objectiu específic: Fer l’anàlisi i desenvolupament necessaris per resoldre el problema amb el sistema Synera.
1. Projecte Final de Carrera
Estudi de l’entorn WAP i desenvolupament
d’un analitzador de crides WAP
Alumna: Laura Roch i Ciurana.
Director: Ramon Sangüesa i Solé.
Data: 30 de gener de 2.002.
3. Índex
Introducció.
• Motivació.
• Problema i oportunitat.
• Objectius.
• Entorn tecnològic.
Funcionalitat i arquitectura de WLA.
Valoració de WLA.
Demostració.
Conclusions i treballs futurs.
4. Motivació
Aprofitar els
entorns de BD de
Synera preparats
per Data Mining
en l’entorn de la
telefonia mòbil.
Synera
WLA
MR
Quines fases d’un
projecte DM
s’engloben?
5. Problema i oportunitat
Cada operadora té la seva solució,
incompatibles entre sí i no genèriques.
Les solucions desenvolupades no
permeten un anàlisi gaire complex: es
perd informació valuosa tan de tràfic com
de clients.
Generació de molt tràfic WAP però les
operadores i empreses proveïdores en
desconeixen les pautes d´ús.
6. Objectius
Aporti valor afegit a les operadores:
• Generant anàlisi més complexos que donin
ràpidament resposta a les seves preguntes.
• Facilitant l’extracció de coneixement,
generant una BD que homogeneïtzi la
informació que s’amaga en gigues de logs.
Permeti analitzar, el més ràpid possible,
logs de diferent format i/o generats per
diferents WAP Gateways.
7. Objectius
Genèric i parametritzable al màxim.
Objectiu específic: Fer l’anàlisi i
desenvolupament necessaris per resoldre
el problema amb el sistema Synera.
Multiplataforma i extensible.
JAVA
9. Entorn tecnològic
Servidor Web
WAP Gateway
Accés Remot
Dispositiu
WAP
Usuari
WAP
Operadora com
a proveïdor de
continguts
Internet
Components bàsics del sistema WAP.
Arquitectures WAP existents:
• Sol. Operadora
WTLS
HTTPS
10. Entorn tecnològic
Components bàsics del sistema WAP
Arquitectures WAP existents
• Sol. Operadora
• Sol. Proveïdor
Servidor Web
WAP Gateway
Accés
Remot
Dispositiu
WAP
Usuari
WAP Operador
Proveïdor de
continguts
Internet
WTLS
HTTPS
12. Índex
Introducció.
Funcionalitat i arquitectura de WLA.
• Tasques realitzades.
• Visió general del sistema.
• Arquitectura.
Valoració de WLA.
Demostració.
Conclusions i treballs futurs.
13. Tasques realitzades
Conèixer l’entorn WAP.
Conèixer Synera.
Dades en brut ⇒ Conversió per DM.
Definir necessitats de les operadores i
empreses proveïdores de serveis WAP.
Definir com donar una solució ràpida a
aquestes necessitats, que faciliti la presa
de decisions.
14. Entorn WAP
WAP (Wireless Application Protocol) és un
protocol d’aplicacions que permet accedir,
des de qualsevol dispositiu mòbil, a
Internet.
La versió de WAP sobre la que es basa
WLA és la 1.2.
15. Entorn WAP
• Pull.
• Push Submission.
• Push Delivery.
Model Web ≡ Model pull
Operacions bàsiques:
16. Entorn WAP
Conceptes de connexió i sessió:
• WAP.
Connexió: Contexte de comunicació que s’inicia a l’establir la
trucada a l’operador i finalitza al penjar.
Sessió: Contexte de comunicació establert entre el dispositiu i
el servidor WAP per realitzar les transaccions i transferències
de dades. Les sessions de pull són diferents a les de push.
• UMTS. Connexió ≡ Sessió: Contexte de comunicació
que s’inicia a l’engegar el dispositiu i acaba al tancar-lo.
• WLA.
Connexió: Conjunt de pàgines que un usuari veu d’una tacada.
Sessió: Conjunt de pàgines d’un mateix site que un usuari veu
d’una tacada dintre d’una mateixa connexió.
17. Entorn WAP
Quins WAP Gateways soportarà WLA?
• Versió d’avaluació dels quatre 1ers WAP
Gateways ⇒ Ericsson (1.2) i Nokia (1.2).
• Versió d’avaluació d’altres ⇒ WAPLite (<1.2, no
push), Audicode (<1.1, no 1er nivell WTLS) i
Kannel (<1.2, no push).
• WLA soportarà els logs generats per Ericsson
Operator 3.0 i Nokia Activ Server 2.0.
18. Entorn WAP
Records exemple de pull dels WAP
Gateways escollits.
WAP
Gateway
Format
del log
Record exemple
Ericsson XML <STATREC1><S1>WGP</S1><S2>0</S2><S4 TYPE="USERID"></S4><S5>
http://www.wapamente.com/buscador/separador.wbmp</S5><S6>0</S6><S7>24</S7><S8
>20010330132112 </S8></STATREC1>
Nokia text 20010320 151452010 | 5 | WSP_Transaction=1;ackstatus=4;userid=0;authtype=0;
client=127.0.0.1:1095;server=UDP:9200;sec=0;method=GET;url=http://www.wanadoo.com;
reqsize=71+0;httpstatus=200;wspstatus=32;respsize=121+84;servicedata="";processtime=
10+30+20830+1432+0+80=22382
WAPLite text 127.0.0.1 - [26/Mar/2001:16:00:48 +0200] "GET http://ad.247sverige.se/wap" 200 220 ""
"Nokia-WAP-Toolkit/2.1"
Audicode text 127.0.0.1:1137 – unknown [26/03/2001:16:41:47] "GET
http://tagtag.com/sites/r/o/n/rond/1.php3 WAP/1.0" 200 824 "Nokia-WAP-Toolkit/2.1"
Kannel text 2001-03-23 15:42:47 [9] INFO: WSP: Fetched <http://www.wap.com/news2-1.wml>
(text/vnd.wap.wml, charset='')
19. Synera
BD analítica que implementa el Integrated
Value Model, és a dir, basada en el valor.
BC
synera
SF
TCP/ IP
Servidor
TCP/ IP
TCP/ IP
TCP/ IP
TCP/ IP
Arquitectura client/servidor.
20. Synera
Estructura de BD que facilita el DM
• Visió vertical de les dades (taula de freq,
estadístiques, ...).
• Indexació completa per tots els atributs.
• Navegació automàtica.
• Categorització.
21. Synera
Tècniques de DM que implementa Synera:
• Estadística descriptiva (no és una tec. de DM).
• Classificació (tec. supervisada, predictiva i
descriptiva).
• Regles d’associació (tec. no supervisada i
descriptiva).
• Clustering (tec. no supervisada i descriptiva).
• Categorització automàtica de columnes numériques
(tec. no supervisada i descriptiva).
22. Generar dades per Data Mining
Definir un log genèric a partir de:
• L’especificació 1.2 de WAP.
• Camps dels logs generats pels diferents WAP Gateways.
Parsejar els logs
• Escollir APIs i/o pasers d’XML i ASN.1 eficients.
XERCES i JAXP com a APIs SAX d’XML.
OSS ASN.1 com a parser que genera stubs d’ASN.1 per regles de codificació
BER (no gratuït).
• Finalment, WLA suportarà els logs XML generats per Ericsson Operator
3.0 i els logs generats per Nokia Activ Server 2.0.
• Definir el mapeig dels camps reals als camps genèrics.
Definir com preparar les dades per DM i com carregar-les a la BD.
23. Necessitats d’informació
Definir les necessitats d’informació de les
operadores i empreses proveïdores de
serveis i/o continguts:
• Informació de tràfic
• Informació de recursos accedits (sites)
• Informació específica de site (pàgs, clients, ...)
• Informació específica de Push Iniciator.
24. Resposta a aquestes necessitats
WLA ha de donar una solució ràpida i que
faciliti la presa de decisions
• Generant agregats/sumaris que cobreixin les
necessitats d’informació anteriors.
Actuate
• Necessitat d’acoblar un Mòdul de Reporting
Un report és un informe normalment en mode gràfic
Recomanacions per desenvolupar el Mòdul de
Reporting
Desenvolupament propi vs utilització eines
Actuate vs Crystal Reports
25. Visió general del sistema
Funcionalitat bàsica de WLA.
.asn
.xml
.txt
.log
WLA
Ericsson
Nokia
Altres
...
BD
Mòdul de
Reporting
Procés d’extracció
del coneixement
CONEIXEMENT
26. Visió general del sistema
Driver: Mòdul de WLA que converteix un log real d’un
WAP Gateway al log genèric.
Log genèric: Abstracció dels camps d’un log amb
operacions WAP de manera que qualsevol log real es pot
convertir en un log genèric sense perdre informació
important. S’ha definit per tal d’uniformitzar la informació
heterogènia que ens pot arribar de diferents logs.
Extra Field: Camp d’un log real que no s’inclou en la
definició del log genèric o que es vol carregar a la BD en
un format diferent.
27. Visió general del sistema
Agregat/Sumari: Informació derivada/calculada de les
dades del log genèric.
Internal Site: Sites interns de l’empresa client dels que es
vol fer un seguiment especial.
External Site: És qualsevol site que no és internal site i
que es referencia des d’una internal site.
Section: És un grup de fitxers que es troben en un
subdirectori d’una URL que pertany a un internal site.
29. Arquitectura de WLA
Característiques remarcables:
• Implementació d’un buffer circular de volum configurable per
l’usuari.
• El sistema carregador és multifil.
Un fil llegeix record a record els logs, a través del driver
corresponent, deixant-los al buffer circular.
L’altre agafa del buffer circular un a un els records i els tracta.
• El sistema carregador connexionitza i sessionitza.
• Dos perfils d’usuari ambdòs experts en WAP i en la
configuració del WAP Gateway que ha generat els logs a
analitzar. Aquests dos perfils són:
Novell: Usarà la GUI.
Expert: Usarà el shell.
30. Índex
Introducció.
Funcionalitat i arquitectura de WLA.
Valoració de WLA.
• Proves de rendiment.
• Planificació inicial vs final.
• Anàlisi econòmica.
Demostració.
Conclusions i treballs futurs.
31. Proves de rendiment
Entorn experimental:
• Petita navegació a través d’emuladors per generar
petits logs reals.
• Implementació del Log Generator per, a partir de
petits logs reals, generar logs més grans.
• Plataforma: W’2000.
Temps calculats: Processant log - Ordenant,
tractant i salvant log genèric - Salvant agregats -
Carregant a Synera - Total.
32. Proves de rendiment
Un dels test de rendiment realitzats:
Temps en segons
Proves Mb Processant
logs
Ordenar,
tractar i salvar
Salvant
Agregats
Carregant
a synera
Total
Mb/h
Inicial text
Nokia
15 20 20 2 80 122 442,623
Inicial GRAN
text Nokia
141 150 150 2 420 722 703,0471
1 mes (27/06)
text Nokia
87 143 144 1 315 603 519,403
6 mesos (27/6)
text Nokia
522 720 1080 4 2310 4114 456,7817
12 mesos
(29/6) text
Nokia
1054 8280 458,2609
2 mesos (5/07)
XML Ericsson
27 44 43 0 150 237 410,1266
4 mesos (5/07)
XML Ericsson
63 100 110 0 220 430 527,4419
33. Planificació inicial vs final
Planificació inicial: 26/02/01 ⇒ 30/10/01.
Planificació final : 26/02/01 ⇒ 30/01/02.
34. Planificació inicial vs final
Hi ha una desviació de 75 dies (≈ un terç).
• Aparició de la fase de presentació (12’4 dies)
• Descobriment durant la fase d’anàlisi de la
complexitat de generar logs reals ⇒
necessitat d’implementar Log Generator (10
dies).
• Allargament de la fase de desenvolupament
(53 dies).
35. Anàlisi econòmica
Cost de desenvolupament.
Pessetes Euros
Matrícula 60.248 362,10
3 exemplars de la memòria 6.390 38,40
1 exemplar 2.000 12,02
1 CD 130 0,78
Desenvolupament 3.782.389 22.732,62
Cap de Projecte (3.042 pts/h) 804.071 4.832,56
Analista (2.378 pts/h) 1.122.566 6.318,35
Programador (1.770 pts/h) 1.550.442 9.318,35
Tester (1.383 pts/h) 243.363 1.462,64
Dissenyador (1.936 pts/h) 61.947 372,31
COST TOTAL 3.849.027 23.133,12
36. Índex
Introducció.
Funcionalitat i arquitectura de WLA.
Valoració de WLA.
Demostració.
• Comentaris previs.
• Enregistraments disponibles.
Conclusions i treballs futurs.
37. Comentaris previs
La demontració mostrarà la part visible
per l’usuari (la GUI i la BC Synera), el
gruix del procés de WLA és al Loader.
Els fitxers de configuració (.ini).
• Són autocontinguts (incorporen help).
• N’hi ha de dos tipus: comuns i opcionals.
El log XML a analitzar conté la navegació de
tres usuaris pel site WAP d’Amena.
38. Enregistraments disponibles
Creació d’una BC Synera.
Execució des del shell de W2000.
Ús de la GUI:
• Configuració dels fitxers comuns.
• Configuració dels fitxers opcionals.
• Execució.
40. Conclusions
Permet analitzar ràpidament logs de diferent format i/o
generats per diferents WAP Gateways ⇒ Compatible
amb els diversos WAP Gateways existents al mercat.
Facilita l’anàlisi d’informació derivada de l’Internet mòbil:
• Permetent la obtenció d’informació valuosa de manera ràpida.
• Facilitant l’extracció de coneixement generant una BC Synera
que homogeneïtza la informació que s’amaga a gigues de logs.
Multiplataforma (s’usa Java) i extensible (drivers pròpis).
Genèric i parametritzable al màxim.
Usa el sistema Synera (objectiu específic).
41. Treballs futurs
Acoblar un Mòdul de Reporting.
WLA independent de la BD.
Proporcionar més drivers.
Suport d’anàlisi de logs Web.
Internacionalització. Actualment s’ofereix
només en anglès.
42.
43. Annexes
Evolució de la xarxa cel·lular.
Versions WAP.
Principals WAP Gateway.
APIs i/o parsers d’XML i ASN.1.
Eines pel Mòdul de Reporting.
Especificació.
Establiment preu de mercat.
44. Evolució de la xarxa cel·lular
Dades de meitat de 2.001.
45. Versions WAP
Fins a meitat del 2.001.
Versió Funcionalitats Escales de temps
0.9 La versió pre-WAP basada en HDML (propietat de
Unwired Planet) i convenient al protocol UP.link.
1.0 Versió inicial. Publicació WAP no comercial. Introdueix
WML i la pila de protocol per capes WDP / Wireless
Transaction Protocol (WTP) / WSP.
La primera mostra apareix a principis
de 1.999.
1.1 Primera publicació comercial. Es revisa WML. Apareix
el nivell de seguretat 1 de Wireless Transport Layer
Security (WTLS). Elements de Wireless Telephony
Applications (WTA) definits però no implementats en
escala llarga.
Estandaritzat l’estiu de 1999,
desenvolupat a finals de 1999 (el
primer dispositiu mòbil al mercat que
implementava alguna d’aquestes
funcioanlitats va ser el Nokia 7110).
1.2 Push, seguretat de nivell 2 a WTLS. Redefinit WTA. Estandaritzat al 2.000, desenvolupat
un any després entre principis i
meitat del 2.001.
1.3 Convergencia amb model de seguretat punt a punt
dels estàndards d’Internet oberts. Navegació gateway.
Estandaritzat el juny de 2.001.
S’implementarà a principis de 2.002.
2.0 /
WAP NG
Continuació de la convergència amb els estàndards
d’Internet oberts. WAP Gateways arribaran a ser
opcionals.
S’estandaritzarà a finals de 2.001.
S’implementarà a finals de 2.002.
46. Principals WAP Gateways
Els primers vuit WAP Gateways del
mercat a meitat del 2.001.
Proveïdor de WAP
Gateway
Nombre d’operadors
de xarxa
Canvis des del
maig de 2000
Part del mercat
OpenWave Systems 59 +4 35.3%
Nokia 37 +12 22.2%
Ericsson 27 +15 16.1%
CMG 24 +12 14.4%
MATERNA 8 +2 4.8%
Motorola 4 +1 2.4%
Comverse (Exalink) 3 0 1.8%
Jinny Software 3 +3 1.8%
Altres 2 -6 1.2%
TOTAL 167 +43 100%
47. APIs i/o parsers d’XML i ASN.1
Implementacions de les APIs SAX i DOM:
IBM XML4J
Apache Xerces
Sun Project X
Microsoft
MSXML
Oracle XML
Parser for Java
James
Clark XP
comprovació de
format correcte
validació
XML-Schema
Espai de noms
XSL-T amb LotusXSL
Java
Win32
a través de Java
a través de
Java
a través de
Java
SAX 1.0
SAX 2.0
Nivell 1 DOM 1.0
Nivell 2 DOM 1.0
Open Source
48. APIs i/o parsers d’XML i ASN.1
Implementacions de les APIs SAX i DOM
Parsers per ASN.1:
Snacc for
Java d’IBM
ARC-ASN.1
Compiler
OSS ASN.1
Tools for Java
J++Asn1 ASN.1Compiler
Java pur
ASN.1: 1997 ?
VER ?
Facilita implementació
parser
Preu 1.000$ a més
dels royalties
No és gratuït
32.000$ a més
dels royalties
No és gratuït No és gratuït
49. Eines pel Mòdul de Reporting
Actuate vs Crystal Reports:
Avantatges de Seagate Crystal Reports Desavantatges de Seagate Crystal Reports
Suporta més navegadors que Actuate e-Reports
ja que aquest només certifica Netscape e
Internet Explorer sobre plataforma Windows, en
la resta de plataformes no ho certifica (pot
funcionar però no està garantit).
De les dues arquitectures que suporta la
adient per qüestions de control d’errors només
corre en plataformes Windows. En canvi,
l’arquitectura equivalent d’Actuate e-Reports
corre en moltes més plataformes (la majoria).
Pot exportar a un nombre més elevat de formats
entre els que destaquen Excel, RTF i DOC.
Suporta més llenguatges en un sol producte.
Pot generar més varietat de gràfics.
Pot generar més varietat d’estils de reports
diferents.
53. Establiment del preu de mercat
Unitats venudes
1 4 10Ptas Euros
Ptas Euros Ptas Euros Ptas Euros
Preu de Mercat 1.515.000 9.105,33 1.515.000 9.105,24 1.530.000 9.195,49
Costos Fixes 3.933.468 23.640,62 3.933.468 23.640,62 983.367 5.910,5 393.347 2.364,06
Gravadora HP
CD24RI 24x10x40
43.009 258,49
Cost disseny caixa 30.973 186,15
Registrar .com, .org
i .net per
waploganalyzer
10.457 62,85
Cost
desenvolupament
3.849.027 23.133,12
Costos variables 15.000 90,15 15.000 90,15 30.000 180,30
Generar 1 paquet
de 5 CD’s
15.000 90,15
Benefici -2.433.078 -14.623,09 519.731 3.105,61 1.106.692 6.651,35
Preu de venda per unitats venudes amb
un MC = 9.015’18 € (≡ 1.500.000 pts.).
Hinweis der Redaktion
Definició del problema. Abans d’iniciar un procés de DM s’ha de tenir molt clar la pregunta a la que es vol donar resposta. En aquest cas, WLA acota els tipus de preguntes per que restringeix part del domini sobre el que es poden fer.
Recollida i preparació de dades. Les dades originals de les BD transaccionals (en aquest cas dels logs) no estan preparades per l’anàlisi i, a vegades, és necessari aplicar modificacions, crear agregats i dissenyar estructures noves. Tot això es pot dividir en quatre subfases que a continuació es comenten:
Selecció de les dades de la BD transaccional sobre les que es realitzarà el procés d’extracció de coneixement.
Neteja. Es tracta de definir el domini, donar-li consistència, eliminar-ne els repetits, els outlayers i les ambigüitats.
Enriquiment.
Codificació. Molts dels camps de les dades originals contenen dades qualitatives, que no es poden expressar amb números i que són difícils de tractar
Data Mining.
Validació.
Aplicació. Un cop validat, el model ha d’implementar-se el procés de negoci que es desitja millorar.
Monitorització. Ha d’existir un seguiment de la implementació del model en el procés de negoci que es desitja millorar per a comprovar els seus resultats reals.
Operació de Push Submission: conté la informació a enviar al dispositiu WAP i la llista de terminals que l’han de rebre. L’iniciador és el Servidor de Continguts i el destí és el WAP Gateway.
Operació de Push Delivery: conté la informació a enviar al dispositiu WAP i el terminal a enviar-li. D’un Push Submission el WAP Gateway genera tants Push Deliveries com destins a la llista de terminals hi hagin. Si el dispositiu no està connectat el Push Delivery no és enviat fins que aquest es connecta.
WLA manegarà dos conceptes propis: connexió i sessió. El primer es refereix al conjunt
de pàgines, potencialment de diferents sites, que un mateix usuari veu d’una tacada, és a
dir, mentre que no hagi un forat temporal determinat, que serà configurable per
l’administrador de WLA, es considera que aquest conjunt d’operacions pertanyen a la
mateixa connexió. Per tant, es demana a l’administrador que defineixi un temps màxim
(timeout en anglès) d’inactivitat per la connexió, i si el temps transcorregut entre la
operació de consulta de dues pàgines consecutives és menor que aquest temps màxim
aquestes pàgines pertanyen a la mateixa connexió; si és superior es considera que la
última pertany a una nova connexió.
El segon es refereix al conjunt de pàgines d’un mateix site que un mateix usuari veu
dintre de la mateixa connexió. També es demana a l’administrador de WLA que defineixi
un temps màxim d’inactivitat per sessió, i si el temps transcorregut entre la operació de
consulta de dues pàgines consecutives és menor que aquest temps màxim aquestes
pàgines pertanyen a la mateixa sessió; si és superior es considera la última pertany a
una nova sessió. És important que el timeout de sessió sigui menor o igual que el de
connexió ja que si es major mai hi hauran diferents sessions a una mateixa connexió.
Per qüestions de temps es va decidir que només s’implementarien dos i com que només Nokia i Ericsson formant part dels vuit WAP Gateways més importants al mercat, WLA inclou un driver per logs en format text del WAP Gateway Nokia Activ Server 2.0 i un altre per logs en format XML del WAP Gateway d’Ericsson Ericsson Operator 3.0 WAP Gateway/Proxy.
Wireless Transport Layer Security (WTLS) ofereix un nivell de seguretat per les aplicacions i un per les sessions.
The WTLS layer operates above the transport protocol layer. The WTLS layer is modular and it depends on the required security level of the given application whether it is used or not. WTLS provides the upper-level layer of WAP with a secure transport service interface that preserves the transport service interface below it. In addition, WTLS provides an interface for managing (eg, creating and terminating) secure connections.
WTLS is a security protocol based upon the industry-standard Transport Layer Security (TLS) protocol, formerly known as Secure Sockets Layer (SSL). WTLS is intended for use with the WAP transport protocols and has been optimised for use over narrow-band communication channels. WTLS provides the following features:
· Data integrity – WTLS contains facilities to ensure that data sent between the terminal and an application server is unchanged and uncorrupted.
· Privacy – WTLS contains facilities to ensures that data transmitted between the terminal and an application
server is private and cannot be understood by any intermediate parties that may have intercepted the data stream.
· Authentication – WTLS contains facilities to establish the authenticity of the terminal and application server.
· Denial-of-service protection – WTLS contains facilities for detecting and rejecting data that is replayed or not successfully verified. WTLS makes many typical denial-of-service attacks harder to accomplish and protects the upper protocol layers.
Basat en el valor: L’emmagatzemament i la gestió de la informació es realitzen a través dels diferents valors de les columnes i no a través del conjunts de valors que defineixen una entitat. D’aquesta manera s’ofereix una visió vertical de les dades, a més de la visió horitzontal.
Visió vertical:
Taula de freqüències. Composta per tots els diferents valors i el nombre d’ocurrències dels mateixos.
Estadístiques. Valors estadístics del valor d’una columna.
Eliminació de la redundància. Per una mateixa columna només s’enmagatzemen els valors diferents. El valor null no existeix.
Indexació completa: Les dades s’indexen de forma completa, per tant l’usuari té, amb independència dels seus administradors, la possibilitat de consultar les dades de la forma més natural possible, és a dir, segons el grau d’importància que tinguin per l’usuari.
Navegació automàtica:Les relacions s’implementen físicament a través del tipus de dada Relationship i no a partir de definicions. Aquesta característica permet navegar de forma automàtica per les diferents files i així obtenir una visió desnormalitzada de les dades, que és més pròxima a l’usuari. No obstant, també inclou la possibilitat de la creació de relacions lògiques mitjançant operacions de Join..
Categorització: Amplien la visió vertical de les dades. Caracteristiques:
Es defineixen segments o categories de valors sobre una columna de tipus simple assignant un nom a cadascun d’ells.
Els valors de la columna destí els constitueixen els valors dels segments definits. La freqüència de cadascuna de les categories és la suma de les freqüències dels valors originals inclosos.
Les freqüències d’aparició de les categories varien de forma automàtica al variar els valors de la columna original.
Les categories amplien el nombre de columnes d’una taula.
Estadística descriptiva:Funcions de càlcul d’estadístiques i distribucions que proporcionen un resum estadístic de cada columna
Estadístics bàsics: es calculen automàticament per totes les columnes.
Estadístics específics per columnes numèriques.
Distribucions de probabilitat: Es calculen per les columnes numèriques. Considerant la freqüència de cada valor com el nombre d’aparicions, es calcula la probabilitat de cadascun i els paràmetres de cada distribució per a la columna numèrica en qüestió, sempre en funció de la seva mitjana i desviació estàndard.
Classificació:Donat un conjunt de dades amb una de les columnes que representa una classe (per exemple, bon client/mal client), construir un model que sigui capaç de predir amb la major precisió possible el valor d’aquesta classe per files noves no etiquetades.
Regles d’associació:L’objectiu de les regles d’associació és descobrir relacions o dependències significatives entre dues o més columnes, que s’expressa en regles de l’estil SI LHS LLAVORS RHS, AMB confiança X, suport Z i lift Y. En aquestes regles, LHS és un o varis valors de diferents columnes i RHS és un valor d’una columna diferent a les anteriors.
Clustering:El clustering consisteix en formar, donat un conjunt de dades definides per una sèrie de columnes, grups de files (clusters) tals que les files dintre d’un mateix grup tinguin valors similars per la major quantitat possible de columnes i diferents als de les files d’altres grups. El clustering ajuda a descobrir si existeixen segments diferenciats que poden descriure’s mitjançant les columnes (o algunes d’elles) que contenen dades.
Categorització:La categorització permet convertir un conjunt continu de valors numèrics en un conjunt de valors discrets. synera permet la creació de columnes categòriques i el seu ús posterior, igual que si es tractés de qualsevol altra columna.
Així, a partir d’aquests logs generats per els WAP Gateways escollits i de l’especificació de WAP s’ha inferit el format del log estàndard que generarà WLA.
El fet que cap dels parsers d’ASN.1 per regles de codificació BER fos gratuït va fer que no es pogués implementar el driver per el formatASN.1 que genera Ericsson Operator 3.0.
Informació de tràfic.
Nombre total i mitjana, respecte al dia, de hits, pàgines, sessions i clients per hora del dia incloent el total respecte al dia de cadascun dels aspectes comentats anteriorment.
Nombre total i mitjana, respecte el nombre total d’operacions push en el rang de temps establert per l’usuari, de push deliveries, de push deliveries refusats, de push submissions i de volum de dades enviades, incloent també el total d’operacions push en el rang de temps establert per l’usuari.
...
Informació de recursos accedits.
Nombre total i mitjana, respecte del rang de temps establert per l’usuari, de sites visitats per data incloent el total respecte del rang de temps establert per l’usuari.
...
Informació específica de site.
Nombre total i mitjana, respecte del rang de temps establert per l’usuari, de hits, pàgines, sessions i clients per data incloent el total respecte del rang de temps establert per l’usuari.
Les pàgines més populars respecte del rang de temps establert per l’usuari.
...
Informació específica de Push Iniciator.
Per un PI, on PI és un paràmetre establert per l’usuari, es vol el nombre total i la mitjana, respecte del rang de temps establert per l’usuari, de push deliveries, de push deliveries refusats i de push submission, i el volum de dades total enviat; incloent el total respecte el rang de temps establert per l’usuari.
...
Log Generator. Aplicació implementada per aquest projecte per generar logs de gigues a partir de logs reals més petits. La seva especificació i disseny i no s’ha afegit en aquesta memòria per que, tot i haver de generar logs correctes amb dades aleatòries a partir de logs reals, el seu desenvolupament no es gaire complicat i s’ha cregut que no era convenient complicar més els capítols 6 i 7. Cal remarcar que totes les operacions de push que apareguin en un log XML generat per el WAP Gateway Operator 3.0 WAP Gateway/Proxy no seran reals ja que la versió d’avaluació d’aquest WAP Gateway no incorpora un PI.
Totes les proves amb el driver text de Nokia es basen en dos petits logs
reals, el del 27/06 i 29/06, però fan servir logs generats per el Log
Generator que deriven d’aquest petit log real. Les proves amb el driver
XML d’Ericsson pateixen la mateixa situació però el log real del que
parteixen es va generar el 5/07. En tots els casos els logs contenen
operacions de push i de pull. El procés sencer té vàries fases i per cada
prova es va comptar el temps total i quatre temps parcials:
Processant logs. És el temps que es triga en analitzar els logs.
Ordenar, tractar i salvar. És el temps que es triga en ordenar, tractar i
salvar les dades extretes del log real.
Salvant agregats. És el temps que es triga en generar alguns agregats i en
salvar-los.
Carregant a synera. És el temps que triga synera loader des de que s’envia
a executar fins que acaba la càrrega de les dades pretractades a synera.
Es vol fer constar que pel fet de que el Log Generator tingui una component
aleatòria i pel format heterogeni dels logs, no es poden aconseguir logs XML
Ericsson equivalents als logs text Nokia, per tant, el que s’intentava era
generar un nombre similar de registres per poder intuir si hi havia grans
diferències d’eficiència entre ambdós drivers. Tal i com es veu a la taula,
això no és així.
S’ha tingut en compte que l’any té 365 dies dels quals només són laborables 226 (= 365 dies/any - 104 dies de cap de setmana/any 2001 - 22 dies de vacances/any - 13 dies de festes oficials a Barcelona/any 2001), tot i que durant la realització d’aquest projecte no s’han realitzat el 22 dies de vacances corresponents.
Aquests 15 dies de festes oficials al 2001 són: Any nou (dilluns 01/01), Divendres Sant (divendres 13/04), Dilluns de Pasqua (dilluns 16/04), Festa del Treball (dimarts 01/05), Segona Pascua (dilluns 04/06), LAssumpció de la Mare de Déu (dimecres 15/08), Diada Nacional de Catalunya (dimarts 11/09), La Mercè (dilluns 24/09), Mare de Déu del Pilar (divendres 12/10), Tots Sants (dijous 01/11), Dia de la Constitució Espanyola (dijous 06/12), Nadal (dimarts 25/12) i Sant Esteve (26/12).
Si comparem la planificació inicial (151 dies) amb la final (226’04) veiem que el temps total previst inicialment s’ha incrementat en gairebé un terç (75 dies). Això és degut a que:
En la fase d’anàlisi no es va preveure la complexitat de generar logs reals, les diferents formes d’identificar a l’usuari no només entre diferents WAP Gateways sinó d’un WAP Gateway; augmentant en 10 dies el temps assignat al projecte.
Desviació en dies patida per la fase de desenvolupament; augmentant de 53 dies el temps assignat al projecte.
S’ha afegit una última fase que agrupa les tasques prèvies a la presentació del producte i la pròpia presentació, augmentant en 12’04 dies el temps assignat al projecte).
La informació s’ha extret de:
Fitxer PDF &lt;http://www.success4WAP/&gt;: “Success 4 WAP, MLS feb01”. WAP
Forum, 08 November 1999.
Pel WLA les característiques més importants a tenir en compte són:
suport a SAX1 i SAX2 (SAX1 i SAX2 és el nom que reben les versions 1 i 2 de
la API SAX respectivament), que no variï la característica de multiplataforma de
WLA
que no accepti documents incorrectes
que accepti tots els correctes.
En aquest cas, d’aquests cinc candidats l’API de Sun (JAXP) i la de IBM (XML4J
o XERCES) són les més adients, ja que la primera va passar totes les proves i el
segon només va refusar els documents que contenien caràcters especials
d’UTF-16, caràcters que no apareixen en els logs que el WLA analitza.
Qualssevol de les dues era adient per el driver dels logs en XML d’Ericsson del
WLA i canviar d’API era tan fàcil com canviar dos imports i una línia de creació a
una classe es va decidir que aquest driver pogués fer servir qualssevol de les
dues indistintament, simplement canviant el valor d’un paràmetre en un dels
fitxers de configuració. Així es podien fer proves de rendiment i acabar decidint
quin era més ràpid amb els tipus de logs a analitzar.
El fet que cap d’aquests parsers fos gratuït va fer que no es pogués implementar el driver per el formatASN.1 que genera Ericsson Operator 3.0.
MC = Marge de Contribució = Ingressos - Costos Variables.