+ All Categories
Home > Documents > Caracterización de Tráfico-Distribución de Johnson SB

Caracterización de Tráfico-Distribución de Johnson SB

Date post: 16-Oct-2021
Category:
Upload: others
View: 0 times
Download: 0 times
Share this document with a friend
10
Caracterización de Tráfico-Distribución de Johnson SB Luis Marrone Calle 50 y 120, 2do piso, La Plata, Buenos Aires, Argentina Laboratorio de Investigación en Nuevas Tecnologías Informáticas Facultad de Informática-Universidad Nacional de La Plata lmarrone@ linti.unlp.edu.ar Resumen. Obtener el modelo de tráfico resulta crucial a la hora de evaluar la performance de una red como así también disponer del mismo en la etapa de desarrollo e implementación de la misma. El punto de partida para obtener el modelo es contar con la caracterización del tráfico a cursar por la red. Caracterizar el tráfico redunda en obtener la distribución que mejor se corresponda con el mismo (“fitting distribution”). En este trabajo presentamos una distribución, “Johnson SB” normalmente no utilizada en la construcción de estos modelos pero que como veremos presenta resultados promisorios. Palabras clave: Redes. Tráfico. Modelos. Distrtibuciones.Validación 1. Introducción Caracterizar el tráfico de una red es proveer la descripción completa de los elementos que lo definen como ser entre otros, el tiempo de arribo entre mensajes, su longitud y el tiempo de servicio. Para disponer de esos elementos como paso previo a su descripción es que tomamos muestras. Muestras que se corresponden a variables aleatorias por lo cual no nos queda otro remedio que hacer un análisis estadístico de las mismas. La estadística descriptiva es la disciplina que nos otorga ese análisis en una primera etapa, dándonos valores del promedio, varianza, desviación estándar, curtosis y asimetría. Estas propiedades de las muestras tomadas nos ayudan a elegir las distribuciones más adecuadas que se correspondan con las muestras. El promedio y la desviación estándar junto con la varianza están relacionados en cuanto al aporte dado que valores de la desviación estándar cercanos al promedio poco nos pueden aportar para la elección de la distribución, dada la dispersión que presentan las muestras. Tal vez un mayor aporte lo representan la asimetría y kurtosis aunque normalmente son poco empleadas en este tipo de análisis. En esta primera etapa también se suele acudir a representaciones gráficas de las variables, en particular el histograma que resulta valioso por cuanto permite acotar rápidamente un conjunto posible de distribuciones adecuadas. Obteniendo así como resultado de la primera etapa un conjunto de distribuciones posibles pasamos a la segunda etapa donde parametrizamos las distribuciones que elegimos en la primera y comparamos su comportamiento con el de las muestras tomadas. Esta etapa normalmente se conoce como adaptación/ajuste/sintonía de la distribución a las muestras (“fitting distribution”). Esta
Transcript
Page 1: Caracterización de Tráfico-Distribución de Johnson SB

Caracterización de Tráfico-Distribución de Johnson SB

Luis Marrone

C a lle 50 y 120 , 2 d o p iso , L a P la ta , B u e n o s A ire s, A rg e n tin a

L a b o ra to r io d e In v e stig a c ió n en N u e v a s T ecn o lo g ía s In fo rm áticas

F a c u lta d d e In fo rm ática -U n iv ers id ad N a c io n a l d e L a P la ta

l m a r r o n e @ l i n t i . u n l p . e d u . a r

R e s u m e n . O b te n e r e l m o d elo d e trá fico re su lta c ru c ia l a la h o ra d e e v a lu a r la p e rfo rm a n ce d e u n a re d co m o a s í ta m b ié n d isp o n e r d e l m ism o e n la e ta p a de d e sa rro llo e im p le m e n ta c ió n d e la m ism a . E l p u n to d e p a r tid a p a ra o b te n e r el m o d elo es c o n ta r c o n la c a ra c te riz a c ió n d e l trá fico a c u rsa r p o r la re d . C a rac te riza r e l trá f ico re d u n d a e n o b ten e r la d is tr ib u c ió n q u e m e jo r se c o rre sp o n d a c o n e l m ism o (“ fittin g d is tr ib u tio n ” ). E n e ste trab a jo p re sen ta m o s u n a d is trib u c ió n , “Jo h n s o n S B ” n o rm a lm en te n o u tiliz a d a e n la c o n s tru c c ió n de e s to s m o d e lo s p e ro q u e co m o v e rem o s p re se n ta re su lta d o s p ro m iso rio s .

P a la b ra s c lave: R edes . T ráfico . M o d e lo s . D is tr tib u c io n es .V a lid a c ió n

1. Introducción

Caracterizar el tráfico de una red es proveer la descripción completa de los elementos que lo definen como ser entre otros, el tiempo de arribo entre mensajes, su longitud y el tiempo de servicio. Para disponer de esos elementos como paso previo a su descripción es que tomamos muestras. Muestras que se corresponden a variables aleatorias por lo cual no nos queda otro remedio que hacer un análisis estadístico de las mismas. La estadística descriptiva es la disciplina que nos otorga ese análisis en una primera etapa, dándonos valores del promedio, varianza, desviación estándar, curtosis y asimetría. Estas propiedades de las muestras tomadas nos ayudan a elegir las distribuciones más adecuadas que se correspondan con las muestras. El promedio y la desviación estándar junto con la varianza están relacionados en cuanto al aporte dado que valores de la desviación estándar cercanos al promedio poco nos pueden aportar para la elección de la distribución, dada la dispersión que presentan las muestras. Tal vez un mayor aporte lo representan la asimetría y kurtosis aunque normalmente son poco empleadas en este tipo de análisis. En esta primera etapa también se suele acudir a representaciones gráficas de las variables, en particular el histograma que resulta valioso por cuanto permite acotar rápidamente un conjunto posible de distribuciones adecuadas. Obteniendo así como resultado de la primera etapa un conjunto de distribuciones posibles pasamos a la segunda etapa donde parametrizamos las distribuciones que elegimos en la primera y comparamos su comportamiento con el de las muestras tomadas. Esta etapa normalmente se conoce como adaptación/ajuste/sintonía de la distribución a las muestras (“fitting distribution”). Esta

Page 2: Caracterización de Tráfico-Distribución de Johnson SB

sintonía se puede realizar en forma gráfica y/o analítica, de hecho se complementan. Los métodos gráficos tradicionales son el de Q-Q-Plot y P-P-Plot. Q-Q-Plot es un gráfico que compara dos distribuciones de probabilidades, la empírica obtenida a partir de las muestras y la teórica a partir de las distribuciones elegidas como las más adecuadas en la primer etapa y cuyos parámetros fueron estimados a partir de las muestras. Específicamente se grafican los percentiles en Q-Q plot donde la mayor correspondencia ente ambas distribuciones se dará si la gráfica resultantes es la recta y=x. Para el caso de P-P Plot se grafican ambas funciones de distribución acumulativas donde la mayor correspondencia se dará si la gráfica resultante se da con una pendiente d 45°. El método analítico comprende un conjunto de tests bajo el nombre de Bondad de Ajuste. Los tests comúnmente empleados son el de Kolmogorov-Smirnov, Anderson-Darling y Chi-Cuadrado.

En lo que sigue (Sección 2) detallamos elementos de la estadística descriptiva mencionados anteriormente junto con la distribución de Johnson SB [1, 2, 3], comúnmente no empleada en el análisis de tráfico. En la Sección 3 detallamos el escenario en el que se tomaron las muestras y la metodología empleada para caracterizarlo, continuando (Sección 4) con los resultados y conclusiones (Sección 5)

2. Elementos de Estadística

Detallamos aquí elementos de estadística descriptiva que colaboran eficazmente a la tarea de elegir posibles distribuciones que se correspondan con la realidad.

2.1. Curtosis[4]

La curtosis determina el grado de concentración/amplitud de pico que presentan las muestras en la región central de la distribución, comparada contra una normal. Así puede ser:

Leptocúrtica.- Existe una gran concentración. Supera a la normal, valores positivos Mesocúrtica.- Existe una concentración normal. Valor cero Platicúrtica.- Existe una baja concentración. Está por debajo de una normal.

Valores negativos.Para una muestra de n valores el coeficiente de curtosis está dado por:

(1)Los mi corresponden a los momentos de orden i. A la relación de momentos

se le resta 3 por cuanto es el valor que corresponde a una distribución normal.

Page 3: Caracterización de Tráfico-Distribución de Johnson SB

2.2. Asimetría (“skewness”)

Nos da una medida de la inclinación hacia derecha (>0) o izquierda (<0) de una distribución comparada con la normal.

Para una muestra de n valores la asimetría está dada por:

(2)

2.3. Distribución de Johnson SB

En realidad constituyen un conjunto de cuatro distribuciones, “SL” o log-normal, ”SU” sin límites, “SB”, acotada y “SN”, el caso particular de una normal. Creada por Norman Johnson en 1940 quien la creó con el objeto de aplicar los métodos y teoría de la distribución normal a un amplio rango de distribuciones no normales a través de transformaciones computables a partir de distribuciones como la exponencial y seno hiperbólico. Dada su flexibilidad esta familia de distribuciones se emplea en varios campos como el de química atmosférica [5], ingeniería biomédica [6], economía [7], gerenciamiento [8] , ciencia de los materiales [9] y análisis forestal[10], [11].

La distribución se define como:

(3)

Donde:y: Factor de forma 5: Factor de forma (5 > 0)1: Factor de escala (y > 0)Z : Factor de LocalizaciónNo tenemos registro de su empleo en el análisis de tráfico de redes de datos.

Page 4: Caracterización de Tráfico-Distribución de Johnson SB

3. Escenario y metodología empleados

El escenario de prueba fue extremadamente simple por cuanto se quiso ver la factibilidad del empleo de la distribución de Johnson SB en redes de datos. Se realizó la captura con Wireshark 2.0.3 de sesiones de https entre una PC del laboratorio con el servidor del proyecto Gutenberg (http://www.gutenberg.org/ebooks/author/85)

De las muestras obtenidas se tomó el tiempo de servicio de cada segmento de datos recibido. Ese parámetro va a ser la componente de tráfico a caracterizar.

Aisladas entonces las muestras de ese tiempo se procedió a estimar los parámetros de distribuciones Normal, Beta y Johnson a los efectos de comparación con la nueva distribución propuesta.

Dados los estimadores se realizaron los tests de Kolmogorov y Anderson Darling para la Bondad de Ajuste.

Los cálculos estadísticos fueron realizados con Matlab R2017a y la Bondad de Ajuste con Johnson Curve Toolbox for Matlab [12]

4. Resultados

Presentamos los resultados producto del ajuste de las muestras a las distribuciones Normal, Beta y JohnsonSB

4.1. Distribución Normal

Estimamos los parámetros con la funcionalidad provista por Matlab

> > p d = f i t d i s t ( A , ' n o r m a l ' )

Siendo A el archivo de muestras. La estimación resultó

Tabla 1. E stim a c ió n d e p a rám e tro s p a ra u n a d is tr ib u c ió n n o rm al

p a

782.031[769.863, 794.199]

697.628 [689.13, 706.34]

A continuación graficamos la distribución Normal(curva) comparada con el histograma(barras), Figura 1. La función de distribución acumulativa vs. La empírica, Figura2. El Q-Q Plot, y P-P Plot Figura 3,.

De los gráficos se desprende que asumir una distribución Normal para las muestras sería estar muy lejos de la realidad.

Page 5: Caracterización de Tráfico-Distribución de Johnson SB

Fig. 1. Histograma y distribución Normal

Fig. 2. Función de disttnbución acumulativa vs. Empírica

.1« --------------------------------------------------- ------ ------------------------------------------------------------’«íIT

r ^«ta

_ _________ _______ ---------------------------- ---------------------------- i J '«

a*

» .. • • •

Fig. 3. Q-Q Plot y P-P Plot Muestras vs. Normal

En la Tabla 2 vemos los resultados de la Bondad de Ajuste

Page 6: Caracterización de Tráfico-Distribución de Johnson SB

Tabla 2. B o n d a d d e A ju s te p a ra d is tr ib u c ió n N o rm a l

Kolmogorov-Smirnov

Sample Size 12630 Statistic 0.29269P-Value 0

a 0.2 0.1 0.05 0.02 0.01

Critical Value0.0

09550.010

880.012

080.013

51 0.0145

Anderson-Darling

Sample Size 12630Statistic 1828.2

a 0.2 0.1 0.05 0.02 0.01

Critical Value 1.3749

1.9286

2.5018

3.2892

3.9074

Chi-Squared

Deg. o f freedom 13Statistic 14714.0P-Value 0Rank 24

a 0.2 0.1 0.05 0.02 0.01

Critical Valu 16. 19.81 22.36 25.47 27.688e 985 2 2 2

4.2. Distribución Beta

Estimación de parámetros

Tabla 3. E stim a c ió n d e p a rám e tro s d is tr ib u c ió n B e ta

U 1 u 2a b

0.0707 0.05544 26.769 1500.0

Presentamos las mismas figuras que para el caso de la distribución Normal para terminar con la Bondad de Ajuste correspondiente.

Page 7: Caracterización de Tráfico-Distribución de Johnson SB

Del análisis resulta que esta distribución resulta más realista, los puntos del Q-Q- Plot se aproximan a la recta de 45°.

Fig. 4. Histograma- Dist.Beta(izq.) y Distribución Beta acumulativa-Empírica(der.)

Fig. 5. Q-Q-Plot(izq.) y P-P Plot(der.) para la distribución Beta

Tabla 4. B o n d a d d e A ju s te p a ra d is tr ib u c ió n B e ta

Beta

Kolmogorov-Smirnov

Sample Size 12630Statistic 0.31512P-Value 0

a 0.2 0.1 0.05 0.02 0.01

Critical Value 0.00955

0.01088

0.01208

0.01351

0.0145

Anderson-Darling

Sample Size 12630Statistic 13743.0

Page 8: Caracterización de Tráfico-Distribución de Johnson SB

a

Critical Value

0.2 0.1 0.05 0.02 0.01

1.3749 1.9286 2.5018 3.2892 3.9074

4.3. Distribución Johnson SB

La estimación resultó:

Tabla 5. E stim a c ió n d e p a rám e tro s d is tr ib u c ió n

Y à X £

-0.01187 0.04707 1450.7 49.841

Las figuras y tabla de ajuste resultantes indican la mejor correspondencia de las muestras con esta distribución.

Fig.6. Histograma-Distribución(izq.),CDF-Empírica (der.) JohnsonSB

Fig. 7. . Q-Q-Plot(izq.) y P-P Plot(der.) para la distribución JohnsonSB

Page 9: Caracterización de Tráfico-Distribución de Johnson SB

Tabla 6. B o n d a d d e A ju s te p a ra d is tr ib u c ió n Jo h n so n S B

Johnson SB

K o lm o g o ro v -S m irn o v

Sample Size 12630 Statistic 0.35916P-Value 0

a 0.2 0.1 0.05 0.02 0.01

Critical Value 0.00955

0.01088

0.01208

0.01351

0.0145

Anderson-Darling

Sample Size Statistic

126309358.0

a 0.2 0.1 0.05 0.02 0.01

Critical Value 1.3749

1.9286

2.5018

3.2892

3.9074

5. Conclusiones

En el presente trabajo hemos puesto en evidencia el recorrido necesario a cumplimentar para poder obtener una caracterización de tráfico que permita construir un modelo válidodel mismo. Entendemos por modelo válido aquel que nos permita diagnosticar problemas de performance en la red y/o aquel que nos permita predecir comportamiento y definir recursos necesarios en la implementación de una red de datos. Particularmente hemos apuntado a una etapa crítica del recorrido que es la elección de la distribución de la variable aleatoria objeto de análisis y que necesitamos definir para construir el modelo. Finalmente resaltamos la potencialidad de la distribución de JohnsonSB como elección válida. Sin duda no es una elección de carácter general, (con el tráfico de datos no es dable esa generalidad), pero si a tener en cuenta cuando tenemos una variable con dos valores de mayor recurrencia como fue el caso analizado. Somos concientes de que el trabajo no termina en esa elección. Sobre todo desde hace ya algo más de una década el tráfico ha cambiado su comportamiento, presentando un

Page 10: Caracterización de Tráfico-Distribución de Johnson SB

carácter autosimilar del cual no hemos abordado su tratamiento por cuanto está fuerade los objetivos planteados del trabajo.

6. Referencias

[1] H ill, I .D ., H ill, R ., a n d H o ld e r , R .L . (19 7 6 ). F ittin g Jo h n so n c u rv es b y m o m en ts . Applied Statistics. A S 9 9 .

[2] Jo h n so n , N .L . (1949). S y s tem s o f freq u en cy c u rv es g e n e ra te d b y m e th o d s o f tran s la tio n . Biometrika, 36 . 149-176.

[3] W h ee le r , R .E . (19 8 0 ). Q u a n tile e s tim a to rs o f Jo h n so n c u rv e p a ram ete rs . Biometrika. 67-3 72 5 -7 2 8

[4] K a rl P e a rso n (1 9 0 5 ) D a s F e h le rg e se tz u n d se ine V e ra llg em e in e ru n g en d u rc h F e c h n e r u n d P ea rso n . A R e jo in d e r, Biometrika, 4, 169-212 ,

[5] Y .-N . L ee , X . Z h o u , et. a l (1 9 9 8 ), A tm o sp h e ric ch em istry an d d is tr ib u tio n o f fo rm ald h y d e an d sev e ra l m u ltio x y g en a ted c a rb o n y l c o m p o u n d s d u rin g th e 1995 N a sh v ill/M id d le T en n e ssee O z o n e S tu d y , Journal of Geophysical Research, Vol 103, Issue D 1 7 :2 2 4 4 9 -2 2 4 6 2 .

[6] F . G eo rg e , K .M .R am a ch a n d ran (2 0 0 9 ), Analysis of Microarray Data for Gene Selection, 2 5 th S o u th e rn B io m e d ica l E n g in e e rin g C o n fe ren c e 2 0 0 9 ; 15-17 M a y :2 3 7 -2 3 8

[7] L u , Y ., O . A . R a m ire z , R . M . R e je su s , T. O. K n ig h t, an d B . J. Sherrick . 2 008 . E m p irica lly ev a lu a tin g th e flex ib ility o f th e Jo h n so n fam ily o f d is trib u tio n s: a c ro p in su ra n ce ap p lica tion . A g ric u ltu ra l & Resource Economics Review 37(1): 79-91.

[8] A le x o p o u lo s , C ., D . G o ld sm a n , J. F o n ta n es i, D . K o p a ld , an d J. R . W ilso n . (2008). M o d e lin g p a tie n t a rriv a ls in co m m u n ity c lin ics . Omega 36: 33-43

[9] E d w a rd P rin c e (2012). Mathematical Techniques in Crystallography and Material Science, S p rin g e r S c ien ce & B u sin e ss M ed ia .

[10] F o n sec a , T .F ., M a rq u es , C .P ., P a rre so l, B .R (2 0 0 9 ).: Describing maritime pine diameter distributions with Johnson’s S B distribution using a new all-parameter recovery approach. F o r. Sci. 5 5 (4 ), 3 6 7 -3 7 3 (2 0 0 9 )

[11] A y a n a M a teu s , M a rg a rid a T o m é (2 0 1 3 ). Fitting Johnson’s SB Distribution to Forest Tree Diameter. A d v a n c e s in R e g ress io n , S u rv iv a l A n a ly s is , E x tre m e V a lu es , M ark o v P ro c e sse s a n d O th e r S ta tis tica l A p p lic a tio n s p p 2 8 9 -2 9 6 . S p rin g e r

[12] Jo n es, D . L. (2014). Johnson Curve Toolbox for Matlab: analysis of non-normal data using the Johnson family of distributions. C o lle g e o f M a rin e S c ien ce , U n iv e rs ity o f S o u th F lo rid a , St. P e te rsb u rg , F lo rid a , U S A


Recommended