Pérdidas estimadas mensuales por Incendios en Toronto

En este ejercicio queremos calcular las pérdidas estimadas mensuales en Incendios que ocurren en Toronto. Este ejercicio utilizará la teoría de Distribuciones de Perdidas, en el cual intentaremos encontrar la severidad y frecuencia del fenómeno en cuestión. La intención de ejercicios de este estilo es tener un margen de confianza usualmente se usa el 95 o 99 porciento, en el cual tenemos seguridad que al 95 % de las veces las pérdidas no superaran este valor y en caso de superarlo podemos calcular otro estimador. Estos estimadores en Teoría de Riesgo son conocidos como el Valor en Riesgo(VaR) y el Valor en Riesgo Condicional (CVaR) respectivamente. La base de datos es tomada de: https://open.toronto.ca/dataset/fire-incidents/

Para este ejercicio utilizaremos las distribuciones más conocidas para frecuencia como son la Poisson, la Binomial Negativa o la Uniforme. Con respecto a la severidad tenemos una gama muy alta de posibilidades, la primera es utilizar la distribución empírica, es decir, predecir las perdidas con la distribución como tal de los datos. Teóricamente, sabemos que existen diferentes distribuciones conocidas, tales como normal, log-normal, Gamma, Exponencial, entre otros. Adicionalmente, podemos usar distribuciones que son conocidas de cola pesada, tales como la Weibull o la Pareto Generalizada. De todas estás distribuciones conocidas probaremos cual será la que mejor se ajuste.

Lectura de datos

Para este ejercicio tenemos la ventaja que los datos están cargados en el ambiente de R, por lo tanto utilizaremos el paquete oficial dado por los open data de Toronto.

## # A tibble: 1 x 11
##   title          id       topics civic_issues publisher excerpt dataset_category
##   <chr>          <chr>    <chr>  <chr>        <chr>     <chr>   <chr>           
## 1 Fire Incidents 64a2669~ Publi~ <NA>         Fire Ser~ "This ~ Table           
## # ... with 4 more variables: num_resources <int>, formats <chr>,
## #   refresh_rate <chr>, last_refreshed <date>
_id Area_of_Origin Building_Status Business_Impact Civilian_Casualties Count_of_Persons_Rescued Estimated_Dollar_Loss Estimated_Number_Of_Persons_Displaced Exposures Ext_agent_app_or_defer_time Extent_Of_Fire Final_Incident_Type Fire_Alarm_System_Impact_on_Evacuation Fire_Alarm_System_Operation Fire_Alarm_System_Presence Fire_Under_Control_Time Ignition_Source Incident_Number Incident_Station_Area Incident_Ward Initial_CAD_Event_Type Intersection Last_TFS_Unit_Clear_Time Latitude Level_Of_Origin Longitude Material_First_Ignited Method_Of_Fire_Control Number_of_responding_apparatus Number_of_responding_personnel Possible_Cause Property_Use Smoke_Alarm_at_Fire_Origin Smoke_Alarm_at_Fire_Origin_Alarm_Failure Smoke_Alarm_at_Fire_Origin_Alarm_Type Smoke_Alarm_Impact_on_Persons_Evacuating_Impact_on_Evacuation Smoke_Spread Sprinkler_System_Operation Sprinkler_System_Presence Status_of_Fire_On_Arrival TFS_Alarm_Time TFS_Arrival_Time TFS_Firefighter_Casualties
420865 81 - Engine Area NA NA 0 0 15000 NA NA 2018-02-24T21:12:00 NA 01 - Fire NA NA NA 2018-02-24T21:15:40 999 - Undetermined F18020956 441 1 Vehicle Fire Dixon Rd / 427 N Dixon Ramp 2018-02-24T21:38:31 43.68656 NA -79.59942 47 - Vehicle 1 - Extinguished by fire department 1 4 99 - Undetermined 896 - Sidewalk, street, roadway, highway, hwy (do not use for fire incidents) NA NA NA NA NA NA NA 7 - Fully involved (total structure, vehicle, spreading outdoor fire) 2018-02-24T21:04:29 2018-02-24T21:10:11 0
420866 75 - Trash, rubbish area (outside) NA NA 0 0 50 NA NA 2018-02-24T21:29:42 NA 01 - Fire NA NA NA 2018-02-24T21:32:24 999 - Undetermined F18020969 116 18 Fire - Grass/Rubbish Sheppard Ave E / Clairtrell Rd 2018-02-24T21:35:58 43.76613 NA -79.39004 97 - Other 1 - Extinguished by fire department 1 4 03 - Suspected Vandalism 896 - Sidewalk, street, roadway, highway, hwy (do not use for fire incidents) NA NA NA NA NA NA NA 2 - Fire with no evidence from street 2018-02-24T21:24:43 2018-02-24T21:29:31 0
420867 NA NA NA 0 0 NA NA NA NA NA 03 - NO LOSS OUTDOOR fire (exc: Sus.arson,vandal,child playing,recycling or dump fires) NA NA NA NA NA F18021182 221 21 Fire - Highrise Residential Danforth Rd / Savarin St 2018-02-25T14:14:03 43.74323 NA -79.24506 NA NA 6 22 NA 891 - Outdoor general auto parking NA NA NA NA NA NA NA NA 2018-02-25T13:29:59 2018-02-25T13:36:49 0
420868 75 - Trash, rubbish area (outside) 01 - Normal (no change) 1 - No business interruption 0 0 0 0 NA 2018-02-25T14:19:25 1 - Confined to object of origin 01 - Fire 9 - Undetermined 8 - Not applicable (no system) 9 - Undetermined 2018-02-25T14:20:00 999 - Undetermined F18021192 133 5 Fire - Commercial/Industrial Keele St / Lawrence Ave W 2018-02-25T15:07:42 43.70866 999 -79.47806 99 - Undetermined (formerly 98) 1 - Extinguished by fire department 6 22 99 - Undetermined 511 - Department Store 9 - Floor/suite of fire origin: Smoke alarm presence undetermined 98 - Not applicable: Alarm operated OR presence/operation undetermined 9 - Type undetermined 8 - Not applicable: No alarm, no persons present 99 - Undetermined 8 - Not applicable - no sprinkler system present 9 - Undetermined 3 - Fire with smoke showing only - including vehicle, outdoor fires 2018-02-25T14:13:39 2018-02-25T14:18:07 0
420869 NA NA NA 0 0 NA NA NA NA NA 03 - NO LOSS OUTDOOR fire (exc: Sus.arson,vandal,child playing,recycling or dump fires) NA NA NA NA NA F18021271 132 8 Fire - Residential Replin Rd / Tapestry Lane 2018-02-25T18:34:24 43.71812 NA -79.44318 NA NA 6 22 NA 860 - Lawn around structure NA NA NA NA NA NA NA NA 2018-02-25T18:20:43 2018-02-25T18:26:19 0
420870 81 - Engine Area NA NA 0 0 1500 NA NA 2018-02-25T18:38:00 NA 01 - Fire NA NA NA 2018-02-25T18:40:00 999 - Undetermined F18021274 215 25 Vehicle Fire Lawrence Ave E / Beechgrove Dr 2018-02-25T19:08:28 43.77379 NA -79.16228 47 - Vehicle 1 - Extinguished by fire department 7 25 99 - Undetermined 837 - Vehicles or Vehicle Parts NA NA NA NA NA NA NA 4 - Flames showing from small area (one storey or less, part of a vehicle, outdoor) 2018-02-25T18:31:19 2018-02-25T18:35:17 0
420871 22 - Sleeping Area or Bedroom (inc. patients room, dormitory, etc) 01 - Normal (no change) 1 - No business interruption 0 0 2000 0 NA 2018-02-26T18:28:00 2 - Confined to part of room/area of origin 01 - Fire 8 - Not applicable: No fire alarm system, no persons present 8 - Not applicable (no system) 8 - Not applicable (bldg not classified by OBC OR detached/semi/town home) 2018-02-26T18:30:00 51 - Incandescent Lamp - Light Bulb, Spotlight F18021633 235 19 Fire - Residential Westview Blvd / Holland Ave 2018-02-26T19:05:58 43.71481 002 -79.30411 16 - Insulation 1 - Extinguished by fire department 6 22 20 - Design/Construction/Installation/Maintenance Deficiency 301 - Detached Dwelling 1 - Floor/suite of fire origin: No smoke alarm 98 - Not applicable: Alarm operated OR presence/operation undetermined 8 - Not applicable - no smoke alarm or presence undetermined 7 - Not applicable: Occupant(s) first alerted by other means 2 - Confined to part of room/area of origin 8 - Not applicable - no sprinkler system present 3 - No sprinkler system 2 - Fire with no evidence from street 2018-02-26T18:18:55 2018-02-26T18:24:47 0
420872 55 - Mechanical/Electrical Services Room 01 - Normal (no change) 2 - May resume operations within a week 0 0 100000 0 NA 2018-02-27T10:57:32 2 - Confined to part of room/area of origin 01 - Fire 2 - Some persons (at risk) evacuated as a result of hearing fire alarm system 1 - Fire alarm system operated 1 - Fire alarm system present 2018-02-27T11:36:09 23 - Distribution Equipment (includes panel boards, fuses, circuit br F18021837 231 24 Alarm Highrise Residential Peking Rd / Nelson St 2018-02-27T13:51:29 43.74858 011 -79.22237 43 - Electrical Wiring Insulation 1 - Extinguished by fire department 24 71 52 - Electrical Failure 323 - Multi-Unit Dwelling - Over 12 Units 9 - Floor/suite of fire origin: Smoke alarm presence undetermined 98 - Not applicable: Alarm operated OR presence/operation undetermined 8 - Not applicable - no smoke alarm or presence undetermined 2 - Some persons (at risk) self evacuated as a result of hearing alarm 7 - Spread to other floors, confined to building 8 - Not applicable - no sprinkler system present 3 - No sprinkler system 2 - Fire with no evidence from street 2018-02-27T10:28:12 2018-02-27T10:35:13 0
420873 28 - Office 01 - Normal (no change) 1 - No business interruption 0 0 5000 0 NA 2018-02-25T15:57:00 1 - Confined to object of origin 01 - Fire 1 - All persons (at risk of injury) evacuated as a result of hearing fire alarm system 1 - Fire alarm system operated 1 - Fire alarm system present 2018-02-25T15:58:00 41 - Other Heating Equipment F18021221 332 10 Alarm Commercial/Industrial Bay St 2018-02-25T19:55:41 43.65215 003 -79.38234 56 - Paper, Cardboard 1 - Extinguished by fire department 8 20 46 - Used or Placed too close to combustibles 156 - Court Facility 2 - Floor/suite of fire origin: Smoke alarm present and operated 98 - Not applicable: Alarm operated OR presence/operation undetermined 2 - Hardwired (standalone) 1 - All persons (at risk of injury) self evacuated as a result of hearing alarm 4 - Spread beyond room of origin, same floor 3 - Did not activate: fire too small to trigger system 1 - Full sprinkler system present 4 - Flames showing from small area (one storey or less, part of a vehicle, outdoor) 2018-02-25T15:48:34 2018-02-25T15:52:04 0
420874 NA NA NA 0 0 NA NA NA NA NA 03 - NO LOSS OUTDOOR fire (exc: Sus.arson,vandal,child playing,recycling or dump fires) NA NA NA NA NA F18021565 426 4 Vehicle Fire Roncesvalles Ave / Dundas St W 2018-02-26T15:57:48 43.65388 NA -79.45185 NA NA 1 4 NA 901 - Automobile NA NA NA NA NA NA NA NA 2018-02-26T15:32:11 2018-02-26T15:37:40 0

Tenemos un total de 17536 observaciones, ahora observamos que tenemos muchas variables que para este análisis en particular no tomaremos en cuento, por lo cual solo nos centraremos en “Estimated_Dollar_Loss y”TFS_Alarm_Time”, esto pues se adaptan al estudio que queremos hacer. Una observación importante es cuando considerar el tiempo del incendio, pues tenemos diferentes variables que miden cuando se origino la alarma, cuando se llego al lugar o cuando se tuvo control del mismo. Para efectos prácticos tomaremos el tiempo cuando se inicio la alarma de dicho incendio, en un futuro análisis se podrían tomar otra dirección con respecto a este tema.

Adicionalmente, entre los datos contamos con valores en pérdidas que no se registraron o que son 0, para nuestro estudio, eliminaremos estos datos.

## 'data.frame':    13571 obs. of  2 variables:
##  $ LossDolar: int  15000 50 1500 2000 100000 5000 500 7000 15000 60000 ...
##  $ Time     : Date, format: "2018-02-24" "2018-02-24" ...

Por lo tanto nos quedaremos con 13571 datos.

Distribución de la Frecuencia

Ahora para encontrar la distribución de la frecuencia, primero haremos una agrupación mensual de los eventos, esto se visualiza en el siguiente gráfico.

De este gráfico vemos que hay una distribución muy similar a una uniforme, aún así utilizaremos todas las herramientas para encontrar cuál es la distribución que mejor se ajusta.

## Chi-squared statistic:  136.7653 4.77875 37.94487 
## Degree of freedom of the Chi-squared distribution:  8 7 7 
## Chi-squared p-value:  1.116028e-25 0.6869424 3.104186e-06 
##    the p-value may be wrong with some theoretical counts < 5  
## Chi-squared table:
##        obscounts theo 1-mle-pois theo 2-mle-nbinom theo 3-mle-unif
## <= 108        10        1.475611         10.027779       16.813187
## <= 116        10        6.005402         10.392029        8.967033
## <= 121         9        8.662435          8.652967        5.604396
## <= 125         9       10.282219          7.818023        4.483516
## <= 128         9        9.395659          6.186942        3.362637
## <= 133        11       17.355863         10.486356        5.604396
## <= 137         9       13.605855          8.150595        4.483516
## <= 146        11       22.699495         15.998408       10.087912
## <= 157        10       10.572665         13.273201       12.329670
## > 157         14        1.944796         11.013700       30.263736
## 
## Goodness-of-fit criteria
##                                1-mle-pois 2-mle-nbinom 3-mle-unif
## Akaike's Information Criterion   978.4313     897.6838   924.2153
## Bayesian Information Criterion   981.0563     902.9337   929.4653

Tanto a nivel gráfico como a nivel visual en las diferentes pruebas, encontramos que la distribución que mejor se ajusta a nuestros datos es la Binomial Negativa, por lo que usaremos esto para continuar con nuestro estudio.

Distribución de la Severidad

Para el caso de la Severidad, tomaremos 2 caminos, el primero será encontrar la mejor distribución de las existentes que citamos al inicio, segudo utilizaremos la distribución Pareto Generalizada, que sirve para eventos con muchos valores extremos, que para este ejercicio nos podrá servir.

Ahora solo por cuestión de visualización, veremos el comportamiento previo al millón de dolares.

Notamos como la gran mayoria de eventos son inferiores a perdidas de 2500 dolares y luego de esto tenemos colas largas de datos con pérdidas que se acercan a los 50 millones de dolares.

Ya con la previsualización de estos datos vemos que será complicado encontrar una distribución que se ajuste a nuestro datos, pero continuaremos con el análisis, en caso de ser necesario podriamos usar una transformación de los datos para así suavizar un poco el efecto de esos valores tan lejanos.

Adicionalmente veamos cuanto dinero estimado se pierde mensualmente para tener una idea de que tipo comportamiento final debemos tener.

Vamos a usar los mismos criterios del AIC Y BIC para encontrar las posibles mejores distribuciones

##                    distribucion df      AIC
## 1      mllnorm(datos$LossDolar)  2 284788.3
## 2    mlweibull(datos$LossDolar)  2 285367.4
## 3      mlgamma(datos$LossDolar)  2 289998.5
## 4     mlbetapr(datos$LossDolar)  2 297923.0
## 5   mlinvgamma(datos$LossDolar)  2 299226.8
## 6   mlinvgauss(datos$LossDolar)  2 313529.5
## 7        mlexp(datos$LossDolar)  1 314958.3
## 8     mlgumbel(datos$LossDolar)  2 334100.1
## 9 mlinvweibull(datos$LossDolar)  2      NaN
##                     distribucion df      BIC
## 1       mllnorm(datos$LossDolar)  2 284803.3
## 2     mlweibull(datos$LossDolar)  2 285382.5
## 3       mlgamma(datos$LossDolar)  2 290013.6
## 4      mlbetapr(datos$LossDolar)  2 297938.0
## 5    mlinvgamma(datos$LossDolar)  2 299241.8
## 6      mlpareto(datos$LossDolar)  2 307125.3
## 7    mlinvgauss(datos$LossDolar)  2 313544.6
## 8         mlexp(datos$LossDolar)  1 314965.8
## 9      mlgumbel(datos$LossDolar)  2 334115.1
## 10 mlinvweibull(datos$LossDolar)  2      NaN

Del criterio AIC y BIC, vemos como las distribuciones log normal y weibull son las que mejor se ajustan a nuestros datos.

## Goodness-of-fit statistics
##                              1-mle-lnorm 2-mle-weibull
## Kolmogorov-Smirnov statistic  0.08387221    0.08820628
## Cramer-von Mises statistic    8.91037439   14.72768401
## Anderson-Darling statistic   51.22907343           Inf
## 
## Goodness-of-fit criteria
##                                1-mle-lnorm 2-mle-weibull
## Akaike's Information Criterion    284788.3      285367.4
## Bayesian Information Criterion    284803.3      285382.5

Ahora a nivel visual y tanto en las pruebas notamos que tenemos problemas con ambas distribuciones, pero aún así destaca de mejor manera la log normal.

Transformación de los datos

Como mencionamos anteriormente, al tener valores tan altos, una forma de suavizar dichos datos es tomar una transformación, para este caso solo utilizaremos la transformación lógaritmica de los datos, adicionalmente filtraremos aquellas perdidas que sean 1, pues al utilizar esta transformación trabajar con 0 se vuelve complicado

##                     distribucion df       AIC
## 1    mlweibull(datos2$LossDolar)  2  59840.34
## 2      mlgamma(datos2$LossDolar)  2  61439.15
## 3      mllnorm(datos2$LossDolar)  2  63077.67
## 4   mlinvgauss(datos2$LossDolar)  2  63777.18
## 5     mlbetapr(datos2$LossDolar)  2  64846.83
## 6   mlinvgamma(datos2$LossDolar)  2  65971.70
## 7 mlinvweibull(datos2$LossDolar)  2  72936.35
## 8        mlexp(datos2$LossDolar)  1  83749.92
## 9      mlgumbel(datos$LossDolar)  2 334100.06
##                      distribucion df       BIC
## 1     mlweibull(datos2$LossDolar)  2  59855.35
## 2       mlgamma(datos2$LossDolar)  2  61454.17
## 3      mlgumbel(datos2$LossDolar)  2  62750.45
## 4       mllnorm(datos2$LossDolar)  2  63092.69
## 5    mlinvgauss(datos2$LossDolar)  2  63792.19
## 6      mlbetapr(datos2$LossDolar)  2  64861.84
## 7    mlinvgamma(datos2$LossDolar)  2  65986.71
## 8  mlinvweibull(datos2$LossDolar)  2  72951.36
## 9         mlexp(datos2$LossDolar)  1  83757.43
## 10     mlpareto(datos2$LossDolar)  2 106525.73

Del criterio AIC y BIC, vemos como las distribuciones weibull y Gamma son las que mejor se ajustan a nuestros datos.

## Goodness-of-fit statistics
##                              1-mle-weibull 2-mle-gamma
## Kolmogorov-Smirnov statistic    0.06647409   0.1132842
## Cramer-von Mises statistic      5.20233377  24.1283028
## Anderson-Darling statistic     27.29902607 141.1293892
## 
## Goodness-of-fit criteria
##                                1-mle-weibull 2-mle-gamma
## Akaike's Information Criterion      59840.34    61439.15
## Bayesian Information Criterion      59855.35    61454.17

Notamos como la distribución Weibull es la que mejor se ajusta a nuestros datos, por tal razón de distribuciones conocidas utilizaremos esto.

Uso de la Pareto Generalizada

Notamos como visualmente nos indica que utilizar la Pareto Generalizada podría funcionarnos para este ejercicio.

Simulacion de datos

Ahora dado que conocemos el compartamiento de la Severidad y Frecuencia, continuaremos con la simulación del evento, esto utilizá la teoría de convulución, en el cual nos permite combinar estas 2 distribuciones para encontrar una respuesta final, que nos indicará cuanto dinero se estima perder o gastar por incendios en la zona de Toronto. Tomaremos 10 mil simulaciones para este ejercicio práctico.

set.seed(777)

m <-  10000

Dejemos una semilla aleatoria fijada en 777 solo para tener resultados iguales para cargar el documento, pero esto se deja aleatorio, aún así los resultados no varian drasticamente.

Conclusiones

Con este ejercicio buscamos encontrar mediante la teoría de distribuciones de perdida, cuanto se podría estimar perder mensualmente por los incendios que ocurren en Toronto. Este problema buscamos darle solución encontrando aquellas distribuciones que mejor se ajustaran tanto a la severidad como a la frecuencia del suceso. Para el caso de la frecuencia, no existe duda que la distribución Binomial Negativa es la que mejor se ajusta, luego para la Severidad como mencionamos tomamos 2 caminos, antes de eso decidimos transformar los datos o suavizarlos para minimizar el impacto de valores extremos, pero siempre siendo considerados en nuestro estudio, pues estos tienen una gran importancia en nuestro estudio. Logramos encontrar que la Weibull fue la que mejor se ajustó a nuestros datos, adicionalmente nos acercamos por la distribución Pareto Generalizada, la cual para casos donde los valores extremos son tan importantes usualmente logra captarlos de buena manera.

Table 1: Tabla de perdidas esperadas mensuales por Incendio de Toronto en Dolares
Perdida Esperada VaR al 95% CVaR al 95%
Datos Mensuales Reales 5 361 408 11 194 679 21 824 898
Weibull Proyectada 4 642 012 8 111 695 10 269 715
Pareto Generalizada Proyectada 5 449 758 11 048 694 16 724 907

Como observamos en el cuadro, primero aclaramos que los valores presentados con datos reales, solamente se usan para comparar que tan cercanos están a los encontrados, pero no necesariamente representan el VaR y el CVaR en términos estrictos. Lo que vemos es que la Weibull subestima las pérdidas un poco con respecto a los datos reales. Notamos como la Pareto Generalizada logra captar de mejor manera estás perdidas, llegando a tener resultados muy cercanos a los reales. La traducción de estos datos es que mensualmente se estima perder $5 449 758 en promedio o es el valor esperado, es decir, abusando un poco de notación, en un caso normal promedio esa cantidad es lo que mensualmente se tendría en pérdidas.

Ahora con respecto al VaR el monto asciende a $11 048 694, esto quiero decir que si queremos cubrir un 95% de los posibles casos que se podrían presentar en los incendios mensuales utilizamos este valor. Usualmente en Teoría de Riesgo usamos valores del 95% o 99%, para así tener mayor seguridad y cubrir prácticamente todos los escenarios. Por último, usamos el CVaR, que es termino más ligado a otras áreas, especialmente las financieras, pues su valor es muy importante en cuanto a pérdidas se refiere, pues nos indica dado que hemos pasado ese umbral del 95%, cuanto estimo perder en promedio en estos casos. Para nuestro ejercicio este valor representa $16 724 907.

Como argumento final, es importante aclarar que la terminología de VaR y CVaR aunque están más ligadas a otras áreas, es importante también medirla en estos casos, pues si pensamos que estás perdidas por ejemplo debe cubrirla una aseguradora o el mismo estado, deben tener una base o una seguridad que con una cantidad estimada pueden cubrir prácticamente el 95% de los casos. Incluso, también tener seguridad que en aquellos meses que se pasa este umbral también tenemos definido un valor que representa de una manera realista cuánto dinero necesitamos para cubrir esta situación.