Metodología y fuentes de datos

A continuación se describe la metodología utilizada en el estudio realizado sobre los datos de consumo de Endesa y las fuentes de datos empleadas.


¿Qué fuentes se han utilizado?

Para detectar las tipologías de hogares se ha extraído una muestra representativa totalmente anonimizada de curvas de consumo de los meses de marzo, abril, septiembre y octubre de 2017 de todo el territorio nacional de clientes de Endesa. Sólo se han incluido en la selección de datos puntos de suministro con hasta 10kW de potencia contratada. Se ha mantenido la provincia de cada punto de suministro para poder realizar comparativas a nivel de provincia, el resto de datos geográficos se han eliminado por privacidad.

Los datos de actividades de hogares y personas han sido extraídos de la Encuesta del Empleo del Tiempo de 2009 del INE, en concreto de los Microdatos. Las categorías de actividades han sido extraídas de esa misma encuesta. Los datos de los hogares y las personas han sido clasificados mediante el modelo de tipologías de hogar.

Los datos complementarios sobre el consumo eléctrico en el sector residencial se han extraído del informe Análisis del consumo energético del sector residencial en España realizado por IDAE, el Ministerio de Industria, energía y turismo y Eurostat.

Asímismo, la información relativa al consumo de los aparatos eléctricos en standby se ha obtenido de la web de la Organización de Consumidores y Usuarios (OCU). En cuanto a los datos de la ocupación de los españoles, se han recogido de la Encuesta de Población Activa (EPA) que realiza el Instituto Nacional de Estadística, concretamente se han utilizado los del primer trimestre de 2018.

Las unidades de medida de las gráficas de consumo eléctrico son vatios-hora (Wh). Un vatio-hora es la energía necesaria para mantener una potencia constante de un vatio (1 W) durante una hora, y equivale a 3600 julios. Más información.


¿Cómo se ha hecho?

Las curvas de consumo han sido procesadas para eliminar el ruido y normalizar los valores y así para poder realizar una extracción de patrones mediante clusters. Se ha realizado un proceso iterativo de entrenamiento y análisis de clusters hasta determinar unos conjuntos de hogares representativos. Los datos de entrenamiento de los clusters han sido exclusivamente días laborables, se han eliminado festivos y fines de semana. El número de clústers se estableció mediante una función de entrenamiento que minimizaba la distancia de las curvas a todos los clusters y eligiéndose el valor óptimo.

Estos clústers han permitido crear un modelo matemático de clasificación que ha sido empleado a lo largo del proyecto para clasificar subconjuntos de curvas, por ejemplo, curvas de cada una de las provincias españolas.

Dicho modelo ha sido aplicado en la encuesta del uso del tiempo del INE. Para cada una de las actividades principales y secundarias y según si sucedían dentro o fuera de casa se han creado unas curvas “virtuales” de consumo eléctrico. Al aplicar dicho modelo se han extraído los hogares y las personas de cada una de las tipologías definidas por el cluster. Esto ha permitido extraer conclusiones de qué actividades y hábitos se tienen por tipo de hogar.

La encuesta del uso del tiempo del INE también ha sido empleada para analizar si los modelos matemáticos de clústers coincidían con los hábitos de consumo eléctrico de los hogares, y se han obtenido porcentajes muy similares para los diferentes tipos de hogares: para los hogares todo el día ocupados, el estudio del tiempo del INE nos devuelve un 59.90%, y los datos de Endesa un 60.32%, para los hogares todo el día desocupados, el INE nos devuelve un 6.07% y los datos de endesa un 6.06%. En el resto de tipos de hogares no existen datos publicados que permitan desarrollar una justificación, así que se ha hecho una petición de información al INE solicitando distribución de hogares por persona y el porcentaje de hogares en los que al menos un miembro esté desocupado o jubiliado. Aunque por metodología estos datos no son comparables, nos han permitido hacer una aproximación a la realidad de España y verificar que los resultados obtenidos en el estudio no discrepan con dicha realidad. La información recibida por el INE ha sido incluida en las explicaciones sobre los datos que forman parte del scrollytelling.

Para la elaboración de los ránkings provinciales por tipo de hogar se han excluído las provincias de Ceuta, Melilla, por no disponer Endesa de suficiente número de datos para elaborar conclusiones estadísticamente significativas.

Para el resto de provincias se ha trabajado con más de 384 puntos de suministro que es la cantidad de hogares necesaria para tener un 95% de nivel de confianza y un 5% de margen de error.

En Orense, Pontevedra y Segovia el margen de error es del 10% por no tener suficiente muestra (menos de 384 hogares).

En esta tabla se puede ver para cada provincia cuántos puntos suministro se han utilizado (segunda columna).


Provincia Núm. ptos. suministro analizados Número hogares INE Intervalo confianza Error
Araba/Álava 606 140.500 95% 3,98%
Albacete 761 150.100 95% 3,55%
Alicante/Alacant 4.589 747.600 95% 1,45%
Almería 1.663 258.900 95% 2,40%
Ávila 586 66.800 95% 4,05%
Badajoz 2.384 264.400 95% 2,01%
Balears, Illes 4.745 448.800 95% 1,42%
Barcelona 21.121 2.198.600 95% 0,67%
Burgos 1.566 149.700 95% 2,48%
Cáceres 1.209 165.200 95% 2,82%
Cádiz 5.394 463.900 95% 1,33%
Castellón/Castelló 2.200 230.500 95% 2,09%
Ciudad Real 513 193.900 95% 4,33%
Córdoba 1.823 303.600 95% 2,30%
Coruña, A 542 449.700 95% 4,21%
Cuenca 520 79.800 95% 4,30%
Girona 2.880 290.600 95% 1,83%
Granada 1.134 364.500 95% 2,91%
Guadalajara 1.173 99.600 95% 2,86%
Gipuzkoa 1.640 284.900 95% 2,42%
Huelva 660 195.400 95% 3,81%
Huesca 628 88.000 95% 3,91%
Jaén 2.384 245.700 95% 2,01%
León 1.293 200.800 95% 2,73%
Lleida 641 176.600 95% 3,87%
Rioja, La 600 129.400 95% 4,00%
Lugo 550 136.300 95% 4,18%
Madrid 13.055 2.564.100 95% 0,86%
Málaga 6.885 642.100 95% 1,18%
Murcia 4.122 538.600 95% 1,53%
Navarra 1.151 255.300 95% 2,89%
Ourense 223 132.900 95% 6,56%
Asturias 1.639 455.200 95% 2,42%
Palencia 600 67.100 95% 4,00%
Palmas, Las 5.634 428.500 95% 1,31%
Pontevedra 159 363.500 95% 7,77%
Salamanca 562 141.500 95% 4,13%
Santa Cruz de Tenerife 4.937 402.700 95% 1,39%
Cantabria 987 239.100 95% 3,12%
Segovia 110 62.400 95% 9,34%
Sevilla 5.938 725.300 95% 1,27%
Soria 465 37.400 95% 4,54%
Tarragona 2.672 314.800 95% 1,90%
Teruel 519 54.200 95% 4,30%
Toledo 1.196 258.000 95% 2,83%
Valencia/València 5.479 1.017.100 95% 1,32%
Valladolid 601 218.200 95% 4,00%
Bizkaia 3.300 474.700 95% 1,71%
Zamora 517 76.600 95% 4,31%
Zaragoza 667 395.300 95% 3,79%
Ceuta no hay muestra -- -- --
Melilla no hay muestra -- -- --

Para detectar la hora de levantarse de los hogares se ha calculado el consumo base a partir de la media móvil menor de 4 elementos, siendo la hora de levantarse el momento de mayor incremento de consumo después de varias horas de consumo base.

Los datos sobre cómo se vacían las ciudades en verano utilizan una muestra de datos totalmente anonimizada de puntos de consumo de las ciudades más habitadas de España, entre los meses de mayo y octubre.

Los datos han sido tratados de la misma manera que se ha descrito previamente. Se ha generado un valor base para cada una de las ciudades partiendo del 2 de mayo (ya que el 1 de mayo es festivo) y a partir de ese día se han calculado porcentajes de hogares activos y vacíos. Se considera que un hogar está vacío si su consumo eléctrico no supera un umbral relativo al consumo base.