Este es un repositorio para el módulo de BigData y visualización de datos de Experto de la UPO.
Este proyecto se centra en el análisis del Global Terrorism Database (GTD), una base de datos de acceso abierto que incluye información sobre ataques terroristas en todo el mundo desde 1970 hasta 2017. Mantenida por el Consorcio Nacional para el Estudio del Terrorismo y Respuestas al Terrorismo (START), con sede en la Universidad de Maryland, esta base de datos contiene más de 180,000 incidentes terroristas, proporcionando una visión integral de las tendencias globales del terrorismo.
El GTD ofrece datos detallados sobre ubicaciones geográficas, tácticas, perpetradores, objetivos y resultados de ataques terroristas, basándose en artículos de medios no clasificados. Esta rica fuente de datos permite una exploración profunda de las tendencias del terrorismo, los cambios a lo largo del tiempo y las diferencias regionales, ayudando a entender mejor el panorama global del terrorismo y su impacto en España.
- Explorar las tendencias del terrorismo global desde 1970 hasta 2017.
- Identificar los países y regiones más afectados por el terrorismo.
- Evidenciar los ataques presentes por año en España.
- Contribuir al desarrollo de investigaciones en base a este conjunto de datos
Este análisis se realiza utilizando R y RStudio, aprovechando paquetes como dplyr
, ggplot2
, y leaflet
para manipulación de datos, visualización y mapeo geoespacial, respectivamente. La metodología incluye:
- Limpieza y Preparación de Datos: Selección de variables relevantes, manejo de valores faltantes y corrección de errores.
- Análisis Exploratorio de Datos (AED): Estadísticas descriptivas y visualizaciones iniciales para comprender la distribución de los datos.
- Visualización Avanzada: Creación de gráficos y mapas detallados para explorar las tendencias y patrones del terrorismo.
Para la creación de los códigos R se utilizó como apoyo ChatGPT 4. En todo caso, fueron corroborados, modificados y adaptados según su respuesta en R Studio 2023.12.1 para Windows.
/src
: Contiene scripts de R para el análisis y visualización de datos en la carpeta/img
. Para visualizar correctamente los archivoshtml
exportados en R, se recomienda descargar los mismos y ejecutarlos en local./data
: Directorio para los datasets utilizados y generados durante el análisis. Inicialmente se pensó cargar el dataset en formato CSV pero por su tamaño solo se colocó el enlace para redirigir al sitio oficial para su descarga. Por defecto, en todo código se toma /data/dataset_GTD.csv como el dataset existente que deberá descargar, renombrar y colocar en esta carpeta para que los códigos de /src sean rápidamente funcionales./docs
: Documentación adicional, incluyendo el GTD Codebook.README.md
: Descripción del proyecto, metodología, estructura del repositorio y cómo ejecutar los scripts.
Para reproducir este análisis, siga estos pasos:
- Clonar el repositorio a su máquina local.
- Abrir RStudio y establecer el directorio del repositorio clonado como su directorio de trabajo.
- Instalar los paquetes de R necesarios ejecutando
install.packages(c("dplyr", "ggplot2", "leaflet", "readr", "tidyr", "DT", "plotly", "highcharter", "stringr", "janitor", "lubridate", "sf"))
. - Descargar y reemplazar dataset dataset_GTD.csv según indicaciones en
/data/Data Set.md
- Ejecutar los scripts en el directorio
/src
en orden.
Para preguntas o colaboraciones, por favor, contacte al autor del proyecto a través de [email protected].