Nuestro artículo está disponible aquí a través de la revista científica Hydrology and Earth System Sciences journal.
Los artículos en inglés utilizados en el modelo se colectaron de las revistas de las bases de datos Web of Science y Scopus, así como de documentos de un archivo de referencias ensamblado de EndNote. Los artículos en español y portugués se descargaron manualmente. Por primera vez, se cuenta con una colección completa de textos revisados por pares relacionados con la investigación del recurso hídrico de los países de América Latina y el Caribe. Este corpus es la información base para construir nuestros modelos de tópicos. Se puede encontrar más información en los materiales complementarios del artículo de investigación.
Un modelo de tópicos es un modelo estadístico que utiliza LDA (latent Dirichlet allocation) para determinar la probabilidad de correspondencia entre temas específicos en una colección de documentos. El modelo genera estos tópicos basándose en la co-ocurrencia de palabras. Una vez ejecutado el modelo, clasificamos los temas en cuatro categorías: temas generales de investigación (utilizando las categorías de NSF, National Science Foundation por sus siglas en inglés), temas específicos, temas del balance hídrico y métodos. Los resultados nos permiten interpretar cuáles son los temas de investigación de los recursos hídricos con mayor y menor investigación, o en otras palabras, cuáles son los temas más y menos estudiados de los recursos hídricos en América Latina.
Un tópico engloba un grupo de palabras estadísticamente relevantes y co-ocurrentes relacionadas con un tema específico. Cada tópico está etiquetado con un número, tema, tema específico de National Science Foundation (NSF), tema general de la NSF, y contiene una breve descripción.
Una etiqueta de tópico abarca un grupo de palabras estadísticamente relevantes y concurrentes relacionadas a un tópico específico. Para cada tópico se asignó un número, un tema, un tema específico de National Science Foundation (NSF), un tema general de NSF y contiene una breve descripción.
Puede encontrar más información sobre los temas específicos de NSF en NSF Lista de campos de estudio.
Para navegar por el modelo de tópicos, primero debe encontrar los números correspondientes a las etiquetas de los tópicos relacionados con su consulta. Consulte las etiquetas de temas en la parte inferior de la página de descripción de temas para encontrar el número que representa el tema que desea investigar. Por defecto, la tabla se organizará por el número correspondiente a cada tema (sugerencia: puede utilizar la herramienta de búsqueda para una búsqueda rápida sobre un tema determinado que le interese). Consulte las instrucciones de las etiquetas de los temas para obtener más información sobre la navegación de la pestaña de etiquetas de los temas.
Una vez que tenga su número de tema, hay varias maneras de buscarlo dentro del modelo de tópicos. La opción más sencilla es insertar un número en la barra de búsqueda de temas seleccionados. También puede navegar hasta el tema seleccionando los botones Tema siguiente y Tema anterior, o haciendo clic en el círculo con su número de tema. Un tema se resalta en rojo cuando se selecciona. Para restablecer el modelo, seleccione Borrar tema (Clear Topic).
Ahora que su tema está resaltado en la página, vamos a revisar cómo interpretar los datos. La página está organizada en dos paneles. En el lado izquierdo hay un plano bidimensional, titulado Mapa de distancia entre temas (a través de la escala multidimensional), que proyecta la distancia relativa entre cada tema. Los temas también están representados por un círculo, cuyo centro está determinado por la divergencia Jensen-Shannon, mientras que el área está determinada por la prevalencia de cada tema.
El lado derecho, Top-30 Most Relevant Terms for Topic –, es un gráfico de barras horizontales que muestra las 30 palabras que aparecen con mayor frecuencia dentro del tópico seleccionado. Para cada palabra, la barra azul representa su frecuencia en todo el corpus, mientras que la barra roja representa su frecuencia específica para el tópico. En la parte superior, una barra deslizante λ permite modificar la probabilidad específica del tópico, lo que reordenará la clasificación de los 30 primeros términos según su relevancia.
Al deslizar el cursor sobre las palabras en el panel de términos relevantes, las burbujas se organizan a la izquierda para demostrar la probabilidad del término específico. Esto es esencialmente la frecuencia predicha con la cual el término aparece en los temas relevantes.
Se utilizó un modelo de asignación de Dirichlet latente (LDA) para identificar 105 temas en el corpus inglés y 65 temas en los corpus español y portugués. Nuestro equipo de investigación interdisciplinar etiquetó los temas leyendo un subconjunto aleatorio de 2.000 artículos e identificando manualmente etiquetas de una sola palabra basadas en palabras clave y en los principales temas de investigación. Los temas se etiquetaron como “irrelevantes” si varios miembros del equipo no podían determinar un tema coherente a partir de las palabras más frecuentes de un tema. El resto de los temas relevantes fueron etiquetados con cinco etiquetas (véase más abajo) de forma independiente por varios revisores.
Se asignaron etiquetas a los temas para cada uno de los siguientes niveles (i) nombre específico del tema; (ii) tema; (iii) específico; o (iv) categorías amplias de investigación científica según la definición de la National Science Foundation (NSF) de EE.UU.; y (v) descripción: escala espacial, presupuesto de agua o métodos. A continuación, estas etiquetas se consolidaron en cuatro categorías temáticas: general, específica, métodos y balance hídrico.
Los temas irrelevantes son temas que no tienen relevancia para la pregunta de investigación. No están incluidos en ninguno de los temas o lugares estudiados por NSF. Por lo general, son difíciles de interpretar porque no tienen un significado discernible o son demasiado generales. Por ejemplo, el tema 59 se compone de palabras comunes en español y portugués que no se relacionan con ninguno de los temas existentes.
El grupo de investigación interdisciplinar, compuesto por ocho expertos relacionados al recurso hídrico, asignó etiquetas a cada tema, evaluando al mismo tiempo su importancia, y describió cada tema en función de si estaba relacionado con una escala espacial, método o con el balance hídrico. Hay 17 temas descritos como balance hídrico y 13 temas descritos como métodos.
El usuario puede descargar las etiquetas de los temas así como los artículos en la sección de la lista de artículos porque juntos pueden actuar como un conjunto de datos que pueden ser utilizados para una mayor exploración del compendio de artículos. La tabla muestra los cuatro niveles de relación temática que pretende explicar el contexto científico, político y sociológico que rodea la investigación de los recursos hídricos en América Latina y el Caribe.
El usuario puede descargar las etiquetas de los temas así como los artículos en la sección de la lista de artículos porque juntos pueden actuar como un conjunto de datos que pueden ser utilizados para una mayor exploración del compendio de artículos. La tabla muestra los cuatro niveles de relación temática que pretende explicar el contexto científico, político y sociológico que rodea la investigación de los recursos hídricos en América Latina y el Caribe.
La tabla de listados de artículos proporciona metadatos para todos los artículos que componen cada uno de los tres corpus de la plataforma (inglés, portugués y español). Estos metadatos incluyen información como el autor o autores, el título, el año, la fuente y el DOI de cada artículo; los listados en inglés también proporcionan un país de estudio previsto, un tema principal y una etiqueta de tema. Los usuarios pueden buscar o filtrar artículos específicos de interés, utilizando la información de publicación o las asociaciones de temas (cuando estén disponibles). En el modelo de tópico en inglés, las conexiones temáticas pueden explorarse más a fondo en la pestaña “Topic Overview”. La tabla de listados de artículos también proporciona un método para explorar cómo se relacionan los artículos con los temas generales y específicos de NSF, tanto en el contexto de los modelos de tópicos como en otras visualizaciones del sitio de wateReview, incluyendo:
Los corpus en español y portugues no contaron con un número suficiente de artículos para sacar conclusiones significativas y generalizables basándose únicamente en los modelos temáticos en español y portugués. Para un conjunto de temas específicos, comparamos los resultados del modelo de tópico del corpus en inglés con los resultados de los otros dos corpus. A pesar de la relativa falta de datos, determinamos que había una concordancia significativa entre los temas presentes en los modelos de los tres corpus, lo que nos permitió concluir que el corpus en inglés podría ser representativo de los corpus portugués y español. Por lo tanto, decidimos utilizar los resultados del modelo de tópicos en inglés como base para los análisis de este estudio, incluyendo nuestros análisis de la dispersión de la investigación y la conectividad. Para más detalles, consulte la Figura 1 y las Tablas S4-6 de nuestro artículo.
Los países se agruparon en relación con las características sociales e hidrológicas y las matrices de validación. La agrupación se realizó utilizando distancias euclidianas y siguiendo el criterio de Ward. Tanto la suma de cuadrados como el promedio de la silueta (Average Silhouette) indicaron que el número óptimo de clusters es de dos. Sin embargo, una verificación posterior a través de las dimensiones del PCA (análisis de componentes principales) indicó que el clúster con México y Brasil es significativamente distinto de los demás países.
Además, se han empleado cuatro métricas de validación para evaluar la estabilidad de la agrupación bajo el conjunto completo de variables de agrupación mediante un procedimiento iterativo en el que se elimina una variable del conjunto:
Las métricas de validación muestran valores nulos óptimos de APN y ADM para dos o tres clusters. Además, AD y FOM presentan valores más bajos para tres clusters que para dos. Basándonos en estos resultados, elegimos tres clusters para describir la agrupación de países en función de sus variables socio-hidrológicas.
Para más información sobre el proceso de agrupación, consulte el documento o la sección sobre agrupación en la documentación del paquete R de wateReview.
Porque no se ha podido obtener suficiente información sobre las características hidrológicas y sociales para agrupar esos países con los demás. Sin embargo, esos países siguen representando países menos estudiados ( Blind Spots) en cuanto a la investigación sobre los recursos hídricos. Más concretamente, no se han incluido los países con menos de 30 artículos.
Algunos países no tienen una ficha completa porque no hubo suficiente producción científica (artículos científicos) para sacar conclusiones significativas dentro de nuestro estudio. Si el listado de artículos de cada país no suma 30, el listado aparecerá sin datos.
Los temas más estudiados (Bright Spots) son temas y lugares en los que las investigaciones sobre los recursos hídricos han sido más estudiadas en mayor volumen, con mayor conectividad y una dispersión equitativa. Algunos ejemplos son países como Brasil y México y temas dentro de las ciencias físicas (Physical Science) y las ciencias de la vida (Life Science).
Son los temas menos estudiados (Blind Spots) y lugares en los que las investigaciones sobre los recursos hídricos han sido menos estudiadas con menor volumen de artículos, con menor conectividad y una dispersión desigual. Entre ellos se encuentran lugares como las naciones del Caribe y América Central, y temas como los embalses y la evaluación de riesgos. Es posible que los futuros investigadores quieran centrarse en estas regiones o temas para contribuir a una comprensión más completa de la investigación sobre los recursos hídricos en los países de América Latina y el Caribe.
Los temas más y menos estudiados (Bright and Blight Spots) se determinaron en función del análisis de la abundancia, la dispersión y la conectividad de los temas sobre los recursos hídricos en América Latina y el Caribe. La dispersión se estimó mediante el análisis de la normalidad de los temas entre países y artículos, que se describe por la proximidad de la distribución de probabilidad de un tema a la distribución normal estándar. La conectividad se determinó con una red de citas ponderada entre países y temas, que describe la probabilidad de que un nodo específico (país o tema) sea citado por otros nodos.
Para más información sobre el análisis de normalidad de los temas, consulte la sección de normalidad más abajo.
Los valores son indicadores del volumen de investigación según el país y el tema. Cuanto mayor sea el valor, mayor será la investigación sobre el tema en ese lugar. Estos valores son los mismos en todos los gráficos de intensidad y pueden descargarse en forma de archivo Excel desde la página. Mientras tanto, los colores se escalan por fila y varían según el país. Esto significa que al observar los colores de una sola columna, es posible ver cuánto se estudia un tema en ese país, o esencialmente, los temas y menos estudios de ese país.
Ungráfico de correspondencia (diagrama de Sankey) es una visualización gráfica del volumen previsto de investigación sobre el agua en los países de América Latina y el Caribe, basado en el 25% superior o inferior de los temas estudiados en un país (en función de si el diagrama muestra temas y menos estudiados). Cada nación está representada por el color de su grupo socio-hidrológico, y el tamaño del color es relativo a la cantidad predicha de investigación sobre el país en todo el compendio de artículos (corpus). Las barras de la derecha representan temas específicos y son proporcionales a un tema determinado. Las líneas individuales representan la proporción de un tema en el 25% superior o inferior de los temas de un país determinado.
Los colores del diagrama corresponden al grupo socio-hidrológico que integran los países latinoamericanos. A la izquierda están los temas generales de NSF que se subdividen en temas específicos. El grosor de los países y las categorías de temas es proporcional a la cantidad predicha de investigación en estos países y temas.
Por ejemplo, países como Brasil, México y Chile han producido la mayor proporción de la investigación sobre los recursos hídricos. Los temas relacionados a las ciencias físicas y de la vida son los que dominan en la investigación de los recursos hídricos en América Latina. Por otro lado, las ciencias sociales están considerablemente menos estudiadas, y hay una escasez de investigaciones en la región del Caribe y América Central.
El grupo hidrosocial 1 está formado por Brasil y México, los países de América Latina con mayor representación en las investigaciones de los recursos hídricos.
Los grupos hidrosociales se definieron a partir de 37 indicadores extraídos de base de datos construidas por instituciones internacionales. Los indicadores están relacionados a la salud ambiental, la disponibilidad de recursos hídricos, las características políticas, la calidad de vida y las evaluaciones de riesgo de cada país. La comparación de los métodos de agrupación y las métricas de validación determinaron el número óptimo de tres grupos.Para más detalles sobre nuestros métodos de agrupación y validación consulte el artículo de investigación. Para más detalles sobre las bases de datos utilizadas consulte los siguientes enlaces:
La lista de temas no investigados indica qué categorías generales no representan ningún dato dentro de un grupo socio-hidrológico específico y dentro del objetivo de nuestro estudio. Esto significa que la probabilidad de que cada tema de la lista se investigue en relación con el recurso hídrico es significativamente baja. Por ejemplo, no podemos concluir que no haya investigaciones relacionadas con la zoología ( animal science) y el recurso hídrico en el Grupo 1, pero es probable que sean muy limitadas.
La distribución normal se calculó entre los temas y entre los países utilizando la distancia Jensen-Shannon. Consulte el Apéndice A del artículo para ver una derivación detenida de la distancia Jensen-Shannon.
Cuando la normalidad entre países ( Normality across country) (eje y) y la normalidad entre artículos ( Normality across documents) (eje x) se acercan a 1, la distribución de los temas entre los documentos y los países es estandarizada, lo que significa que la distribución es uniforme. Por ejemplo, el gráfico de Temas Específicos de NSF muestra un punto en la esquina superior derecha con valores cercanos a 1, lo que sugiere que la hidrología y los recursos hídricos presentan distribuciones cercanas a la normalidad entre países y documentos. En el gráfico de los temas, el grupo de puntos en la esquina superior izquierda sugiere que la mayoría de los temas se distribuyen de forma casi normal entre los países, pero están distantes de la tendencia normal entre los temas.
Se excluyen algunos países de América Central y el Caribe debido a la escasez de investigaciones en estas regiones.
Los diagramas de red de citas muestran la conexión entre países y/o temas basándose en el grado de conectividad estimado, que es la probabilidad de que un nodo sea citado por otros nodos. Se mide por las citas direccionales entre las características de los artículos. La dirección de las líneas de conexión puede visualizarse deslizando el cursor sobre las líneas que conectan un tema con otro.
Los nodos representan países o temas según el gráfico, y las líneas de conexión (edge) unen cada país o tema (nodo). El tamaño de los nodos es proporcional al volumen de investigación. El grosor de las líneas de conexión es relativo al grado de la conexión, la proporción de citas que puede visualizarse deslizando el cursor sobre la línea.
Para explorar los grados de conectividad, ajuste el volumen de citas a un rango de su interés. Los rangos para las proporciones de conexión bajas, medias y altas se enumeran en el botón de información situado en la parte superior de la página.
El tamaño de los nodos representa el volumen de investigación relacionado con cada país o tema (según el diagrama).
Las líneas representan la conexión entre los nodos. El grosor de las líneas de conexión están en función del peso de la conexión entre los nodos. Cuanto más gruesa es la línea de conexión, más fuerte es la conexión.
Una autocita es cuando un país o tema (nodo) cita sus propios artículos. Se representa en las redes de citas como una línea que empieza y termina en el mismo nodo. Si hay un valor de autocitación relativamente grande, esto puede indicar que los mismos grupos de personas están estudiando esos temas sin colaboraciones interdisciplinarias.
Para cada nodo (país o tema), el grado de entrada ponderado es el número de líneas de conexión entrantes y el grado de salida ponderado es el número de líneas de conexión salientes.
Consulte la lista de campos de estudio de la NSF para ver una clasificación de las categorías.