Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Bibliotecas digitales# Computación y lenguaje

Presentamos el conjunto de datos CoCon para artefactos de investigación

Un nuevo conjunto de datos que conecta artefactos de investigación y publicaciones para obtener insights más profundos.

― 7 minilectura


CoCon: Una NuevaCoCon: Una NuevaHerramienta deInvestigaciónpara mejores insights académicos.Conectando artefactos de investigación
Tabla de contenidos

En el mundo de la investigación, la cantidad de información puede ser abrumadora. Con tantos documentos, Conjuntos de datos y Métodos disponibles, puede ser difícil para los investigadores encontrar lo que necesitan. Para ayudar con este desafío, se han creado varios sistemas y herramientas para facilitar la búsqueda de información relevante. Sin embargo, muchos de estos sistemas son limitados porque solo se enfocan en artículos individuales o tipos de salidas de investigación.

Esta limitación es un problema porque los investigadores a menudo utilizan múltiples elementos como conjuntos de datos, métodos y otras herramientas en su trabajo. Por lo tanto, tener un sistema que pueda ver estos elementos juntos puede ofrecer una visión más completa del panorama académico.

La necesidad de un nuevo enfoque

La mayoría de los sistemas actuales recomiendan artículos basados en los intereses de una persona o sugieren conjuntos de datos específicos para Tareas de investigación dadas. Si bien estos son útiles, no tienen en cuenta toda la gama de recursos con los que los investigadores suelen trabajar. Cuando los investigadores avanzan en sus estudios, generalmente combinan diferentes artefactos o herramientas, y el uso de estos recursos combinados puede ser una señal de creatividad y perspicacia.

Para abordar esta brecha, se propone un nuevo conjunto de datos. Este conjunto de datos captura el uso combinado de varios artefactos de investigación en artículos académicos, proporcionando contexto al incluir el texto completo de los artículos. Este enfoque permite a los investigadores y desarrolladores ver cómo diferentes elementos están conectados y se utilizan juntos, ofreciendo una comprensión más rica de cómo evoluciona la investigación.

Descripción general del conjunto de datos

El conjunto de datos propuesto, denominado CoCon, incluye una amplia selección de artefactos de investigación y publicaciones. Contiene más de 35,000 artefactos diferentes, como conjuntos de datos, métodos, Modelos y tareas, vinculados a más de 340,000 artículos académicos. Esto crea una red donde cada artefacto y Publicación se representa como un punto y sus relaciones se muestran a través de líneas de conexión.

El conjunto de datos CoCon se construye a partir de una colección de artículos académicos y sus metadatos asociados. Su objetivo es presentar una imagen más clara de cómo se utilizan juntos varios elementos de investigación. Al examinar el texto dentro de los artículos, los investigadores pueden ver los contextos específicos en los que aparecen estos artefactos.

Fuentes de datos utilizadas

Crear un conjunto de datos así requiere fuentes de información confiables. Se consideran varias fuentes de datos conocidas para recopilar metadatos sobre artefactos de investigación y publicaciones. Entre estas, las fuentes elegidas son Papers With Code y unarXive.

Papers With Code es una excelente fuente para obtener información detallada sobre varios artefactos de investigación. Incluye datos actualizados y extensos, cubriendo diferentes aspectos de la investigación en aprendizaje automático. La selección de esta fuente permite una colección más amplia y reciente de artefactos que otras alternativas.

Por otro lado, unarXive se utiliza para acceder al texto completo de los artículos, lo que permite a los investigadores conectar los metadatos de Papers With Code con el contenido real de las publicaciones. Esta combinación mejora la capacidad de analizar cómo se utilizan los artefactos en el trabajo de investigación real.

Creación del conjunto de datos

Para construir el conjunto de datos CoCon, se siguió un conjunto de pasos. Primero, se revisaron y seleccionaron las fuentes de datos necesarias en función de su relevancia y calidad. Una vez identificadas las fuentes, el siguiente paso fue limpiar y procesar los datos para asegurarse de que se pudieran usar efectivamente en un formato de gráfico.

Los artefactos se organizaron según sus tipos, como conjuntos de datos, modelos, métodos y tareas. Cada artefacto se vinculó a las publicaciones específicas en las que aparecía. Extraer segmentos de texto de los artículos donde se mencionaban estos artefactos permitió a los investigadores entender mejor el contexto, mostrando no solo que un artefacto fue referenciado, sino cómo se utilizó dentro de la investigación.

Descripción de la estructura del gráfico

El conjunto de datos CoCon funciona como un gráfico, que es una colección de puntos (o nodos) conectados por líneas (o bordes). En este gráfico, los nodos representan diferentes artefactos de investigación y publicaciones. Los bordes ilustran las relaciones entre ellos, mostrando qué artefactos se utilizaron en qué artículos.

El número total de nodos incluye más de 340,000 nodos de publicación y más de 35,000 nodos de artefacto. Esto crea una estructura compleja y dinámica que refleja las interconexiones del mundo real entre diversos esfuerzos de investigación. El modelo también incorpora peso en los bordes para representar con qué frecuencia se utilizan juntos diferentes artefactos en varias publicaciones.

Uso del conjunto de datos

Los investigadores pueden utilizar el conjunto de datos CoCon de varias maneras. Por ejemplo, puede ayudar a identificar tendencias en el uso de diferentes artefactos de investigación o evaluar con qué frecuencia se aplican métodos específicos a ciertas tareas. Estos datos pueden apoyar estudios destinados a mejorar las prácticas de investigación y avanzar en el conocimiento en el campo.

Otro aspecto significativo del conjunto de datos CoCon es su potencial para aplicaciones de aprendizaje automático. Al utilizar este conjunto de datos, los desarrolladores pueden crear sistemas más inteligentes que pueden predecir qué artefactos se utilizarán juntos en futuras investigaciones. Esto podría llevar a mejores recomendaciones para los investigadores, ayudándoles a encontrar las herramientas y artículos que mejor se alineen con sus necesidades.

Tareas predictivas

Una aplicación notable del conjunto de datos CoCon involucra tareas de predicción de enlaces, específicamente predecir el uso futuro de artefactos de investigación juntos. Esto implica analizar los patrones en los datos para prever qué artefactos podrían utilizarse en conjunto en futuros estudios.

La predicción se puede abordar de diferentes maneras. Una tarea sencilla podría centrarse en predecir si un par de artefactos se utilizará junto en el futuro inmediato. Alternativamente, los investigadores también podrían considerar marcos de tiempo más amplios, estimando si dos artefactos serán relevantes entre sí en algún momento en el futuro.

Implementar tales tareas predictivas puede ayudar a los investigadores a descubrir conexiones que quizás no habían considerado antes. Al alertarlos sobre posibles combinaciones de métodos, conjuntos de datos o modelos, estos sistemas predictivos pueden guiar sus direcciones de investigación.

Direcciones futuras

El desarrollo del conjunto de datos CoCon abre varias avenidas para una mayor exploración. Los investigadores podrían centrarse en refinar las predicciones realizadas por los sistemas de aprendizaje automático utilizando estos datos. También podrían considerar cómo mejorar el conjunto de datos con información adicional a lo largo del tiempo.

Otra área interesante podría ser extender las tareas predictivas para incluir otras dimensiones, como cambios en el uso de métodos específicos o el impacto de nuevas publicaciones en las tendencias de investigación existentes. Esto puede proporcionar una comprensión más profunda de cómo evoluciona la investigación y resaltar áreas emergentes de interés.

Conclusión

En resumen, el conjunto de datos CoCon representa un paso significativo hacia proporcionar una visión más completa de los artefactos de investigación y su uso en artículos académicos. Al vincular una gran variedad de artefactos con numerosas publicaciones y sus contextos, equipa a los investigadores con información valiosa. La integración de herramientas de aprendizaje automático mejorará aún más su utilidad al predecir futuras colaboraciones entre artefactos de investigación.

A medida que el panorama de la investigación continúa creciendo y cambiando, sistemas como CoCon son esenciales para ayudar a los académicos a gestionar mejor la información. Tienen el potencial de agilizar los procesos de investigación y fomentar la innovación al resaltar conexiones que pueden llevar a nuevas ideas y descubrimientos.

Fuente original

Título: CoCon: A Data Set on Combined Contextualized Research Artifact Use

Resumen: In the wake of information overload in academia, methodologies and systems for search, recommendation, and prediction to aid researchers in identifying relevant research are actively studied and developed. Existing work, however, is limited in terms of granularity, focusing only on the level of papers or a single type of artifact, such as data sets. To enable more holistic analyses and systems dealing with academic publications and their content, we propose CoCon, a large scholarly data set reflecting the combined use of research artifacts, contextualized in academic publications' full-text. Our data set comprises 35 k artifacts (data sets, methods, models, and tasks) and 340 k publications. We additionally formalize a link prediction task for "combined research artifact use prediction" and provide code to utilize analyses of and the development of ML applications on our data. All data and code is publicly available at https://github.com/IllDepence/contextgraph.

Autores: Tarek Saier, Youxiang Dong, Michael Färber

Última actualización: 2023-03-27 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2303.15193

Fuente PDF: https://arxiv.org/pdf/2303.15193

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares