
Gabriel TolosaUniversidad Nacional de Luján | UNLU · Department of Basic Sciences
Gabriel Tolosa
Dr.
About
39
Publications
11,642
Reads
How we measure 'reads'
A 'read' is counted each time someone views a publication summary (such as the title, abstract, and list of authors), clicks on a figure, or views or downloads the full-text. Learn more
96
Citations
Citations since 2017
Introduction
I am professor of Computer Science at National University of Luján in Argentina. My research focuses mainly on information retrieval, the web and search technologies. Problems I work are motivated by dealing with large scale data.
Publications
Publications (39)
Improving web performance is a significant concern for network engineers. Protocols at application and transport layers impose functional limitations, so different versions of them has been developed and deployed. HTTP/1.1 has been actively studied and revised to improve overall download speed, resulting in HTTP/2. This new version claims to make w...
Social Networks have shown great growth relating the number of their users and generated content. For example, Twitter is used as a means to gather support, express ideas and opinions on various topics or interact with users with similar interests. In the latter case, the idea of community formation appears, that is, groups of users that are more c...
Las redes sociales han mostrado un gran crecimiento en cuanto a la cantidad de usuarios y contenido generado. Por ejemplo, Twitter es utilizado como medio para juntar apoyos, expresar ideas y opiniones sobre diversos temas o relacionarse con usuarios similares. En esté ultimo caso, aparece la idea de la formación de comunidades, es decir, grupos de...
Millones de consultas son procesadas diariamente por los motores de búsqueda web. En éstos la utilización de memoria caché es crucial para reducir el tiempo de respuesta y aumentar el rendimiento. En la literatura, diversos autores han propuesto la utilización de técnicas de aprendizaje automático para aumentar la eficiencia de la caché. Hasta el m...
En la actualidad existen incontables fuentes de información en tiempo real que provienen de redes de sensores, plataformas de observación del tiempo, mediciones de gases, observación de la tierra desde plataformas satelitales, ciudades inteligentes, entre un sin número de instrumentos que censan y transmiten datos. A su vez hay una creciente demand...
Modern information retrieval systems use several levels of caching to speedup computation by exploiting frequent, recent or costly data used in the past. Previous studies show that the use of caching techniques is crucial in search engines, as it helps reducing query response times and processing workloads on search servers. In this work we propose...
El protocolo HTTP es una de las bases de la Web (junto con el lenguaje HTML) y desde
su diseño original ha sufrido muy pocas modificaciones. Su primera versión, documentada en 1991es muy simple y fue pensada para recuperar un documento de hipertexto desde un servidor. Sin embargo, el crecimiento exponencial de Internet y el desarrollo de la web exi...
The impressive rise of user-generated content on the web in the hands of sites like Twitter imposes new challenges to search systems. The concept of real-time search emerges, increasing the role that efficient indexing and retrieval algorithms play in this scenario. Thousands of new updates need to be processed in the very moment they are generated...
Modern information retrieval systems use several levels of caching to speedup computation by exploiting frequent, recent or costly data used in the past. In this study we propose and evaluate a static cache that works simultaneously as list and intersection cache, offering a more efficient way of handling cache space. In addition, we propose effect...
We propose static, dynamic and hybrid cost-awarepolicies for intersection caching and we introduce three different strategies to solve a query computing list intersections. We run experiments over a simulation framework using real data for both document collection and text queries. We observe that: a) cost-aware policies outperform cost-oblivious p...
Web search engines achieve efficient performance by parti-tioning and replicating the indexing data structure used to support query processing. Current practice simply partitions and replicates the text collection on the set of cluster processors and then constructs in each processor an index data structure. This paper proposes a different ap-proac...
Resumen Se presenta un proyecto actualmente en desarrollo cuyo objetivo es la creación de un modelo de enriquecimiento de textos basado en la integración de recursos disponibles en el espacio web. El modelo propuesto pretende transformar textos planos lineales en hipertextos que provean información y recursos multimedia sobre entidades reconocidas....
Resumen La masificación de las comunicaciones de datos y el surgimiento de múltiples fuentes de información en-línea ha generado le necesidad de poner atención en el problema de realizar búsquedas sobre repositorios que se encuentran distribuidos. Este problema puede dividirse en tres partes: la representación de cada fuente a los efectos de permit...
The main objective of the book is to present a preliminary bibliography for an university course on Introduction to Information Retrieval, althought there is an excellent literature on the subject. We believe that it is a pedagogic contribution in order to introduce the basic concepts starting from a book writen in Spanish, with plenty of examples...
This article presents the most distinguishing features of the Argentinian web as found in a private sample of almost 10 million web pages from 150.000 sites collected in the early 2006. Particularly, we have studied page contents, link structure and technologies used in the construction of the sites. This study reveals a number of interesting facts...
Spanish Abstract: En este trabajo de investigación se caracteriza el espacio web argentino a partir del análisis de una muestra, tomada a principios del año 2006, cercana a los 10 millones de páginas extraídas de 150.000 sitios. En particular, se realizó análisis de contenidos, de enlaces y de tecnologías utilizadas para construir sitios. Los resul...
This article presents the results of research on the characterization of the Argentinian web domain over a sample of almost 10 million web pages from 150.000 sites collected in the early 2006. Particularly, we have studied page contents, link structure and technologies used in the construction of the sites. The results are consistent with earlier r...
ABSTRACT As a result of the expansion and consolidation of the Internet as the main medium for the transmission of electronic data, a huge amount of information of all kinds has become readily available to humanity. For the purpose of exploiting this information potential it is necessary to have ways of access that would make the information retrie...
The WWW is a public space used by different users with diverse objectives. Originally, it was a distributed repository which allowed to share informtion and –though this goal has not been forgetted- nowdays is a mean of publication and service for several kind of uses like commerce, publicity, education, entertainment and social contacts, among oth...
Peer-to-peer networks (P2P) are considered a valid approach for the construction of distributed systems. Further research projects in the last few years have focused on using this kind of networks as an alternative for solving different situations that have traditionally required centralized servers, such as search engines. This paper deals with th...
En el presente trabajo, se describe un prototipo de middleware que brinda soporte de comunicaciones a aplicaciones de usuario final sobre una red de aplicación (overlay network) que opera bajo el modelo de comunicaciones compañero a compañero (P2P). La arquitectura propuesta está basada en una red Gnutella y un prototipo de middleware codificado en...
Paper which has as main objective to characterize Paraguay’s web space, at the frame of the new tendences of growing and evolution. Given it is a system based on social interactions a better comprehension of its nature allows establishing patrons and tendences to draw better strategies which make easier to accede. Among the most significative data...
The aim of this work is to characterize the educational web domains of Argentina, Bolivia, Chile, Paraguay, Perú and Uruguay. For this purpose, a sample of each information domain was collected using an automatic crawling tool. These domains were later analyzed according to different aspects of their contents, links and technologies in order to det...
This article presents the first results of a work on the characterization and analysis of samples of Argentina’s educative space web. Particularly, it corresponds to national universities, in which a three level study was carried, finding similar parameters wiht other samples from the space web. We consider that this tasks, together with the inform...
Resumen La búsqueda de recursos – páginas o sitios web – que son referentes (o autoridades) en un tema particular es una tarea básica que ayuda a construir o mejorar distintos servicios de información. No obstante, es posible plantear el concepto de autoridad desde un nivel de abstracción mayor teniendo en cuenta el contenido de las páginas, para e...
Resumen Desde los últimos años es significativa la proliferación de sitios web dedicados a la provisión gratuita o paga de trabajos estudiantiles – a medida o no –, de exámenes, de trucos para copiarse en evaluaciones y demás. En Internet, en particular en el espacio web, la posibilidad de obtener grandes volúmenes de información provenientes de pá...
Resumen El estudio de las características de la Web, su dinamismo y el análisis de los distintos algoritmos que operan sobre ella se centran en modelar la misma como un grafo dirigido (webgraph). A partir de esto se pueden realizar diferentes tareas de análisis teniendo en cuenta la información aportada por este enfoque y que puede ser utilizada pa...
Resumen La evaluación de sistemas de recuperación requiere contar con colecciones de prueba compuestas por un corpus de documentos, un conjunto de necesidades de información (tópicos) y los juicios de relevancia. Éstas permiten evaluar diferentes estrategias y sistemas ya que permiten comprender la naturaleza de los resultados, compararlos con otro...
Resumen En el presente trabajo se describe un modelo basado en un conjunto de reglas heurísticas que permite la detección automática de documentos de carácter científico a partir del análisis lógico de su estructura. En particular, se definen 4 categorías de reglas que se aplican en diferentes niveles de especificidad. Se implementó un prototipo de...
Resumen En este trabajo se exponen los primeros resultados obtenidos de evaluación de un método de corrección ortográfica. Éste permite identificar errores y generar una lista de posibles reemplazos ordenada de acuerdo a la distancia que las sugerencias mantienen con la palabra incorrecta. El método opera en dos etapas de procesamiento. Primero, me...
Se presenta aDICS, un modelo de índice distribuido sobre una red compañero a compañero que soporta la
indexación completa de documentos de texto y permite búsquedas por palabras clave. Se propone dividir el índice
invertido de términos sobre un subconjunto de los nodos de la red, de acuerdo a las letras del alfabeto. Los nodos que
poseen documentos...
The present guide is a "quick and dirty" ,as anglosaxons say, with the objective of getting a first approach to the language. Perl means "Practical Extraction and Report Language". Its creator was Larry Wall and his goal was to simplify the usual task to perform in Unix operative systme. Today it is a general porpouse language, of high probability...
This document describes a new application protocol named Gnutella, which is destined to information storage and searching in distributed environments, working with the peer-to-peer network concept. Due to Gnutella was born as an end-user application program (and there's not a formal protocol specification). This paper pretends to formalize its oper...
Los agentes de software en la era de las redes globales son una herramienta vital para superar el fenómeno llamado "sobrecarga de información". El grado de madurez alcanzado en esta tecnología permite que hoy se puedan ver aplicaciones concretas funcionado en organizaciones, como así también en el escritorio del usuario hogareño. El objetivo de est...
Questions
Question (1)
I want to test some parallel implementations of greedy algorithms that solve NP-complete problems such as set-cover or max-matching.
Projects
Projects (7)
Desarrollar el transcriptoma más probable de cada una de las especies en estudio a partir del ensamblado de novo utilizando enfoques con y sin secuencia de referencia, que oficie como secuencia de referencia para la búsqueda y anotación de genes candidatos de interés.
The objective of this project is to investigate the processing tools (cleaning of reads and de novo assembling) through their application to RNA-Seq data of medicinal plant species, with the aim of obtaining a transcriptome of each species that works as a reference sequence.
El objetivo principal de la propuesta es estudiar, desarrollar, aplicar, validar y transferir modelos,algoritmos y técnicas que permitan construir herramientas y/o arquitecturas para abordar algunas de las problemáticas relacionadas con el tratamiento de información masiva utilizando algoritmos de aprendizaje automático de Big Data para dar respuestas en tiempo real. Se propone profundizar sobre el estado del arte y definir, analizar y evaluar nuevos enfoques sobre aprendizaje automático a partir de streaming de datos.




























































































