Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos

El objetivo de este artículo es hacer uso de la técnica Web Scraping para extraer datos de Google Scholar (GS)a través de diferentes métodos. El Web Scraping es una forma de minería de datos no estructurada, que permite extraer información de páginas web, escanear su código HTML y generar patrones d...

ver descrição completa

Na minha lista:
Detalhes bibliográficos
Autor principal: Murillo, Danny (author)
Outros Autores: Saavedra, Dalys (author), Quintero, Erika (author)
Formato: article
Idioma:espanhol
Publicado em: 2018
Assuntos:
Acesso em linha:http://revistas.utp.ac.pa/index.php/id-tecnologico/article/view/1807
https://doi.org/10.33412/idt.v14.1.1807
http://ridda2.utp.ac.pa/handle/123456789/4932
Tags: Adicionar Tag
Sem tags, seja o primeiro a adicionar uma tag!
_version_ 1869652467587743744
author Murillo, Danny
author2 Saavedra, Dalys
Quintero, Erika
author2_role author
author
author_browse Murillo, Danny
Quintero, Erika
Saavedra, Dalys
author_facet Murillo, Danny
Saavedra, Dalys
Quintero, Erika
author_role author
collection Repositorio Institucional de documento digitales de acceso abierto de la UTP
dc.contributor.none.fl_str_mv
dc.creator.none.fl_str_mv Murillo, Danny
Saavedra, Dalys
Quintero, Erika
dc.date.none.fl_str_mv 2018-06-11
2018-06-14T18:33:59Z
2018-06-14T18:33:59Z
dc.format.none.fl_str_mv application/pdf
dc.identifier.none.fl_str_mv http://revistas.utp.ac.pa/index.php/id-tecnologico/article/view/1807
https://doi.org/10.33412/idt.v14.1.1807
http://ridda2.utp.ac.pa/handle/123456789/4932
dc.language.none.fl_str_mv spa
dc.publisher.none.fl_str_mv Universidad Tecnológica de Panamá
dc.relation.none.fl_str_mv http://revistas.utp.ac.pa/index.php/id-tecnologico/article/view/1807/pdf
/*ref*/A. M. VELÁZQUEZ, “Tim Berners-Lee: «El papel no desaparecerá, siempre habrá cosas que nos guste leer en ese formato»,” 2012. [Online]. Available: http://www.lne.es/asturama/2012/02/15/tim-berners-lee-papel-desaparecera-habra-cosas-guste-leer-formato/1199452.html.
/*ref*/M. Castells, “Internet y la Sociedad Red,” La Factoría, vol. 14–15, pp. 1–12, 2001.
/*ref*/M. F. Berners-Lee, “Weaving the Web. HarperOne,” 1999.
/*ref*/J. R. Sánchez Carballido, “Perspectivas de la información en Internet: ciberdemocracia, redes sociales y web semántica,” Zer-Revista Estud. Comun., vol. 13; n.° 25, pp. 61–81, 2011.
/*ref*/L. C. Silva Ayçaguer, “El índice-H y Google Académico: una simbiosis cienciométrica inclusiva,” ACIMED, vol. 23, no. 3, pp. 308–322.
/*ref*/M. Oficial and E. N. Log, “Logística , Transporte Y Cadena De,” 2014.
/*ref*/D. Torres and Á. Cabezas, “Altmetrics : nuevos indicadores para la comunicación científica en la Web 2 . 0,” pp. 53–60, 2013.
/*ref*/UIAF, “Técnicas de minería de datos para la detección y prevención del lavado de activos y la fi nanciación del terrorismo (LA/FT),” p. 35, 2014.
/*ref*/J. C. Riquelme, R. Ruiz, and K. Gilbert, “Minería de datos: Conceptos y tendencias,” Intel. Artif., vol. 10, no. 29, pp. 11–18, 2006.
/*ref*/R. B. Penman and D. Martinez, “Web Scraping Made Simple with SiteScraper.”
/*ref*/H. Jiawei, M. Kamber, J. Han, M. Kamber, and J. Pei, Data Mining: Concepts and Techniques. 2012.
/*ref*/D. I. Directions, T. Mining, U. K. Further, and H. Education, “The Value and Benefits of Text Mining,” no. March, 2012.
/*ref*/D. S. Danny Murillo, “Implementación de Plataforma Digital de Revistas Académicas y Científicas electrónicas en la Universidad Tecnológica de Panamá para mejorar su visibilidad a nivel nacional e internacional,” in Tecnología, innovación e investigación en los procesos de enseñanza-aprendizaje, 2016, pp. 936–947.
/*ref*/S. Shi, C. Liu, Y. Shen, C. Yuan, and Y. Huang, “AutoRM: An effective approach for automatic Web data record mining,” Knowledge-Based Syst., vol. 89, pp. 314–331, 2015.
/*ref*/V. Bharanipriya and V. K. Prasad, “Web Content Mining Tools : a Comparative Study,” Int. J. Inf. Technol. Knowl. Manag., vol. 4, no. 1, pp. 211–215, 2011.
/*ref*/F. Borrego, “Alternativas para realizar web scraping,” 2017. [Online]. Available: http://felicianoborrego.com/alternativas-para-realizar-web-scraping/.
/*ref*/M. Peshave, “How Search Engines Work and a Web Crawler Application,” 2010.
/*ref*/Scrapehero, “Scalable do-it-yourself scraping – How to build and run scrapers on a large scale,” 2015. [Online]. Available: https://www.scrapehero.com/scalable-do-it-yourself-scraping-how-to-build-and-run-scrapers-on-a-large-scale/.
/*ref*/R. Cotton, Learning R, O´RELLY. 2013.
/*ref*/K. Cichini, “GScholarScraper_3.1,” 2012. [Online]. Available: https://github.com/gimoya/theBioBucket-Archives/blob/master/R/Functions/GScholarScraper_3.1.R.
/*ref*/J. Keirstead, “Package Scholar,” 2015. [Online]. Available: https://cran.r-project.org/web/packages/scholar/index.html.
/*ref*/Extension Google Chrome, “Scraper,” 2015. [Online]. Available: https://chrome.google.com/webstore/detail/scraper/mbigbapnjcgaffohmbkdlecaccepngjd?utm_source=chrome-app-launcher-info-dialog.
/*ref*/Fminer, “FMiner Scraping,” 2015. [Online]. Available: http://www.fminer.com/.
/*ref*/Import.io, “Import.io,” 2016. [Online]. Available: https://www.import.io/.
/*ref*/E. Ferrara, P. De Meo, G. Fiumara, and R. Baumgartner, “Web data extraction, applications and techniques: A survey,” Knowledge-Based Syst., vol. 70, pp. 301–323, 2014.
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.source.none.fl_str_mv 2219-6714
1680-8894
I+D Tecnológico; Vol. 14, Núm. 1 (2018): Revista de I+D Tecnológico; 95-105
reponame:Repositorio Institucional de documento digitales de acceso abierto de la UTP
instname:Universidad Tecnológica de Panamá
instacron:U Tecnológica de Panamá
dc.subject.none.fl_str_mv Web Scraping, Google Scholar, minería de datos, lenguaje R, análisis de datos.
dc.title.none.fl_str_mv Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
description El objetivo de este artículo es hacer uso de la técnica Web Scraping para extraer datos de Google Scholar (GS)a través de diferentes métodos. El Web Scraping es una forma de minería de datos no estructurada, que permite extraer información de páginas web, escanear su código HTML y generar patrones de extracción de datos. Además, con el fin de realizar un análisis más profundo, se creó un algoritmo en el lenguaje R para comparar la velocidad de extracción de los datos y la eficiencia en el formato de salida de los datos. El artículo muestra las pruebas realizadas de estos métodos para medir la velocidad de extracción de los datos y buscar la mejor forma de extraer los datos de GS de forma estructurada.
eu_rights_str_mv openAccess
format article
id lrtest_7c33965b4f34d11b5d592b7b1bcd3e8a
instacron_str U Tecnológica de Panamá
institution U Tecnológica de Panamá
instname_str Universidad Tecnológica de Panamá
language spa
network_acronym_str lrtest
network_name_str lr
oai_identifier_str oai:ridda2.utp.ac.pa:123456789/4932
publishDate 2018
publishDateSort 2018
publisher.none.fl_str_mv Universidad Tecnológica de Panamá
reponame_str Repositorio Institucional de documento digitales de acceso abierto de la UTP
repository.mail.fl_str_mv
repository.name.fl_str_mv
repository_id_str
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
spelling Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datosMurillo, DannySaavedra, DalysQuintero, ErikaWeb Scraping, Google Scholar, minería de datos, lenguaje R, análisis de datos.El objetivo de este artículo es hacer uso de la técnica Web Scraping para extraer datos de Google Scholar (GS)a través de diferentes métodos. El Web Scraping es una forma de minería de datos no estructurada, que permite extraer información de páginas web, escanear su código HTML y generar patrones de extracción de datos. Además, con el fin de realizar un análisis más profundo, se creó un algoritmo en el lenguaje R para comparar la velocidad de extracción de los datos y la eficiencia en el formato de salida de los datos. El artículo muestra las pruebas realizadas de estos métodos para medir la velocidad de extracción de los datos y buscar la mejor forma de extraer los datos de GS de forma estructurada.Universidad Tecnológica de Panamá2018-06-112018-06-14T18:33:59Z2018-06-14T18:33:59Zinfo:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttp://revistas.utp.ac.pa/index.php/id-tecnologico/article/view/1807https://doi.org/10.33412/idt.v14.1.1807http://ridda2.utp.ac.pa/handle/123456789/49322219-67141680-8894I+D Tecnológico; Vol. 14, Núm. 1 (2018): Revista de I+D Tecnológico; 95-105reponame:Repositorio Institucional de documento digitales de acceso abierto de la UTPinstname:Universidad Tecnológica de Panamáinstacron:U Tecnológica de Panamáspahttp://revistas.utp.ac.pa/index.php/id-tecnologico/article/view/1807/pdf/*ref*/A. M. VELÁZQUEZ, “Tim Berners-Lee: «El papel no desaparecerá, siempre habrá cosas que nos guste leer en ese formato»,” 2012. [Online]. Available: http://www.lne.es/asturama/2012/02/15/tim-berners-lee-papel-desaparecera-habra-cosas-guste-leer-formato/1199452.html./*ref*/M. Castells, “Internet y la Sociedad Red,” La Factoría, vol. 14–15, pp. 1–12, 2001./*ref*/M. F. Berners-Lee, “Weaving the Web. HarperOne,” 1999./*ref*/J. R. Sánchez Carballido, “Perspectivas de la información en Internet: ciberdemocracia, redes sociales y web semántica,” Zer-Revista Estud. Comun., vol. 13; n.° 25, pp. 61–81, 2011./*ref*/L. C. Silva Ayçaguer, “El índice-H y Google Académico: una simbiosis cienciométrica inclusiva,” ACIMED, vol. 23, no. 3, pp. 308–322./*ref*/M. Oficial and E. N. Log, “Logística , Transporte Y Cadena De,” 2014./*ref*/D. Torres and Á. Cabezas, “Altmetrics : nuevos indicadores para la comunicación científica en la Web 2 . 0,” pp. 53–60, 2013./*ref*/UIAF, “Técnicas de minería de datos para la detección y prevención del lavado de activos y la fi nanciación del terrorismo (LA/FT),” p. 35, 2014./*ref*/J. C. Riquelme, R. Ruiz, and K. Gilbert, “Minería de datos: Conceptos y tendencias,” Intel. Artif., vol. 10, no. 29, pp. 11–18, 2006./*ref*/R. B. Penman and D. Martinez, “Web Scraping Made Simple with SiteScraper.”/*ref*/H. Jiawei, M. Kamber, J. Han, M. Kamber, and J. Pei, Data Mining: Concepts and Techniques. 2012./*ref*/D. I. Directions, T. Mining, U. K. Further, and H. Education, “The Value and Benefits of Text Mining,” no. March, 2012./*ref*/D. S. Danny Murillo, “Implementación de Plataforma Digital de Revistas Académicas y Científicas electrónicas en la Universidad Tecnológica de Panamá para mejorar su visibilidad a nivel nacional e internacional,” in Tecnología, innovación e investigación en los procesos de enseñanza-aprendizaje, 2016, pp. 936–947./*ref*/S. Shi, C. Liu, Y. Shen, C. Yuan, and Y. Huang, “AutoRM: An effective approach for automatic Web data record mining,” Knowledge-Based Syst., vol. 89, pp. 314–331, 2015./*ref*/V. Bharanipriya and V. K. Prasad, “Web Content Mining Tools : a Comparative Study,” Int. J. Inf. Technol. Knowl. Manag., vol. 4, no. 1, pp. 211–215, 2011./*ref*/F. Borrego, “Alternativas para realizar web scraping,” 2017. [Online]. Available: http://felicianoborrego.com/alternativas-para-realizar-web-scraping/./*ref*/M. Peshave, “How Search Engines Work and a Web Crawler Application,” 2010./*ref*/Scrapehero, “Scalable do-it-yourself scraping – How to build and run scrapers on a large scale,” 2015. [Online]. Available: https://www.scrapehero.com/scalable-do-it-yourself-scraping-how-to-build-and-run-scrapers-on-a-large-scale/./*ref*/R. Cotton, Learning R, O´RELLY. 2013./*ref*/K. Cichini, “GScholarScraper_3.1,” 2012. [Online]. Available: https://github.com/gimoya/theBioBucket-Archives/blob/master/R/Functions/GScholarScraper_3.1.R./*ref*/J. Keirstead, “Package Scholar,” 2015. [Online]. Available: https://cran.r-project.org/web/packages/scholar/index.html./*ref*/Extension Google Chrome, “Scraper,” 2015. [Online]. Available: https://chrome.google.com/webstore/detail/scraper/mbigbapnjcgaffohmbkdlecaccepngjd?utm_source=chrome-app-launcher-info-dialog./*ref*/Fminer, “FMiner Scraping,” 2015. [Online]. Available: http://www.fminer.com/./*ref*/Import.io, “Import.io,” 2016. [Online]. Available: https://www.import.io/./*ref*/E. Ferrara, P. De Meo, G. Fiumara, and R. Baumgartner, “Web data extraction, applications and techniques: A survey,” Knowledge-Based Syst., vol. 70, pp. 301–323, 2014.info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/4.0/oai:ridda2.utp.ac.pa:123456789/49322019-12-06T14:50:31Z
spellingShingle Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos
Murillo, Danny
Web Scraping, Google Scholar, minería de datos, lenguaje R, análisis de datos.
status_str publishedVersion
title Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos
title_full Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos
title_fullStr Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos
title_full_unstemmed Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos
title_short Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos
title_sort Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos
topic Web Scraping, Google Scholar, minería de datos, lenguaje R, análisis de datos.
url http://revistas.utp.ac.pa/index.php/id-tecnologico/article/view/1807
https://doi.org/10.33412/idt.v14.1.1807
http://ridda2.utp.ac.pa/handle/123456789/4932