Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos
El objetivo de este artículo es hacer uso de la técnica Web Scraping para extraer datos de Google Scholar (GS)a través de diferentes métodos. El Web Scraping es una forma de minería de datos no estructurada, que permite extraer información de páginas web, escanear su código HTML y generar patrones d...
Na minha lista:
| Autor principal: | |
|---|---|
| Outros Autores: | , |
| Formato: | article |
| Idioma: | espanhol |
| Publicado em: |
2018
|
| Assuntos: | |
| Acesso em linha: | http://revistas.utp.ac.pa/index.php/id-tecnologico/article/view/1807 https://doi.org/10.33412/idt.v14.1.1807 http://ridda2.utp.ac.pa/handle/123456789/4932 |
| Tags: |
Sem tags, seja o primeiro a adicionar uma tag!
|
| _version_ | 1869652467587743744 |
|---|---|
| author | Murillo, Danny |
| author2 | Saavedra, Dalys Quintero, Erika |
| author2_role | author author |
| author_browse | Murillo, Danny Quintero, Erika Saavedra, Dalys |
| author_facet | Murillo, Danny Saavedra, Dalys Quintero, Erika |
| author_role | author |
| collection | Repositorio Institucional de documento digitales de acceso abierto de la UTP |
| dc.contributor.none.fl_str_mv | |
| dc.creator.none.fl_str_mv | Murillo, Danny Saavedra, Dalys Quintero, Erika |
| dc.date.none.fl_str_mv | 2018-06-11 2018-06-14T18:33:59Z 2018-06-14T18:33:59Z |
| dc.format.none.fl_str_mv | application/pdf |
| dc.identifier.none.fl_str_mv | http://revistas.utp.ac.pa/index.php/id-tecnologico/article/view/1807 https://doi.org/10.33412/idt.v14.1.1807 http://ridda2.utp.ac.pa/handle/123456789/4932 |
| dc.language.none.fl_str_mv | spa |
| dc.publisher.none.fl_str_mv | Universidad Tecnológica de Panamá |
| dc.relation.none.fl_str_mv | http://revistas.utp.ac.pa/index.php/id-tecnologico/article/view/1807/pdf /*ref*/A. M. VELÁZQUEZ, “Tim Berners-Lee: «El papel no desaparecerá, siempre habrá cosas que nos guste leer en ese formato»,” 2012. [Online]. Available: http://www.lne.es/asturama/2012/02/15/tim-berners-lee-papel-desaparecera-habra-cosas-guste-leer-formato/1199452.html. /*ref*/M. Castells, “Internet y la Sociedad Red,” La Factoría, vol. 14–15, pp. 1–12, 2001. /*ref*/M. F. Berners-Lee, “Weaving the Web. HarperOne,” 1999. /*ref*/J. R. Sánchez Carballido, “Perspectivas de la información en Internet: ciberdemocracia, redes sociales y web semántica,” Zer-Revista Estud. Comun., vol. 13; n.° 25, pp. 61–81, 2011. /*ref*/L. C. Silva Ayçaguer, “El índice-H y Google Académico: una simbiosis cienciométrica inclusiva,” ACIMED, vol. 23, no. 3, pp. 308–322. /*ref*/M. Oficial and E. N. Log, “Logística , Transporte Y Cadena De,” 2014. /*ref*/D. Torres and Á. Cabezas, “Altmetrics : nuevos indicadores para la comunicación científica en la Web 2 . 0,” pp. 53–60, 2013. /*ref*/UIAF, “Técnicas de minería de datos para la detección y prevención del lavado de activos y la fi nanciación del terrorismo (LA/FT),” p. 35, 2014. /*ref*/J. C. Riquelme, R. Ruiz, and K. Gilbert, “Minería de datos: Conceptos y tendencias,” Intel. Artif., vol. 10, no. 29, pp. 11–18, 2006. /*ref*/R. B. Penman and D. Martinez, “Web Scraping Made Simple with SiteScraper.” /*ref*/H. Jiawei, M. Kamber, J. Han, M. Kamber, and J. Pei, Data Mining: Concepts and Techniques. 2012. /*ref*/D. I. Directions, T. Mining, U. K. Further, and H. Education, “The Value and Benefits of Text Mining,” no. March, 2012. /*ref*/D. S. Danny Murillo, “Implementación de Plataforma Digital de Revistas Académicas y Científicas electrónicas en la Universidad Tecnológica de Panamá para mejorar su visibilidad a nivel nacional e internacional,” in Tecnología, innovación e investigación en los procesos de enseñanza-aprendizaje, 2016, pp. 936–947. /*ref*/S. Shi, C. Liu, Y. Shen, C. Yuan, and Y. Huang, “AutoRM: An effective approach for automatic Web data record mining,” Knowledge-Based Syst., vol. 89, pp. 314–331, 2015. /*ref*/V. Bharanipriya and V. K. Prasad, “Web Content Mining Tools : a Comparative Study,” Int. J. Inf. Technol. Knowl. Manag., vol. 4, no. 1, pp. 211–215, 2011. /*ref*/F. Borrego, “Alternativas para realizar web scraping,” 2017. [Online]. Available: http://felicianoborrego.com/alternativas-para-realizar-web-scraping/. /*ref*/M. Peshave, “How Search Engines Work and a Web Crawler Application,” 2010. /*ref*/Scrapehero, “Scalable do-it-yourself scraping – How to build and run scrapers on a large scale,” 2015. [Online]. Available: https://www.scrapehero.com/scalable-do-it-yourself-scraping-how-to-build-and-run-scrapers-on-a-large-scale/. /*ref*/R. Cotton, Learning R, O´RELLY. 2013. /*ref*/K. Cichini, “GScholarScraper_3.1,” 2012. [Online]. Available: https://github.com/gimoya/theBioBucket-Archives/blob/master/R/Functions/GScholarScraper_3.1.R. /*ref*/J. Keirstead, “Package Scholar,” 2015. [Online]. Available: https://cran.r-project.org/web/packages/scholar/index.html. /*ref*/Extension Google Chrome, “Scraper,” 2015. [Online]. Available: https://chrome.google.com/webstore/detail/scraper/mbigbapnjcgaffohmbkdlecaccepngjd?utm_source=chrome-app-launcher-info-dialog. /*ref*/Fminer, “FMiner Scraping,” 2015. [Online]. Available: http://www.fminer.com/. /*ref*/Import.io, “Import.io,” 2016. [Online]. Available: https://www.import.io/. /*ref*/E. Ferrara, P. De Meo, G. Fiumara, and R. Baumgartner, “Web data extraction, applications and techniques: A survey,” Knowledge-Based Syst., vol. 70, pp. 301–323, 2014. |
| dc.rights.none.fl_str_mv | info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/4.0/ |
| dc.source.none.fl_str_mv | 2219-6714 1680-8894 I+D Tecnológico; Vol. 14, Núm. 1 (2018): Revista de I+D Tecnológico; 95-105 reponame:Repositorio Institucional de documento digitales de acceso abierto de la UTP instname:Universidad Tecnológica de Panamá instacron:U Tecnológica de Panamá |
| dc.subject.none.fl_str_mv | Web Scraping, Google Scholar, minería de datos, lenguaje R, análisis de datos. |
| dc.title.none.fl_str_mv | Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos |
| dc.type.none.fl_str_mv | info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion |
| description | El objetivo de este artículo es hacer uso de la técnica Web Scraping para extraer datos de Google Scholar (GS)a través de diferentes métodos. El Web Scraping es una forma de minería de datos no estructurada, que permite extraer información de páginas web, escanear su código HTML y generar patrones de extracción de datos. Además, con el fin de realizar un análisis más profundo, se creó un algoritmo en el lenguaje R para comparar la velocidad de extracción de los datos y la eficiencia en el formato de salida de los datos. El artículo muestra las pruebas realizadas de estos métodos para medir la velocidad de extracción de los datos y buscar la mejor forma de extraer los datos de GS de forma estructurada. |
| eu_rights_str_mv | openAccess |
| format | article |
| id | lrtest_7c33965b4f34d11b5d592b7b1bcd3e8a |
| instacron_str | U Tecnológica de Panamá |
| institution | U Tecnológica de Panamá |
| instname_str | Universidad Tecnológica de Panamá |
| language | spa |
| network_acronym_str | lrtest |
| network_name_str | lr |
| oai_identifier_str | oai:ridda2.utp.ac.pa:123456789/4932 |
| publishDate | 2018 |
| publishDateSort | 2018 |
| publisher.none.fl_str_mv | Universidad Tecnológica de Panamá |
| reponame_str | Repositorio Institucional de documento digitales de acceso abierto de la UTP |
| repository.mail.fl_str_mv | |
| repository.name.fl_str_mv | |
| repository_id_str | |
| rights_invalid_str_mv | https://creativecommons.org/licenses/by-nc-sa/4.0/ |
| spelling | Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datosMurillo, DannySaavedra, DalysQuintero, ErikaWeb Scraping, Google Scholar, minería de datos, lenguaje R, análisis de datos.El objetivo de este artículo es hacer uso de la técnica Web Scraping para extraer datos de Google Scholar (GS)a través de diferentes métodos. El Web Scraping es una forma de minería de datos no estructurada, que permite extraer información de páginas web, escanear su código HTML y generar patrones de extracción de datos. Además, con el fin de realizar un análisis más profundo, se creó un algoritmo en el lenguaje R para comparar la velocidad de extracción de los datos y la eficiencia en el formato de salida de los datos. El artículo muestra las pruebas realizadas de estos métodos para medir la velocidad de extracción de los datos y buscar la mejor forma de extraer los datos de GS de forma estructurada.Universidad Tecnológica de Panamá2018-06-112018-06-14T18:33:59Z2018-06-14T18:33:59Zinfo:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttp://revistas.utp.ac.pa/index.php/id-tecnologico/article/view/1807https://doi.org/10.33412/idt.v14.1.1807http://ridda2.utp.ac.pa/handle/123456789/49322219-67141680-8894I+D Tecnológico; Vol. 14, Núm. 1 (2018): Revista de I+D Tecnológico; 95-105reponame:Repositorio Institucional de documento digitales de acceso abierto de la UTPinstname:Universidad Tecnológica de Panamáinstacron:U Tecnológica de Panamáspahttp://revistas.utp.ac.pa/index.php/id-tecnologico/article/view/1807/pdf/*ref*/A. M. VELÁZQUEZ, “Tim Berners-Lee: «El papel no desaparecerá, siempre habrá cosas que nos guste leer en ese formato»,” 2012. [Online]. Available: http://www.lne.es/asturama/2012/02/15/tim-berners-lee-papel-desaparecera-habra-cosas-guste-leer-formato/1199452.html./*ref*/M. Castells, “Internet y la Sociedad Red,” La Factoría, vol. 14–15, pp. 1–12, 2001./*ref*/M. F. Berners-Lee, “Weaving the Web. HarperOne,” 1999./*ref*/J. R. Sánchez Carballido, “Perspectivas de la información en Internet: ciberdemocracia, redes sociales y web semántica,” Zer-Revista Estud. Comun., vol. 13; n.° 25, pp. 61–81, 2011./*ref*/L. C. Silva Ayçaguer, “El índice-H y Google Académico: una simbiosis cienciométrica inclusiva,” ACIMED, vol. 23, no. 3, pp. 308–322./*ref*/M. Oficial and E. N. Log, “Logística , Transporte Y Cadena De,” 2014./*ref*/D. Torres and Á. Cabezas, “Altmetrics : nuevos indicadores para la comunicación científica en la Web 2 . 0,” pp. 53–60, 2013./*ref*/UIAF, “Técnicas de minería de datos para la detección y prevención del lavado de activos y la fi nanciación del terrorismo (LA/FT),” p. 35, 2014./*ref*/J. C. Riquelme, R. Ruiz, and K. Gilbert, “Minería de datos: Conceptos y tendencias,” Intel. Artif., vol. 10, no. 29, pp. 11–18, 2006./*ref*/R. B. Penman and D. Martinez, “Web Scraping Made Simple with SiteScraper.”/*ref*/H. Jiawei, M. Kamber, J. Han, M. Kamber, and J. Pei, Data Mining: Concepts and Techniques. 2012./*ref*/D. I. Directions, T. Mining, U. K. Further, and H. Education, “The Value and Benefits of Text Mining,” no. March, 2012./*ref*/D. S. Danny Murillo, “Implementación de Plataforma Digital de Revistas Académicas y Científicas electrónicas en la Universidad Tecnológica de Panamá para mejorar su visibilidad a nivel nacional e internacional,” in Tecnología, innovación e investigación en los procesos de enseñanza-aprendizaje, 2016, pp. 936–947./*ref*/S. Shi, C. Liu, Y. Shen, C. Yuan, and Y. Huang, “AutoRM: An effective approach for automatic Web data record mining,” Knowledge-Based Syst., vol. 89, pp. 314–331, 2015./*ref*/V. Bharanipriya and V. K. Prasad, “Web Content Mining Tools : a Comparative Study,” Int. J. Inf. Technol. Knowl. Manag., vol. 4, no. 1, pp. 211–215, 2011./*ref*/F. Borrego, “Alternativas para realizar web scraping,” 2017. [Online]. Available: http://felicianoborrego.com/alternativas-para-realizar-web-scraping/./*ref*/M. Peshave, “How Search Engines Work and a Web Crawler Application,” 2010./*ref*/Scrapehero, “Scalable do-it-yourself scraping – How to build and run scrapers on a large scale,” 2015. [Online]. Available: https://www.scrapehero.com/scalable-do-it-yourself-scraping-how-to-build-and-run-scrapers-on-a-large-scale/./*ref*/R. Cotton, Learning R, O´RELLY. 2013./*ref*/K. Cichini, “GScholarScraper_3.1,” 2012. [Online]. Available: https://github.com/gimoya/theBioBucket-Archives/blob/master/R/Functions/GScholarScraper_3.1.R./*ref*/J. Keirstead, “Package Scholar,” 2015. [Online]. Available: https://cran.r-project.org/web/packages/scholar/index.html./*ref*/Extension Google Chrome, “Scraper,” 2015. [Online]. Available: https://chrome.google.com/webstore/detail/scraper/mbigbapnjcgaffohmbkdlecaccepngjd?utm_source=chrome-app-launcher-info-dialog./*ref*/Fminer, “FMiner Scraping,” 2015. [Online]. Available: http://www.fminer.com/./*ref*/Import.io, “Import.io,” 2016. [Online]. Available: https://www.import.io/./*ref*/E. Ferrara, P. De Meo, G. Fiumara, and R. Baumgartner, “Web data extraction, applications and techniques: A survey,” Knowledge-Based Syst., vol. 70, pp. 301–323, 2014.info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/4.0/oai:ridda2.utp.ac.pa:123456789/49322019-12-06T14:50:31Z |
| spellingShingle | Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos Murillo, Danny Web Scraping, Google Scholar, minería de datos, lenguaje R, análisis de datos. |
| status_str | publishedVersion |
| title | Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos |
| title_full | Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos |
| title_fullStr | Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos |
| title_full_unstemmed | Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos |
| title_short | Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos |
| title_sort | Extracción de datos de perfiles en Google Scholar utilizando un algoritmo en el lenguaje R para hacer minería de datos |
| topic | Web Scraping, Google Scholar, minería de datos, lenguaje R, análisis de datos. |
| url | http://revistas.utp.ac.pa/index.php/id-tecnologico/article/view/1807 https://doi.org/10.33412/idt.v14.1.1807 http://ridda2.utp.ac.pa/handle/123456789/4932 |