Beautiful Soup de Python para el raspado web como método para la extracción automatizada de datos

Rubén Alcaraz-Martínez

doi:10.3145/infonomy.25.014

Autores/as

Rubén Alcaraz-Martínez Universitat de Barcelona https://orcid.org/0000-0002-7185-0227

DOI:

https://doi.org/10.3145/infonomy.25.014

Palabras clave:

Raspado web, Python, Beautiful Soup, Pandas, DataFrames, Selenium, Minería de datos, Extracción de datos

Resumen

Beautiful Soup es una biblioteca de Python pensada para la extracción, análisis y edición de datos de documentos HTML. Tras introducir diversos conceptos y tecnologías relacionados con el raspado de datos, esta guía muestra paso a paso cómo poner en marcha un entorno compatible con esta tecnología y recoge diversos ejemplos de uso para la extracción automatizada de datos de páginas web. Para ello, además de Beautiful Soup, se integran otros módulos de Python como pandas (Panel Data) y requests, para manejar los datos y procesar ficheros CSV y gestionar las peticiones HTTP desde Python, respectivamente. También se introducen algunas soluciones más avanzadas para sortear mecanismos de protección habituales.

Biografía del autor/a

Rubén Alcaraz-Martínez, Universitat de Barcelona

https://directorioexit.info/ficha2806

Citas

Alcaraz-Martínez, Rubén (2023) “Black hat SEO y otras técnicas poco éticas: evolución y situación actual”. Infonomy, v. 1, n. 1. https://doi.org/10.3145/infonomy.23.008

Cass, Stephen (2024). The top programming languages 2024. IEEE Spectrum. https://spectrum.ieee.org/top-programming-languages-2024

Diouf, Rabiyatou; Sarr, Edouard; Sall, Ousmane; Birregah, Babiga; Bousso, Mamadou; Mbaye, Sény Ndiaye (2019). Web scraping: state-of-the-art and areas of application. In: IEEE International Conference on Big Data (Big Data), pp. 6040-6042. https://doi.org/10.1109/BigData47090.2019.9005594

GitHub Staff (2024). Octoverse: AI leads Python to top language as the number of global developers surges. Octoverse. https://github.blog/news-insights/octoverse/octoverse-2024

Grasso, Giovanni; Furche, Tim; Schallhart, Christian (2013). “Effective web scraping with OXPath”. In: Proceedings of the 22nd International Conference on World Wide Web, pp. 23-26. https://doi.org/10.1145/2487788.2487796

Khder, Moaiad-Admad (2021). Web scraping or web crawling: state of art, techniques, approaches and application. International journal of advances in soft computing & its applications, v. 13, n. 3, pp. 144-168. http://dx.doi.org/10.15849/IJASCA.211128.11

Krotov, Vlad; Johnson, Leigh; Silva, Leiser (2020). Tutorial: legality and ethics of web scraping. Communications of the Association for Information Systems, n. 47. https://doi.org/10.17705/1CAIS.04724

Lawson, Richard (2015). Web scraping with Python: scrape data from any website with the power of Python. Packt Publishing.

Maheshwari, Manish; Ali, Roohi (2013). Evolution of search engine optimization and investigating the effect of Panda update into it. International journal of scientific & engineering research, v. 4, n. 12, pp. 2045-2053.

Mitchell, Ryan (2024). Web scraping with Python: collecting more data from the modern web. O’Reilly.

Sarr, Edouard-Ngor; Sall, Ousmane; Diallo, Aminata (2018). FactExtract: automatic collection and aggregation of articles and journalistic factual claims from online newspaper. In: Fifth International Conference on Social Networks Analysis, Management and Security (SNAMS), pp. 336-341. http://dx.doi.org/10.1109/SNAMS.2018.8554421

Sirisuriya, D. S. (2015). A comparative study on web scraping. In: Proceedings of 8th International Research Conference, pp. 135-140. http://ir.kdu.ac.lk/handle/345/1051

Thomas, David-Mathew; Mathur, Sandeep (2019). Data analysis by web scraping using Python. In: 3rd International conference on Electronics, Communication and Aerospace Technology (ICECA), pp. 450-454. https://doi.org/10.1109/ICECA.2019.8822022

Vasilev, Ivan; Slater, Daniel; Spacagna, Gianmario; Roelants, Peter; Zocca, Valentino (2019). Python deep learning: exploring deep learning techniques and neural network architectures with PyTorch, Keras and TensorFlow. Packt Publishing.

Vording, Robbin (2021). Harvesting unstructured data in heterogenous business environments; exploring modern web scraping technologies. https://purl.utwente.nl/essays/85663

Beautiful Soup de Python para el raspado web como método para la extracción automatizada de datos

Autores/as

DOI:

Palabras clave:

Resumen

Biografía del autor/a

Rubén Alcaraz-Martínez, Universitat de Barcelona

Citas

Descargas

Publicado

Cómo citar

Descargas

Número

Sección

Licencia

Enviar un artículo

Idioma

Palabras clave

Información

Número actual