pyHDB - Ferramenta Heurística para a Hemeroteca Digital Brasileira
utilizando técnicas de web scraping para a pesquisa em História
DOI:
https://doi.org/10.15848/hh.v15i40.1904Palavras-chave:
Metodologia da história, Heurística, História DigitalResumo
Este artigo tem como objetivo analisar a relação entre ferramentas e interfaces de busca em repositórios de fontes
digitais e a construção do conhecimento histórico na era digital. Para tanto, é analisada a pyHDB: ferramenta heurística para a Hemeroteca Digital Brasileira da Biblioteca Nacional, caracterizando-se seus aspectos técnicos, metodológicos e heurísticos. Tal ferramenta é um programa de computador escrito com a linguagem de programação Python e que utiliza técnicas de web scraping. Foi criada com o objetivo de auxiliar pesquisadores no processo de construção e registro metodológico, gerando relatórios e fornecendo dados tabulares e data sets a partir dos parâmetros de busca definidos. Primeiramente, são analisados de forma crítica os resultados produzidos pela interface gráfica da Hemeroteca Digital Brasileira. Em seguida, a pyHDB é apresentada detalhadamente, tanto em seus aspectos éticos e técnicos quanto em termos de possibilidades analíticas, por meio de três exemplos de busca. Por fim, nas considerações finais, discorre-se acerca das vantagens do desenvolvimento e uso de ferramentas metodológicas digitais para a pesquisa histórica
Downloads
Referências
BENJAMIN, Ruha. Assessing risk, automating racism. Science, New York, v. 366, n. 6464, p. 421–422, 25 out. 2019a. Disponível em: https://doi.org/10.1126/science.aaz3873. Acesso em 1 out. 2021.
BENJAMIN, Ruha. Race after technology: abolitionist tools for the new Jim code. Cambridge: Wiley, Polity Press, 2019b.
BETTENCOURT, Angela Maria Monteiro; PINTO, Monica Rizzo Soares. A hemeroteca digital brasileira. In: CONGRESSO
BRASILEIRO DE BIBLIOTECONOMIA, DOCUMENTAÇÃO E CIÊNCIA DA INFORMAÇÃO, XXV, 2013, Florianópolis. Anais [...], Florianópolis: FEBAB, 2013, p. 1028–1038.
BIRHANE, Abeba. Algorithmic injustice: a relational ethics approach. Patterns, Amsterdam, v. 2, n. 2, p. 1-9, 12 fev. 2021. https://doi.org/10.1016/j.patter.2021.100205. Acesso em: 12 set. 2022.
BRASIL, Eric. Carnavais Atlânticos: Cidadania e Cultura Negra no pós-abolição do Rio de Janeiro, Brasil e Porto de Espanha, Trinidad (1838-1920). 2016. Tese (Doutorado em História), Universidade Federal Fluminense, Niterói, 2016.
BRASIL, Eric. pyHDB: ferramenta heurística para a Hemeroteca Digital Brasileira. Zenodo, 2021. Disponível em: https://zenodo.org/record/5706507. Acesso em: 12 set. 2022.
BRASIL, Eric. Germano Lopes da Silva: experiências de um carnavalesco, eleitor e cidadão no Distrito Federal (c. 1900-1930). 2018. Biblioteca Consuelo Pondé. Disponível em: http://www.bvconsueloponde.ba.gov.br/modules/conteudo/conteudo.php?conteudo=201. Acesso em: 12 set. 2022.
BRASIL, Eric; NASCIMENTO, Leonardo Fernandes. História digital: reflexões a partir da Hemeroteca Digital Brasileira e do uso de CAQDAS na reelaboração da pesquisa histórica. Revista Estudos Históricos, Rio de Janeiro, v. 33, n. 69, p. 196–219, 1 jan. 2020. Disponível em: http://dx.doi.org/10.1590/S2178-14942020000100011. Acesso em: 12 set. 2022.
BRESCIANO, Juan Andrés. La investigación histórica y las nuevas tecnologías. Montevideo: Librería de la Facultad de
Humanidades y Ciencias de la Educación, 2000.
CLAVERT, F.; FICKERS, A. On pyramids, prisms, and scalable reading. Journal of Digital History, jdh001, 2021. Disponível em: https://www.journalofdigitalhistory.org/en/article/jXupS3QAeNgb. Acesso em: 12 set. 2022.
COSTA, Marcela Albaine. Ensino de história e historiografia escolar digital. 1. ed. Curitiba: EDITORA CRV, 2021. DOI
24824/978655868256.1.
DANTAS, Carolina Vianna. Monteiro Lopes (1867-1910), um “líder da raça negra” na capital da república. Afro-Ásia, Salvador, n. 41, 2010. p. 167-209. DOI 10.9771/aa.v0i41.21201. Disponível em: https://periodicos.ufba.br/index.php/afroasia/article/view/21201. Acesso em: 12 set. 2022.
EHRMANN, Maud; BUNOUT, Estelle; DÜRING, Marten. Historical Newspaper User Interfaces: A Review. In: LIBRARIES:
DIALOGUE FOR CHANGE. Atenas, 2017. Anais [...], Atenas: IFLA WLIC, 2019, p. 1-24. Disponível em: http://library.ifla.org/id/eprint/2578/. Acesso em: 14 set. 2021.
FRIDLUND, Mats; OIVA, Mila; PAJU, Petri (org.). Digital Histories: Emergent Approaches within the New Digital History. Helsinki: Helsinki University Press, 2020.
FUNDAÇÃO BIBLIOTECA NACIONAL. Por motivos técnicos, nosso site se encontra temporariamente fora do ar. Esperamos solucionar o problema o quanto antes. Rio de Janeiro, 12 abr. 2021. Twitter: @FBN. Disponível em: http://pic.twitter.com/OUGMDWE3hJ. Acesso em: 22 out. 2021.
GALLOWAY, Alexander R. The Interface Effect. Cambridge: Polity, 2012.
GOODING, Paul; TERRAS, Melissa; WARWICK, Claire. The myth of the new: mass digitization, distant reading, and the future of the book. Literary and Linguistic Computing, Oxford, v. 28, n. 4, p. 629–639, dez. 2013. DOI: http://dx.doi.org/10.1093/llc/fqt051. Acesso em: 12 set. 2022.
Impresso. Media Monitoring of the Past. Supported by the Swiss National Science Foundation under grant CR- SII5_173719, 2019. Disponível em: https://impresso-project.ch. Acesso em: 12 set. 2022.
JARLBRINK, Johan; SNICKARS, Pelle. Cultural heritage as digital noise: nineteenth century newspapers in the digital archive. Journal of Documentation, Bingley, v. 73, n. 6, p. 1228–1243, 12 out. 2017. Disponível em: https://doi.org/10.1108/JD-09-2016-0106. Acesso em: 12 set. 2022.
JENSEN, Helle Strandgaard. Digital Archival Literacy for (all) Historians. Media History, Londres, v. 27, n. 2, p. 251–265, 2021. Disponível em: https://doi.org/10.1080/13688804.2020.1779047. Acesso em: 12 set. 2022.
KARSDORP, Folgert; KESTEMONT, Mike; RIDDELL, Allen. Humanities data analysis: case studies with Python. Princeton: Princeton University Press, 2021.
KEMMAN, Max. Trading Zones of Digital History. Berlin: De Gruyter Oldenbourg, 2021. DOI 10.1515/9783110682106.
KROTOV, Vlad; JOHNSON, Leigh; SILVA, Leiser. Tutorial: Legality and Ethics of Web Scraping. Communications of the Association for Information Systems, Atlanta, v. 47, n. 1, p. 539–563, 2020. Disponível em: https://doi.org/10.17705/1CAIS.04724. Acesso em: 12 set. 2022.
LUCCHESI, Anita. Digital history e Storiografia digitale: estudo comparado sobre a escrita da história no tempo presente (2001-2011). 2014. Dissertação (Mestrado em História), Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2014.
MARRES, Noortje; WELTEVREDE, Esther. Scraping the Social? Journal of Cultural Economy, Londres. v. 6, n. 3, p. 313–335, 2013. Disponível em: https://doi.org/10.1080/17530350.2013.772070. Acesso em: 12 set. 2022.
MCKINNEY, Wes. Python Para Análise de Dados: Tratamento de Dados com Pandas, NumPy e IPython. 1 edição. São Paulo: Novatec Editora, 2018.
MILLIGAN, Ian. History in the Age of Abundance?: How the Web Is Transforming Historical Research. 328. ed. London; Chicago: McGill-Queen’s University Press, 2019.
MITCHELL, Ryan. Web Scraping with Python: Collecting More Data from the Modern Web. 2. ed. Sebastopol, CA: O’Reilly Media, 2018.
NASCIMENTO, Leonardo F. Sociologia digital: uma breve introdução. Salvador: EDUFBA, 2020.
NASCIMENTO, Leonardo Fernandes. Combinando webscraping em R e ATLAS.ti na pesquisa em ciências sociais: as possibilidades e desafios da sociologia digital. In: CONGRESSO BRASILEIRO DE SOCIOLOGIA, 18, 2017, Brasília. Anais [...], Brasília: Sociedade Brasileira de Sociologia, 2017, p. 2-17.
NICHOLSON, Bob. The Digital Turn. Media History,Londres, v. 19, n. 1, p. 59–73, 1 fev. 2013. Disponível em: https://doi.org/10.1080/13688804.2012.752963. Acesso em: 12 set. 2022.
NICODEMO, Thiago Lima; CARDOSO, Oldimar Pontes. Meta-história para robôs (bots): o conhecimento histórico na era da inteligência artificial. História da Historiografia: International Journal of Theory and History of Historiography, Ouro Preto, v. 12, n. 29, 28 abr. 2019. DOI 10.15848/hh.v12i29.1443. Acesso em: 12 set. 2022.
NOBLE, Safiya Umoja. Algorithms of oppression: data discrimination in the age of Google. New York: New York University Press, 2018.
PFANZELTER, Eva; OBERBICHLER, Sarah; MARJANEN, Jani; et al. Digital interfaces of historical newspapers: opportunities, restrictions and recommendations. Journal of Data Mining and Digital Humanities, v. HistoInformatics, jdmdh:6121, 2021. Disponível em: https://jdmdh.episciences.org/7069. Acesso em: 12 set. 2022.
PIROVANI, Juliana; OLIVEIRA, Elias. Portuguese named entity recognition using conditional random fields and local grammars. 2018. In: INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION (LREC 2018), 11, 2018, Miyazaki. Anais [...]. Miyazaki: European Language Resources Association (ELRA), 2018, p. 4452-4456.
Programming Historian, ISSN: 2397-2068. Disponível em: https://programminghistorian.org. Acesso em: 12 set. 2022.
RAYMOND, Eric S. The art of Unix programming. Harlow: Addison-Wesley, 2003.
RÖHLE, Bernhard Rieder Theo; RIEDER, Bernhard. Digital Methods: Five Challenges. In: BERRY, David M. (org.). Understanding Digital Humanities. London: Palgrave Macmillan UK, 2012. p. 67–84. DOI 10.1057/9780230371934_4.
ROMEIN, C. Annemieke; KEMMAN, Max; BIRKHOLZ, Julie M.; BAKER, James; GRUIJTER, Michel De; MEROÑO‐PEÑUELA,
Albert; RIES, Thorsten; ROS, Ruben; SCAGLIOLA, Stefania. State of the Field: Digital History. History, Hoboken, v. 105, n. 365, p. 291–312, 2020. Disponível em: https://doi.org/10.1111/1468-229X.12969. Acesso em: 12 set. 2022.
SALGANIK, Matthew J. Bit by Bit: Social Research in the Digital Age. Reprint edição. Princeton: Princeton University Press, 2017.
SALMI, Hannu. What is Digital History? 1edição. Cambridge: Polity, 2020. What is History? Series.
SANTOS, Luara. ‘Etymologias preto’: Hemetério José dos Santos e as questões raciais de seu tempo (1888-1920). 2015. Dissertação (Mestrado em História), Centros Federais de Educação Tecnológica, Rio de Janeiro, 2015.
SHERRATT, Tim. GLAM Workbench (version v1.0.0). Zenodo, 2021. Disponível em: https://doi.org/10.5281/zenodo.5603060. Acesso em: 12 set. 2022.
SILVA, Tarcízio. Racismo Algorítmico em plataformas digitais: microagressões e discriminação em código. In: SILVA, Tarcízio (org.). Comunidades, Algoritmos e Ativismos Digitais: Olhares Afrodiaspóricos. São Paulo: LiteraRUA, 2020.
SILVEIRA, Pedro Telles da. História, técnica e novas mídias: reflexões sobre a história na era digital. Tese (Doutorado em História), UFRGS, Porto Alegre, 2018. Disponível em: <https://lume.ufrgs.br/handle/10183/189249>. Acesso em: 27 set. 2021.
SINCLAIR, Stéfan; ROCKWELL. Geoffrey. Voyant Tools. Web. Disponível em: http://voyant-tools.org/. Acesso em: 12 set. 2022.
SOLBERG, Janine. Googling the Archive: Digital Tools and the Practice of History. Advances in the History of Rhetoric, Londres, v. 15, n. 1, p. 53–76, 1 jan. 2012. Disponível em: https://doi.org/10.1080/15362426.2012.657052. Acesso em: 12 set. 2022.
SOUTHERTON, Clare. Datafication. In: SCHINTLER, Laurie A.; MCNEELY, Connie L. (org.). Encyclopedia of Big Data. Cham: Springer International Publishing, 2020. p. 1–4. DOI 10.1007/978-3-319-32001-4_332-1. Acesso em: 12 set. 2022.
TURKEL, William J.; CRYMBLE, Adam. Understanding Web Pages and HTML. Programming Historian, Londres, 17 jul. 2012. Disponível em: https://programminghistorian.org/en/lessons/viewing-html-files. Acesso em: 8 jun. 2021.
WALSH, Melanie. Introduction to Cultural Analytics & Python, Version 1, 2021, Disponível em: https://doi.org/10.5281/zenodo.4411250. Acesso em: 12 set. 2022.
WEIBEL, Stuart. Metadata: the Foundations of Resource Description. d-lib magazine. Disponível em: https://www.dlib.org/dlib/July95/07weibel.html. Acesso em: 3 out. 2021
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2022 Eric Brasil
Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
O envio de manuscrito para a revista garante aos seus autores a manutenção dos direitos autorais sobre o mesmo e autoria que a revista realize a primeira publicação do texto. Os dados, conceitos e opiniões apresentados nos trabalhos, bem como a exatidão das referências documentais e bibliográficas, são de inteira responsabilidade dos autores.
Este obra está licenciada com uma Licença Creative Commons Atribuição 4.0 Internacional.