Análise multivariada de conteúdos da cultura científica via ciência de dados sociais e aprendizado de máquina RAG-LLM (geração aumentada por recuperação para modelos linguísticos de grande dimensão)

dc.contributor.advisor1Sousa, Cidoval Morais
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/0573233540937425
dc.contributor.advisor1orcidhttps://orcid.org/0000-0002-7812-8667
dc.contributor.authorde Moura, Renato Aparecido Terezan
dc.contributor.authorlatteshttps://lattes.cnpq.br/9976994758941814
dc.contributor.authororcidhttps://orcid.org/0000-0001-7427-9882
dc.contributor.refereeFurnival, Ariadne Chloe Mary
dc.contributor.refereeSousa, Cidoval Morais de
dc.contributor.refereeSilva, Fernando Firmino da
dc.contributor.refereeBelda, Francisco Rolfsen
dc.contributor.refereeKerbauy, Maria Teresa Miceli
dc.contributor.refereeLatteshttp://lattes.cnpq.br/1291482506649810
dc.contributor.refereeLatteshttp://lattes.cnpq.br/0573233540937425
dc.contributor.refereeLatteshttp://lattes.cnpq.br/1095395084173623
dc.contributor.refereeLatteshttp://lattes.cnpq.br/9910965797411044
dc.contributor.refereeLatteshttp://lattes.cnpq.br/4762029784021248
dc.contributor.refereeorcidhttps://orcid.org/0000-0002-2344-4400
dc.contributor.refereeorcidhttps://orcid.org/0000-0002-7812-8667
dc.contributor.refereeorcidhttps://orcid.org/0000-0002-6302-4726
dc.contributor.refereeorcidhttps://orcid.org/0000-0001-6350-7026
dc.contributor.refereeorcidhttps://orcid.org/0000-0002-0622-1512
dc.date.accessioned2025-11-05T12:21:29Z
dc.date.issued2025-03-28
dc.description.abstractGuided by interdisciplinary epistemological approaches from the field of Science, Technology, and Society (CTS), we investigated communication dynamics in two projects at a public university, using a hybrid approach that combines Content Analysis with Machine Learning and Social Data Science. We collected and analyzed collections from websites and digital media, including interactions in chats, comments, and event broadcasts. Our research demonstrated the effectiveness of scientific culture dynamics, the public reach of the projects, and revealed user idiosyncrasies through the correlation of quantitative and qualitative variables. The data was collected and mined using statistical and Natural Language Processing (NLP) techniques in MAXQDA software, and complemented by multivariate analyses. To analyze audiovisual and textual content from streaming channels, we developed machine learning pipelines with RAGs-LLMs (Retrieval-Augmented Generation for Large Language Models). The results of the thesis are presented in visual and analytical dashboards on the website tecnociencia.net.br, where we also implemented a conversational robot (Tesebot), trained with the research content to answer questions. The conclusion of the thesis shows that its corroboration is inevitable and loaded with statistical and inferential certainties, which reflect and legitimize the complexity of research in the era of post-academic science, big tech, social networks, and artificial intelligence. The methodological strategies made it possible to understand all the variables and statistical and relational instances involved in the dynamic observation of scientific culture in the dissemination projects researched.eng
dc.description.resumoOrientados por enfoques epistemológicos interdisciplinares do campo CTS (Ciência Tecnologia e Sociedade), investigamos dinâmicas comunicacionais em dois projetos de uma universidade pública, utilizando uma abordagem híbrida que combina Análise de Conteúdo com Aprendizado de Máquina e Ciência de Dados Sociais. Coletamos e analisamos acervos de sites e mídias digitais, incluindo interações em chats, comentários e transmissões de eventos. Nossa pesquisa investigou a eficácia das dinâmicas de cultura científica, o alcance público dos projetos e revelou idiossincrasias dos usuários por meio da correlação de variáveis quantitativas e qualitativas. Os dados foram coletados e minerados com técnicas estatísticas e de Processamento de Linguagem Natural (PLN) no MAXQDA, e complementados por análises multivariadas. Para analisar conteúdos audiovisuais e textuais dos canais de streaming, desenvolvemos pipelines de aprendizado de máquina com RAGs-LLMs (Geração Aumentada por Recuperação para Modelos Linguísticos de Grande Dimensão). Os resultados da tese são apresentados em painéis visuais (dashboards) analíticos no site tecnociencia.net.br, onde também implementamos um robô conversacional (Tesebot), treinado com o conteúdo da pesquisa para responder perguntas. Se verifica na conclusão da tese, que sua corroboração é inevitável e carregada de certezas estatísticas e inferenciais que refletem e legitimam a complexidade da pesquisa na era da ciência pós-acadêmica, das big-techs, das redes sociais e da inteligência artificial. As estratégias metodológicas possibilitaram compreender as variáveis e instâncias estatísticas e relacionais envolvidas na observação dinâmica da cultura científica nos projetos de difusão pesquisados.por
dc.description.sponsorshipNão recebi financiamento
dc.identifier.citationDE MOURA, Renato Aparecido Terezan. Análise multivariada de conteúdos da cultura científica via ciência de dados sociais e aprendizado de máquina RAG-LLM (geração aumentada por recuperação para modelos linguísticos de grande dimensão). 2025. Tese (Doutorado em Ciência, Tecnologia e Sociedade) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23005.por
dc.identifier.urihttps://hdl.handle.net/20.500.14289/23005
dc.language.isopor
dc.publisherUniversidade Federal de São Carlos
dc.publisher.addressCampus São Carlos
dc.publisher.initialsUFSCar
dc.publisher.programPrograma de Pós-Graduação em Ciência, Tecnologia e Sociedade - PPGCTS
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.subjectCiência pós-acadêmicapor
dc.subjectTecnociênciapor
dc.subjectCiência de dados sociaispor
dc.subjectRedes complexaspor
dc.subjectAprendizagem de máquinaspor
dc.subject.cnpqCIENCIAS SOCIAIS APLICADAS
dc.subject.ods9. Indústria, Inovação e Infraestrutura
dc.titleAnálise multivariada de conteúdos da cultura científica via ciência de dados sociais e aprendizado de máquina RAG-LLM (geração aumentada por recuperação para modelos linguísticos de grande dimensão)por
dc.title.alternativeMultivariate analysis of scientific culture content via social data science and RAG-LLM (retrieval-augmented generation for large language models) machine learningeng
dc.typeTese

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Tese UFSCar Renato Terezan de Moura 11 2025.pdf
Tamanho:
24.96 MB
Formato:
Adobe Portable Document Format