Análise multivariada de conteúdos da cultura científica via ciência de dados sociais e aprendizado de máquina RAG-LLM (geração aumentada por recuperação para modelos linguísticos de grande dimensão)
| dc.contributor.advisor1 | Sousa, Cidoval Morais | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/0573233540937425 | |
| dc.contributor.advisor1orcid | https://orcid.org/0000-0002-7812-8667 | |
| dc.contributor.author | de Moura, Renato Aparecido Terezan | |
| dc.contributor.authorlattes | https://lattes.cnpq.br/9976994758941814 | |
| dc.contributor.authororcid | https://orcid.org/0000-0001-7427-9882 | |
| dc.contributor.referee | Furnival, Ariadne Chloe Mary | |
| dc.contributor.referee | Sousa, Cidoval Morais de | |
| dc.contributor.referee | Silva, Fernando Firmino da | |
| dc.contributor.referee | Belda, Francisco Rolfsen | |
| dc.contributor.referee | Kerbauy, Maria Teresa Miceli | |
| dc.contributor.refereeLattes | http://lattes.cnpq.br/1291482506649810 | |
| dc.contributor.refereeLattes | http://lattes.cnpq.br/0573233540937425 | |
| dc.contributor.refereeLattes | http://lattes.cnpq.br/1095395084173623 | |
| dc.contributor.refereeLattes | http://lattes.cnpq.br/9910965797411044 | |
| dc.contributor.refereeLattes | http://lattes.cnpq.br/4762029784021248 | |
| dc.contributor.refereeorcid | https://orcid.org/0000-0002-2344-4400 | |
| dc.contributor.refereeorcid | https://orcid.org/0000-0002-7812-8667 | |
| dc.contributor.refereeorcid | https://orcid.org/0000-0002-6302-4726 | |
| dc.contributor.refereeorcid | https://orcid.org/0000-0001-6350-7026 | |
| dc.contributor.refereeorcid | https://orcid.org/0000-0002-0622-1512 | |
| dc.date.accessioned | 2025-11-05T12:21:29Z | |
| dc.date.issued | 2025-03-28 | |
| dc.description.abstract | Guided by interdisciplinary epistemological approaches from the field of Science, Technology, and Society (CTS), we investigated communication dynamics in two projects at a public university, using a hybrid approach that combines Content Analysis with Machine Learning and Social Data Science. We collected and analyzed collections from websites and digital media, including interactions in chats, comments, and event broadcasts. Our research demonstrated the effectiveness of scientific culture dynamics, the public reach of the projects, and revealed user idiosyncrasies through the correlation of quantitative and qualitative variables. The data was collected and mined using statistical and Natural Language Processing (NLP) techniques in MAXQDA software, and complemented by multivariate analyses. To analyze audiovisual and textual content from streaming channels, we developed machine learning pipelines with RAGs-LLMs (Retrieval-Augmented Generation for Large Language Models). The results of the thesis are presented in visual and analytical dashboards on the website tecnociencia.net.br, where we also implemented a conversational robot (Tesebot), trained with the research content to answer questions. The conclusion of the thesis shows that its corroboration is inevitable and loaded with statistical and inferential certainties, which reflect and legitimize the complexity of research in the era of post-academic science, big tech, social networks, and artificial intelligence. The methodological strategies made it possible to understand all the variables and statistical and relational instances involved in the dynamic observation of scientific culture in the dissemination projects researched. | eng |
| dc.description.resumo | Orientados por enfoques epistemológicos interdisciplinares do campo CTS (Ciência Tecnologia e Sociedade), investigamos dinâmicas comunicacionais em dois projetos de uma universidade pública, utilizando uma abordagem híbrida que combina Análise de Conteúdo com Aprendizado de Máquina e Ciência de Dados Sociais. Coletamos e analisamos acervos de sites e mídias digitais, incluindo interações em chats, comentários e transmissões de eventos. Nossa pesquisa investigou a eficácia das dinâmicas de cultura científica, o alcance público dos projetos e revelou idiossincrasias dos usuários por meio da correlação de variáveis quantitativas e qualitativas. Os dados foram coletados e minerados com técnicas estatísticas e de Processamento de Linguagem Natural (PLN) no MAXQDA, e complementados por análises multivariadas. Para analisar conteúdos audiovisuais e textuais dos canais de streaming, desenvolvemos pipelines de aprendizado de máquina com RAGs-LLMs (Geração Aumentada por Recuperação para Modelos Linguísticos de Grande Dimensão). Os resultados da tese são apresentados em painéis visuais (dashboards) analíticos no site tecnociencia.net.br, onde também implementamos um robô conversacional (Tesebot), treinado com o conteúdo da pesquisa para responder perguntas. Se verifica na conclusão da tese, que sua corroboração é inevitável e carregada de certezas estatísticas e inferenciais que refletem e legitimam a complexidade da pesquisa na era da ciência pós-acadêmica, das big-techs, das redes sociais e da inteligência artificial. As estratégias metodológicas possibilitaram compreender as variáveis e instâncias estatísticas e relacionais envolvidas na observação dinâmica da cultura científica nos projetos de difusão pesquisados. | por |
| dc.description.sponsorship | Não recebi financiamento | |
| dc.identifier.citation | DE MOURA, Renato Aparecido Terezan. Análise multivariada de conteúdos da cultura científica via ciência de dados sociais e aprendizado de máquina RAG-LLM (geração aumentada por recuperação para modelos linguísticos de grande dimensão). 2025. Tese (Doutorado em Ciência, Tecnologia e Sociedade) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23005. | por |
| dc.identifier.uri | https://hdl.handle.net/20.500.14289/23005 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Federal de São Carlos | |
| dc.publisher.address | Campus São Carlos | |
| dc.publisher.initials | UFSCar | |
| dc.publisher.program | Programa de Pós-Graduação em Ciência, Tecnologia e Sociedade - PPGCTS | |
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | |
| dc.subject | Ciência pós-acadêmica | por |
| dc.subject | Tecnociência | por |
| dc.subject | Ciência de dados sociais | por |
| dc.subject | Redes complexas | por |
| dc.subject | Aprendizagem de máquinas | por |
| dc.subject.cnpq | CIENCIAS SOCIAIS APLICADAS | |
| dc.subject.ods | 9. Indústria, Inovação e Infraestrutura | |
| dc.title | Análise multivariada de conteúdos da cultura científica via ciência de dados sociais e aprendizado de máquina RAG-LLM (geração aumentada por recuperação para modelos linguísticos de grande dimensão) | por |
| dc.title.alternative | Multivariate analysis of scientific culture content via social data science and RAG-LLM (retrieval-augmented generation for large language models) machine learning | eng |
| dc.type | Tese |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Tese UFSCar Renato Terezan de Moura 11 2025.pdf
- Tamanho:
- 24.96 MB
- Formato:
- Adobe Portable Document Format