Mineração de texto, inteligência artificial e aplicações em biotecnologia

dc.contributor.advisor1Caracelli, Ignez
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8956527354576143
dc.contributor.advisor1orcidhttps://orcid.org/0000-0003-4945-7485
dc.contributor.authorEulálio Reis, Vítor
dc.contributor.authorethnicityIndigena/Pataxo
dc.contributor.authorlatteshttp://lattes.cnpq.br/2456364381525767
dc.contributor.authororcidhttps://orcid.org/0009-0000-0314-8869
dc.date.accessioned2025-03-18T12:02:06Z
dc.date.issued2024-04-24
dc.description.abstractLarge Language Models (LLMs) are AI-powered programs that generate and manipulate text, learning to understand and respond in a human-like way by developing their descriptive capabilities and potential. LLMs face challenges such as specific knowledge gaps, factuality issues, and hallucinations. Therefore, Retrieval-Augmented Generation (RAG) aims to address these challenges by connecting models to external and verified knowledge sources. In this context, the RAG approach is used here to analyze and extract responses from scientific texts, investigating the intrinsic relationship within the complex connections and the relationship with current use. The methods and techniques are based on AI for different language processing to retrieve, rationalize, and mobilize the knowledge present in an interdisciplinary technical-scientific knowledge to be validated. Therefore, techniques for text mining generated from relevant documents are integrated, while text generation seems to operate more effectively in complex contexts for specific in-depth analysis. Additionally, the field of Science or Science-Bot studies potential connections and interactions that are imagined or underrepresented in the literature, contributing to the ongoing debate in various ways. As a case study, Sci-Bot was fed scientific texts with existing information on possible directions for future research, public health strategies in the area control and prevention, and even in changing cultural traits. Thus, the RAG approach makes it possible to articulate textual information from the scientific literature, enabling a detailed explanation on an unprecedented scale of all the complex connections or intersections between the key concepts involved in the recent context of the pandemic.eng
dc.description.abstractGroßsprachmodelle (LLMs) sind KI-gestützte Programme, die Texte generieren und bearbeiten. Sie lernen, menschenähnlich zu verstehen und zu reagieren, indem sie ihre sprachlichen Fähigkeiten kontinuierlich weiterentwickeln. Dabei stoßen LLMs jedoch auf Herausforderungen wie Wissenslücken, Probleme mit Faktizität und sogenannte Halluzinationen. Die Retrieval-Augmented Generation (RAG) adressiert diese Probleme, indem sie Modelle mit externen und verifizierten Wissensquellen verknüpft. In diesem Zusammenhang wird der RAG-Ansatz genutzt, um wissenschaftliche Texte zu analysieren und daraus präzise Antworten zu extrahieren. Dabei werden sowohl die inneren Zusammenhänge innerhalb komplexer Verknüpfungen als auch deren Bezug zur aktuellen Nutzung untersucht. Die angewandten Methoden und Techniken basieren auf künstlicher Intelligenz und unterstützen verschiedene Prozesse der Sprachverarbeitung. Ziel ist es, interdisziplinäres technisch-wissenschaftliches Wissen abzurufen, zu strukturieren und nutzbar zu machen. Hierzu werden Text-Mining-Techniken verwendet, um relevante Informationen aus Dokumenten zu extrahieren und die Textgenerierung auch in komplexen Kontexten effizient zu gestalten. Darüber hinaus untersucht das Forschungsfeld der Wissenschafts-Bots mögliche Verbindungen und Interaktionen, die in der Literatur bisher kaum beachtet oder nur theoretisch behandelt wurden. Dies trägt zur laufenden wissenschaftlichen Debatte bei. Als Fallstudie wurde Sci-Bot mit wissenschaftlichen Texten gefüttert, die bestehende Informationen zu potenziellen Forschungsperspektiven, Strategien im Bereich der öffentlichen Gesundheit sowie zu kulturellen Veränderungen enthalten. Der RAG-Ansatz ermöglicht es so, wissenschaftliche Informationen umfassend zu artikulieren und die komplexen Verbindungen zwischen Schlüsselkonzepten im aktuellen Pandemiekontext detailliert darzustellen.ger
dc.description.resumoOs Modelos de Linguagem de Grande Escala (LLMs) são programas baseados em IA que geram e manipulam texto, aprendendo a compreender e responder de maneira semelhante à humana ao desenvolver suas capacidades descritivas e potencial. Os LLMs enfrentam desafios como lacunas específicas de conhecimento, problemas de factualidade e alucinações. Portanto, a Geração Aumentada por Recuperação (RAG) visa abordar esses desafios conectando modelos a fontes de conhecimento externas e verificadas. Neste contexto, a abordagem RAG é usada aqui para analisar e extrair respostas de textos científicos, investigando a relação intrínseca dentro das conexões complexas e a relação com o uso atual. Os métodos e técnicas são baseados em IA para diferentes processamentos de linguagem para recuperar, racionalizar e mobilizar o conhecimento presente em um conhecimento técnico-científico interdisciplinar a ser validado. Portanto, técnicas de mineração de texto geradas a partir de documentos relevantes são integradas, enquanto a geração de texto parece operar mais efetivamente em contextos complexos para análises específicas em profundidade. Adicionalmente, o campo da Ciência ou Science-Bot estuda conexões e interações potenciais que são imaginadas ou sub-representadas na literatura, contribuindo para o debate em andamento de várias maneiras. Como estudo de caso, o Sci-Bot foi alimentado com textos científicos contendo informações existentes sobre possíveis direções para pesquisas futuras, estratégias de saúde pública na área de controle e prevenção, e até mesmo na mudança de traços culturais. Assim, a abordagem RAG possibilita articular informações textuais da literatura científica, permitindo uma explicação detalhada em escala sem precedentes de todas as conexões complexas ou interseções entre os conceitos-chave envolvidos no contexto recente da pandemia.por
dc.description.sponsorshipNão recebi financiamento
dc.identifier.citationEULÁLIO REIS, Vítor. Mineração de texto, inteligência artificial e aplicações em biotecnologia. 2024. Dissertação (Mestrado em Biotecnologia) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21572.por
dc.identifier.urihttps://hdl.handle.net/20.500.14289/21572
dc.language.isopor
dc.publisherUniversidade Federal de São Carlos
dc.publisher.addressCampus São Carlos
dc.publisher.initialsUFSCar
dc.publisher.programPrograma de Pós-Graduação em Biotecnologia - PPGBiotec
dc.rightsAttribution 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/br/
dc.subjectVitamina Dpor
dc.subjectCovid-19por
dc.subjectAnálise de Proteínas (RNA_M)por
dc.subjectInteligência Artificialpor
dc.subjectLLMeng
dc.subjectSci-Boteng
dc.subjectVitamin Deng
dc.subjectProtein Analysis (RNA_M)eng
dc.subjectArtificial Intelligenceeng
dc.subjectProteinanalyse (RNA_M)ger
dc.subjectKünstliche Intelligenzger
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA
dc.titleMineração de texto, inteligência artificial e aplicações em biotecnologiapor
dc.title.alternativeText mining, artificial intelligence and applications in biotechnologyeng
dc.title.alternativeTextmining, künstliche Intelligenz und Anwendungen in der Biotechnologieger
dc.typeDissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Monografia_Vitor_Eulalio_Reis FINAL.pdf
Tamanho:
3.41 MB
Formato:
Adobe Portable Document Format