@MASTERSTHESIS{ 2021:957539452, title = {Extração de relação entre entidades nomeadas no contexto econômico-financeiro}, year = {2021}, url = "http://tede2.pucrs.br/tede2/handle/tede/9970", abstract = "Inteligência Competitiva (IC) é uma área relevante de uma corporação e pode apoiar a área estratégica de negócios, auxiliando os responsáveis pela tomada de decisões e como posicionar sua organização no mercado. No domínio financeiro, a identificação das organizações contidas em uma notícia pode se tornar insuficiente, sendo necessário extrair relações (ER) entre as entidades. Assim sendo, o objetivo deste trabalho é propor uma abordagem para a extração de qualquer relação semântica entre Entidades Nomeadas (ENs) no domínio do Mercado Financeiro para a língua portuguesa. Para atingir este objetivo, inicialmente foi feita uma revisão do estado da arte que levou à análise de 76 artigos para identificar as técnicas e conjuntos de dados usados para avaliá-las. Este estudo demonstrou que existem poucas abordagens para a tarefa de ER na língua portuguesa. Portanto, seguindo a metodologia de Knowledge Discovery in Databases (KDD) criada por Fayyad, propusemos uma abordagem em cinco etapas, que vai desde a coleta de dados até a avaliação dos resultados. Esta abordagem usa dois modelos baseados em Bidirectional Transformer Encoding Representations (BERT) para processar uma frase e suas entidades nomeadas. Primeiro classificamos se um determinado par de entidades tem ou não uma relação semântica e, em seguida, extraímos as partes da frase que representam ou descrevem a relação semântica entre essas entidades nomeadas. A abordagem foi desenvolvida para a língua portuguesa, considerando o domínio financeiro e explorando representações linguísticas profundas sem utilizar outros recursos léxico-semânticos. Os resultados dos experimentos mostram uma precisão de 76,3% usando a métrica de Jaccard, que mede a similaridade entre as relações extraídas pelo modelo extrator, além de alcançar pontuações de 87%, 84,5% e 85,8%, respectivamente para as métricas de Recall, Precisão e F-Measure quando mensuramos a abordagem completa. Outra contribuição importante é o corpus construído manualmente com mais de 9.114 tuplas (frase, entidade, entidade) anotadas em tweets e notícias disponibilizadas por analistas de IC para apoiar a decisão.", publisher = {Pontifícia Universidade Católica do Rio Grande do Sul}, scholl = {Programa de Pós-Graduação em Ciência da Computação}, note = {Escola Politécnica} }