Thesis Abstract

LEARNING NON-VERBAL RELATIONS UNDER OPEN INFORMATION EXTRACTION PARADIGM

 

ABSTRACT

The Open Information Extraction (Open IE) is a relation extraction paradigm in which the target relationships cannot be specified in advance, and it aims to overcome the limitations imposed by traditional IE methods, such as domain-dependence and scalability difficulty. In order to extend Open IE to extract relationships that are not expressed by verbs, we introduce CompIE, a component that learns relations expressed in noun compounds (NCs), such as (oil, extracted from, olive) from  olive oil, or in adjective-noun pairs (ANs), such as (moon, that is, gorgeous) from gorgeous moon. CompIE input is a text file and the output is a set of triples describing binary relationships. The architecture comprises two main tasks: NCs and ANs Extraction (1) and NCs and ANs Interpretation (2). The first task generates a list of NCs and ANs from the input corpus. The second task performs the NCs/ANs interpretation and generates the tuples that describe the relations extracted from the corpus. In order to study CompIE's feasibility, we perform an evaluation based on hypotheses. In order to implement the strategies to validate each hypothesis we have built a prototype. The results demonstrate that our solution achieves 92% of Precision and demonstrate that CompIE addresses the challenge of extract relationships within NCs and ANs in Open IE.

 

 

 

Keywords: Information Extraction, Natural Language Processing; Open Information Extraction; Relation Extraction.


APRENDIZAGEM DE RELAÇÕES NÃO-VERBAIS POR MEIO DO PARADIGMA OPEN INFORMATION EXTRACTION


RESUMO

O paradigma Open Information Extraction[1] (Open IE) de extração de relações trabalha com a identificação de relações não definidas previamente, buscando superar as limitações impostas pelos métodos tradicionais de IE como a dependência de domínio e a difícil escalabilidade. Visando estender o paradigma Open IE para que ele extraia relações não expressas por verbos, apresentamos CompIE, um componente que aprende relações expressas em compostos nominais (CNs), como (oil, extracted from, olive)[2] do NC  olive oil[3], ou em pares do tipo adjetivo-substantivo (ASs), como (moon, that is, gorgeous)[4] do AS gorgeous moon[5]. A entrada do CompIE é um arquivo texto, e sua saída é um conjunto de triplas descrevendo relações binárias. Sua arquitetura é composta por duas tarefas principais: Extrator de CNs e ASs (1) e Interpretador de CNs e ASs (2). A primeira tarefa gera uma lista de CNs e ASs a partir do corpus de entrada. A segunda tarefa realiza a interpretação dos CNs e ASs gerando as triplas que descrevem as relações extraídas do corpus. Para estudar a viabilidade da solução apresentada, realizamos uma avaliação baseada em hipóteses. Um protótipo foi construído com o intuito de validar cada uma das hipóteses. Os resultados obtidos mostram que nossa solução alcança 92% de Precisão e demonstram que o CompIE atinge sua meta de extrair relações compreendidas dentro dos CNs e ASs, assim estendendo o paradigma Open IE.

 

Palavras Chave: Extração de Informação Aberta; Extração de Informação; Extração de Relações; Processamento da Linguagem Natural.



[1] Extração Aberta de Informações

[2] (óleo, extraído de, olivas)

[3] Óleo de oliva

[4] (lua, que é, linda)

[5] Lua linda

Comments