A linha de investigação Tagged Text Mining surge na sequência directa do trabalho em etiquetagem morfossintática iniciado durante o Doutoramento do autor ([M99]). De facto já na tese de Doutoramento do autor se defendia a necessidade de adaptação da etiquetagem morfossintática a novos domínios e problemas.
A extracção de informação partindo de texto revela a necessidade de desambiguação entre múltiplos sentidos para uma única
palavra ou expressão. O problema surge quando, ao consultar um dicionário, uma
palavra apresenta múltiplas classificações possíveis. Nesse caso a
classificação da palavra deve ser obtida utilizando o contexto em que essa
palavra ocorre.
Na sequência do trabalho anterior, já efectuado durante o período abrangido por este relatório, foram publicados trabalhos onde se apresentaram resultados sobre a generalidade e vantagens de aplicação dum modelo neuronal ao problema da etiquetagem morfossintática ([ML01a]). De facto, mostrou-se que com este tipo de modelo o volume de texto previamente marcado poderia ser reduzido de tal forma que o esforço de anotação de novo texto seria mínimo. Em [ML01] apresentaram-se resultados realçando a importância de utilização de bons dicionários, quer automaticamente extraídos do texto marcado, quer obtidos partindo de outras fontes.
No entanto, como já foi referido, a etiquetagem morfossintática é um problema cujo principal interesse é específico da linguística computacional. De facto, as etiquetas morfossintáticas são motivadas e principalmente utilizadas para auxílio à análise sintáctica de textos. Mesmo a utilização para identificação das classes de subcategorização (ou regência) verbal que lhes é dada em [M99], ainda é relativamente específica e de principal interesse para a análise linguística do texto.
A área da extracção automática de conhecimento do texto (normalmente
referida na literatura escrita em língua Inglesa como Text
Mining), é uma outra área onde a desambiguação dos diversos significados de uma palavra pode
ser útil. De entre as várias técnicas possíveis para o Text
Mining, é comum a utilização de listas de termos
e ontologias. A desambiguação dos diversos sentidos
de uma palavra é principalmente utilizada em conjugação com a análise
sintáctica parcial ou expressões regulares para detectar e referenciar termos.
Assim, por exemplo, poderá ser útil saber que Rua 25 de Abril, é o nome
de uma rua e não um número (25), uma data (25 de Abril) ou a
referência ao feriado comemorativo do 25 de Abril. Assim, a desambiguação pode ser efectuada utilizando classes
semânticas com um dado significado. Em resultado do trabalho [MG04], têm vindo
a ser desenvolvidas etiquetagens específicas para
relacionar ou detectar novas entidades em bases de dados relacionais
específicas de vários problemas. Em vez de se procurar desambiguar
entre todos os possíveis sentidos semânticos de uma dada palavra, centrou-se o
trabalho sobre problemas e domínios concretos. Para tal optou-se por tentar
modelar a extracção de informação à luz de Sistemas de Informação concretos.
Para isso muito contribuiu a utilização dos modelos para definição de entidades
e relações utilizados para desenho e modelação da informação nas bases de dados
relacionais.
Esta abordagem, baseada na utilização de sistemas de informação, veio de resto possibilitar a compatibilização de múltiplos aspectos num mesmo sistema, nomeadamente através da compatibilização de várias técnicas no Data Mining ([YM05], [CM05]), quer por si, quer através de sistemas distribuídos baseados em Web-Services ([NM03]).
Até ao momento foram orientados 2 projectos de fim de curso que
contribuíram directamente para o gradual desenvolvimento desta metodologia: o
primeiro destes projectos (o projecto Sistema de Extracção de Moradas da Web,
de Sérgio Gonçalves) deu origem ao artigo [MG04] e possibilitou o
desenvolvimento de um sistema de informação que veio demonstrar a viabilidade
do conceito. Este sistema foi seguido pelo projecto Extracção de Informação
em Anúncios de Conferências (desenvolvido por António Pestana), que
possibilitou a generalização da utilização deste sistema a domínios mais
complexos. Podem ainda ser relacionados com este sistema o projecto de fim de
curso de Bruno Barreiros: Visualização e Agrupamento de Documentos na Web.
Este projecto teve por objectivo efectuar uma prova de conceito das
potencialidades da utilização de redes neuronais
recorrendo a mapas tridimensionais auto-organizados
para agrupamento de documentos. Com este sistema é possível efectuar a
organização de documentos de acordo com um espaço virtual 3D (implementado
através de tecnologia VRML).
Devido ao interesse do CENTRIA nas áreas de Semantic Web (nomeadamente através da participação na rede Europeia REWERSE) e à disponibilização de dados relativos a um inquérito sobre a utilização das Pousadas de Portugal, optou-se recentemente por iniciar o estudo de um sistema de demonstração na área do Turismo. Os dados relativos às Pousadas de Portugal tinham já tinham sido tratados no contexto do doutoramento da Professora Margarida Cardoso, do Instituto Superior de Ciências do Trabalho e da Empresa (ISCTE) e numa comunicação sobre regras associativas pelo Professor Luís Cavique, da Universidade Aberta. Assim, no quadro do CENTRIA foram inicialmente propostos dois planos de trabalho. Um para uma bolsa de Pós-Doutoramento de 6 meses da Doutora Yiling Yang (que resultou no artigo [YM05]) e outro para um estágio, no âmbito do trabalho de Doutoramento, da aluna do programa Erasmus Milada Kovarova. Este trabalho resultou num primeiro sistema de informação contendo não só dados extraídos do inquérito sobre as Pousadas de Portugal, mas também outro tipo de informação como percursos de interesse turístico nas localidades de uma dada pousada, a modelação de preferências de utilizadores e grupos de utilizadores ([YM05]) e a disponibilização de uma interface para extracção e marcação de informação no texto ([MM05]). Este trabalho, que o autor espera esteja apenas no início, revela-se como prometedor. Tendo desde já despertado algum interesse por parte de eventuais parceiros na Indústria.
Juntamente com o desenvolvimento desta prova de conceito na área do turismo, tem sido ainda continuada investigação de carácter mais fundamental. Neste quadro foi dada continuidade a diversos trabalhos de pesquisa: Ainda directamente resultante do trabalho de Doutoramento do autor, realizou-se trabalho com a Professora Veska Noncheva (Universidade de Plovdiv, Faculdade de Matemática e Informática) no quadro da sua estadia de 1 ano no CENTRIA [NM02]. Neste trabalho apresenta-se um modelo geral que possibilita a descrição da crença de um agente estatístico num dado modelo probabilístico. Um primeiro objectivo desta pesquisa foi a selecção do melhor modelo loglinear que pudesse descrever a subcategorização de um determinado conjunto de verbos (tal como apresentado na tese de doutoramento do autor). Este trabalho foi desenvolvido no fim da estadia da Professora Noncheva no CENTRIA. Assim, a sua aplicação ao Text Mining, nomeadamente para modelação de termos em que a informação de subcategorização possa vir a ser relevante, permanece como um desafio para trabalho futuro.
Outro trabalho com interesse para o Text
Mining, foi o trabalho desenvolvido com a Doutora
Agnès Braud, actualmente
professora no laboratório Image Sciences, Computer Sciences and Remote Sensing da Universidade Louis
Pasteur em Strasbourg
[MB03]. Neste trabalho foi efectuado um estudo do custo de extracção de todos
os n-gramas com total de ocorrências acima de um
determinado limiar do texto. Conclui-se que esta extracção é viável e
apresenta-se um algoritmo capaz de a efectuar. Este trabalho veio consolidar
trabalho anterior efectuado na área da lexicografia ([LM94 e LMR04]) e da
separação de um conjunto de textos em unidades de significado (tokens), que podem ser distintos das palavras. Este
sistema pode ser utilizado para a extracção de lemas ou simplesmente de
sequências de palavras com significado. A futura inclusão deste algoritmo no
sistema informação actualmente em construção, será mais uma das características
inovadoras que provavelmente contribuirá para o sucesso deste sistema.
Como foi referido inicialmente, o trabalho realizado tem-se vindo a
centrar cada vez mais na investigação da utilização de redes neuronais para classificação de acordo com contexto (seja
em palavras, seja em imagens ou noutro qualquer domínio de aplicação). Como já
foi referido, o trabalho de etiquetagem morfossintáctica recorre à utilização de um classificador neuronal para modelação do contexto de classificação (e.x. [ML01a]). Segundo diversos trabalhos (nomeadamente os
publicados por Pascal Hitzler e Stefen
Hölldobler) é possível a definição do modelo inicial
de uma rede neuronal de acordo com um conjunto de
regras lógicas. Esta definição virá possibilitar uma generalização do conceito
de classificação de acordo com o contexto. Seja pela utilização de regras
derivadas de gramáticas independentes do contexto, seja pela inclusão de
conhecimento do domínio, a expressão de um conjunto de regras sobre a forma de
uma rede neuronal virá a dotar os sistemas descritos
de potencialidades que - espera-se - venham a servir de demonstração da
utilidade do método e, assim, possibilitar a sua aplicação a novos domínios.
É de resto neste sentido que o autor tem vindo a desenvolver ou a
incentivar o desenvolvimento de trabalho. Assim, a utilização de paradigmas
evolutivos no contexto das redes neuronais veio a
possibilitar o desenvolvimento do sistema FeaSANNT
[CM04]. Este sistema desenvolvido inicialmente pelo Doutor Marco Castellani (e já directamente aplicado, com resultados, p.ex., em [CM05]), contribui para melhorar a aprendizagem
de um classificador neuronal. Este sistema poderá vir
a ter como ponto de partida um modelo neuronal
directamente derivado de um programa em lógica. De igual forma, e porque as
redes neuronais clássicas (i.e. os modelos feed-forward) não são suficientemente expressivas
para representar modelos de natureza recursiva (como o são, tipicamente, os
modelos descrevendo o contexto), foi mesmo desenvolvido trabalho no sentido de
tentar aplicar o modelo de aprendizagem do sistema FeaSANNT
a redes neuronais mais gerais [VMC05]. Espera-se que
este trabalho, embora ainda na sua fase inicial, venha a contribuir para o
desenvolvimento de modelos neuronais que melhor se
adaptem à possibilidade de aprender a partir do contexto.
O trabalho de investigação futuro procurará igualmente manter um
carácter aplicado. Assim, espera-se consolidar a colaboração actual com o
Instituto de Oceanografia da Faculdade de Ciências. Apenas através desta
colaboração será possível continuar a aplicação de trabalho desenvolvido à
análise de dados Oceanográficos. Será de referir
igualmente a possibilidade de modelação de informação contextual
na área da Química. De facto, parece ser possível construir gramáticas de
cláusulas definidas que identificam e medem a possibilidade de reacções
químicas entre distintas moléculas. Caso estas gramáticas possam ser
aproximadas por uma rede neuronal, as propriedades fisico-químicas das mesmas moléculas, e o respectivo
comportamento observado experimentalmente, pode ser utilizado para construção
de modelos para previsão do comportamento químico de novas substâncias.
De igual forma a linha de investigação Tagged
Text Mining e em
concreto sistemas como o Web Agenda for Tourism
[MM2005] deverá não só funcionar como uma montra de tecnologias mas também
servir de ponto de partida para o lançamento de projectos de investigação
aplicada. Neste sentido podem-se já salientar o interesse e contactos iniciais por
parte de parceiros industriais na área do Data Mining. Está actualmente em preparação pelo autor a proposta de um novo
projecto de investigação aplicado. Esta proposta surge na sequência de uma
proposta anterior de projecto de investigação e de novos contactos assim potenciados. O carácter eminentemente prático desta pré-proposta e o interesse que ela poderá ter, nomeadamente
na área do turismo, dará origem em breve a uma proposta de projecto em
consorcio a submeter à Agencia de Inovação, eventualmente com a colaboração de
parceiros internacionais.