O doutoramento do autor esteve
directamente relacionado com a área de análise de dados no texto. Para tal
foram analisados vários trabalhos quer envolvendo lexicografia [LMR04], a desambiguação de texto [ML96, ML01], ou a análise
sintáctica - com aplicações à determinação da classe de subcategorização
de uma palavra [MLC98,MLC98b]. Na sequência directa deste trabalho têm sido
regularmente apresentados vários seminários a alunos da FCT ou de outras
instituições (anos de 1997 a 2002). Durante o 1º semestre lectivo de 2002/2003
este trabalho foi sintetizado no contexto da disciplina de Análise de Corpora, no contexto do mestrado em Inteligência Artificial
Aplicada. Tratou-se de uma pequena disciplina, com 6 alunos inscritos. Ao focar
temas como a limpeza de dados, a estruturação da informação no texto, a
apresentação de ferramentas e métodos que tornassem possível esse tratamento e
finalmente a adequação de técnicas de aprendizagem automática e análise
estatística aos dados obtidos, a disciplina teve grande receptividade por parte
dos alunos.
No contexto da reformulação de
mestrado em Engenharia Informática foi igualmente apresentada sobre regência do
autor a disciplina de Processamento de Língua Natural. A disciplina tentou
centrar-se sobre uma abordagem mais clássica à análise de texto, tendo por base
gramáticas lógicas e foi por fim complementada com a aplicação de métodos de
aprendizagem à língua natural. Esta disciplina, embora tenha sido leccionada
durante um semestre, não conseguiu motivar um número suficiente de alunos. De
facto, dos 5 alunos que efectivamente seguiram a disciplina, não houve nenhum
que tenha decidido realizar o trabalho final necessário para a sua conclusão.
Claramente será necessário apresentar uma motivação distinta para a
apresentação das teorias e técnicas necessárias para o tratamento da Língua
Natural. Segundo a experiência do autor, um aluno inscrito no 4º ou 5º ano da
LEI sente-se mais atraído por problemas que envolvam o tratamento de informação
(seja ela em texto, eventualmente semi-estruturado ou
em bases de dados) e não a análise da língua natural. Talvez a crescente
popularidade das interfaces gráficas, já referida a propósito dos alunos de
ICP, e a inexistência de sistemas de informação tirando directamente partido de
uma análise linguística tenha condicionado a baixa aceitação deste tema. Os
módulos abordados - nomeadamente as gramáticas de cláusulas definidas - deverão
ser ou enquadrados a propósito da apresentação das linguagens de programação
lógica ou como módulos base aplicados a outro tipo de problemas. Assim,
claramente, este tipo de material deverá ser adaptado a uma nova realidade:
seja a Web Semântica, os sistemas de pesquisa e recuperação de informação (p.ex. o sistema google),
ou os sistemas de prospecção de informação seja em texto, seja em dados.
O
autor tem vindo a desenvolver o ensino nas áreas de Text
& Data Mining desde a sua entrada no
DI-FCT/UNL. Este trabalho teve início com a disciplina de Aprendizagem e
Data Mining, oferecida sobre regência do autor,
no âmbito do Mestrado em Inteligência Artificial Aplicada mas também ao
mestrado e licenciatura em Engenharia Informática. Esta disciplina, com 2 horas
teóricas e 2 horas práticas semanais, foi regida pelo
autor nas edições de 2001/2002 e 2002/2003. No ano lectivo de 2003/2004 com a
reformulação do curso de Mestrado em Engenharia Informática, a disciplina foi
enquadrada apenas no âmbito do Mestrado em Engenharia Informática. Assim, desde
2003 o ensino desta área tem-se centrado na disciplina de Text
& Data Mining. Esta disciplina pretende não
só reforçar os conhecimentos teóricos gerais que o aluno já deve ter nas áreas
de Aprendizagem Automática, Data Warehousing
e Bases de Dados, mas também dotar o aluno com conhecimentos próximos do
trabalho de investigação que tem vindo a ser realizado com resultados tanto no CENTRIA
como em outras instituições. Assim, tal como descrito a propósito das
disciplinas de especialização avançada (apresentação do Mestrado e
Pós-graduação em Informática), e em particular para as áreas de Data e Text Mining; pretende-se não
só uma especialização e iniciação à investigação em Data e Text Mining, mas também dotar
os alunos com a capacidade de permitir reconhecer e explorar técnicas avançadas
para resolver problemas aplicados de Engenharia Informática. Para tal será
extremamente importante desenvolver no aluno as capacidades de pesquisa em
publicações especializadas, a comunicação, síntese e o relato escrito,
nomeadamente visando a apresentação de objectivos, métodos de solução,
resultados e suas conclusões. A disciplina assume também um carácter
reconhecidamente inter-disciplinar ao ser oferecida
nas áreas científicas de Inteligência Artificial e Tecnologia de Sistemas de
Informação.
No ano lectivo de 2002/2003 a disciplina de Aprendizagem e Data Mining contou com 20 alunos inscritos, dos quais apenas
45% (rácios de alunos aprovados para o número de
alunos inscritos) obteve aprovação. No ano lectivo de 2003/2004 e 2004/2005 a
disciplina de Text & Data Mining contou com, respectivamente, 13 e 8 alunos
inscritos, com rácios respectivos de alunos inscritos
para o número de alunos aprovados de 69% e 63%. Verifica-se que há uma taxa de
desistências média de aproximadamente 35% em Text&Data
Mining e de 55% em Aprendizagem e Data Mining. Trata-se de uma disciplina de difícil
leccionação. De facto, muitas vezes os alunos são trabalhadores estudantes -
com pouco tempo disponível para o seu estudo - , têm conhecimentos
relativamente heterogéneos e interesses relativamente diversos. Este problema
agravou-se particularmente quando a disciplina foi oferecida a alunos da LEI,
com mais alternativas para obtenção de créditos lectivos. A elevada carga em
termos de créditos ECTS associada às disciplinas de tipo avançado, leva a que a
disciplina se foque essencialmente numa orientação tutorial
sobre um trabalho seleccionado. Felizmente o interesse dos alunos pela matéria
leccionada é extremamente elevado, sendo a audiência média nas aulas teóricas
elevada.
Ao longo das 5 edições da
disciplina que o autor teve oportunidade de reger (2 edições da disciplina de
Aprendizagem e Data Mining e 3 edições do
módulo Data Mining, em Text
& Data Mining), houve a oportunidade de
gradualmente adequar a disciplina a esta realidade. Tomando como exemplo a
edição de 2005/2006, esta iniciou-se com a apresentação de um conjunto de
conceitos base essenciais para a exposição dos tópicos avançados que se lhe
seguem. Estes conceitos são imediatamente avaliados por um primeiro teste
escrito que garante a consolidação da notação e conceitos necessários nas
restantes aulas. Este primeiro módulo deverá corresponder a 1 ECTS. Ao forçar
um acompanhamento inicial da matéria e consequente avaliação dos conhecimentos
adquiridos por parte dos alunos, facilita-se igualmente a escolha dos temas de
introdução à investigação que serão posteriormente seleccionados pelos alunos.
Numa segunda fase, dá-se início à apresentação de diversos trabalhos de
investigação, seleccionados para servirem de panorama à área. Esta segunda fase
é concluída com um trabalho de síntese sobre um artigo seleccionado e conclui a
fase lectiva da disciplina (que deverá corresponder, nas suas duas fases, a um
total de 3 ECTS). Por fim os alunos iniciam a escolha e a realização do
trabalho final, sobre orientação tutorial do docente.
O trabalho será concluído com um pequeno relatório entregue sobre a forma de
artigo. Esta fase inclui os restantes 5 ECTS da disciplina (i.e.
aproximadamente 3 semanas, assumindo 40 horas de trabalho por semana).
Neste momento estão disponíveis os seguintes materiais para
aprendizagem:
Importa ainda referir que, sempre
que possível, as aulas têm sido complementadas com seminários sobre ferramentas
de Data Mining e análise de dados disponíveis
na indústria. Saliente-se o seminário sobre o IBM Inteligent
Miner, e o seminário sobre o Statistica
Text Miner. Em ambos os casos, mais que a
apresentação de um produto, os peritos convidados apresentaram casos práticos
que resultaram directamente da sua experiência. Estes seminários têm tido forte
aceitação pelos alunos e - como veremos - têm também servido para aumentar a
projecção desta disciplina e a relação dos tópicos focados com a resolução de
problemas reais.
O trabalho futuro nesta área, incluirá o objectivo de criar um manual em Português para a área Text e Data Mining
(sem esquecer a ligação desta área com as Bases de Dados e as Data warehouses), será igualmente estudada -durante o próximo ano- a preparação de um conjunto de
textos apresentando e sistematizando a informação disponível nestas áreas.
Estes textos podem igualmente vir a ser complementados com o desenvolvimento e
adequação de sistemas open-source,
nomeadamente para apoio ao ensino, mas eventualmente com possibilidades de
utilização em empresas.
Durante o 2º semestre do ano de 2005 o Departamento de Informática
concretizou a definição das estratégias relativamente ao processo de Bolonha,
muito em especial no que se refere à necessária reformulação da Licenciatura em
Engenharia Informática. Assim, graças ao excelente trabalho dos colegas
encarregues da análise da divisão do curso em 1º e 2º ciclo, através de
diversas reuniões e encontros de trabalho, tem vindo a ser definida uma nova
estrutura para a licenciatura em Engenharia Informática.
A experiência docente do autor tanto em áreas mais fundamentais como o
ensino a distância e o ensino na introdução a informática, como a sua maior
especialização na área dos sistemas de informação, particularmente em Data e
Text Mining,
possibilita-lhe o enquadramento numa importante área de ensino: os Sistemas de
Informação para a Gestão e Análise de Informação e Dados. Neste sentido,
tentar-se-á desenvolver a colaboração com outros colegas nesta área, de forma a
contribuir para uma eventual especialização em análise de informação no quadro
da futura licenciatura+mestrado em Engenharia
Informática.
O autor tentará aproveitar este momento de reformulação para
concretizar alguns dos projectos que se têm vindo a revelar como extremamente
promissores e, mesmo, necessários, no contexto da preparação de Engenheiros
Informáticos especialistas em Análise e Gestão de Informação e Dados. Em
concreto, planeia-se, no decorrer da edição de 2006 de Bases de Dados 2,
dinamizar bastante mais os conteúdos relacionados com os sistemas de Reporting e de análise de informação na Base de
Dados. Esta é de resto uma tendência que é reflectida na edição de 2005 do
livro adoptado nas disciplinas de Bases de Dados I e II. Além disso, esta
dinamização deverá servir como uma primeira introdução à área de Data Warehousing e Data Mining.
De igual forma, tratando-se de uma área com uma forte vertente tecnológica, tenciona-se formalizar melhor o conceito de seminário para incrementar a colaboração com parceiros industriais de reconhecido mérito nesta área (nomeadamente, relativamente a sistemas de gestão de bases de dados: a IBM ou Oracle; e a sistemas de Data Mining: a IBM, a StatSoft ou a SAS). Para tal, esta colaboração poderá ser reforçada no quadro de uma disciplina de seminários - devidamente acompanhada por docentes do DI-FCT/UNL- que não poderá descurar uma componente fortemente prática, baseada em casos de estudo resultantes da experiência industrial destes parceiros.
Outra possível linha de actuação - que pode, ou não, ser conjugada com a anterior - tem a ver com o reforço da área dos sistemas de informação com capacidades inteligentes e de extracção de conhecimento. Neste sentido, no quadro do actual mestrado Europeu em Computational Logic têm sido dinamizados contactos para o início de um módulo de análise e extracção de conhecimento do texto. Planeia-se incorporar grande parte do conhecimento disponível na área de processamento de língua natural e de extracção de conhecimento do texto. Neste sentido, espera-se que os últimos resultados já disponíveis, e resultantes do trabalho de investigação que o autor realiza possam vir a dar um carácter não só inovador e pioneiro, mas também extremamente prático a esta linha de pesquisa.
terça-feira, 30 de Maio de 2006