Docência de disciplinas nas áreas de Data & Text Mining

 

Análise de Texto e Processamento de Língua Natural

O doutoramento do autor esteve directamente relacionado com a área de análise de dados no texto. Para tal foram analisados vários trabalhos quer envolvendo lexicografia [LMR04], a desambiguação de texto [ML96, ML01], ou a análise sintáctica - com aplicações à determinação da classe de subcategorização de uma palavra [MLC98,MLC98b]. Na sequência directa deste trabalho têm sido regularmente apresentados vários seminários a alunos da FCT ou de outras instituições (anos de 1997 a 2002). Durante o 1º semestre lectivo de 2002/2003 este trabalho foi sintetizado no contexto da disciplina de Análise de Corpora, no contexto do mestrado em Inteligência Artificial Aplicada. Tratou-se de uma pequena disciplina, com 6 alunos inscritos. Ao focar temas como a limpeza de dados, a estruturação da informação no texto, a apresentação de ferramentas e métodos que tornassem possível esse tratamento e finalmente a adequação de técnicas de aprendizagem automática e análise estatística aos dados obtidos, a disciplina teve grande receptividade por parte dos alunos.

No contexto da reformulação de mestrado em Engenharia Informática foi igualmente apresentada sobre regência do autor a disciplina de Processamento de Língua Natural. A disciplina tentou centrar-se sobre uma abordagem mais clássica à análise de texto, tendo por base gramáticas lógicas e foi por fim complementada com a aplicação de métodos de aprendizagem à língua natural. Esta disciplina, embora tenha sido leccionada durante um semestre, não conseguiu motivar um número suficiente de alunos. De facto, dos 5 alunos que efectivamente seguiram a disciplina, não houve nenhum que tenha decidido realizar o trabalho final necessário para a sua conclusão. Claramente será necessário apresentar uma motivação distinta para a apresentação das teorias e técnicas necessárias para o tratamento da Língua Natural. Segundo a experiência do autor, um aluno inscrito no 4º ou 5º ano da LEI sente-se mais atraído por problemas que envolvam o tratamento de informação (seja ela em texto, eventualmente semi-estruturado ou em bases de dados) e não a análise da língua natural. Talvez a crescente popularidade das interfaces gráficas, já referida a propósito dos alunos de ICP, e a inexistência de sistemas de informação tirando directamente partido de uma análise linguística tenha condicionado a baixa aceitação deste tema. Os módulos abordados - nomeadamente as gramáticas de cláusulas definidas - deverão ser ou enquadrados a propósito da apresentação das linguagens de programação lógica ou como módulos base aplicados a outro tipo de problemas. Assim, claramente, este tipo de material deverá ser adaptado a uma nova realidade: seja a Web Semântica, os sistemas de pesquisa e recuperação de informação (p.ex. o sistema google), ou os sistemas de prospecção de informação seja em texto, seja em dados.

 

Data Mining.

O autor tem vindo a desenvolver o ensino nas áreas de Text & Data Mining desde a sua entrada no DI-FCT/UNL. Este trabalho teve início com a disciplina de Aprendizagem e Data Mining, oferecida sobre regência do autor, no âmbito do Mestrado em Inteligência Artificial Aplicada mas também ao mestrado e licenciatura em Engenharia Informática. Esta disciplina, com 2 horas teóricas e 2 horas práticas semanais, foi regida pelo autor nas edições de 2001/2002 e 2002/2003. No ano lectivo de 2003/2004 com a reformulação do curso de Mestrado em Engenharia Informática, a disciplina foi enquadrada apenas no âmbito do Mestrado em Engenharia Informática. Assim, desde 2003 o ensino desta área tem-se centrado na disciplina de Text & Data Mining. Esta disciplina pretende não só reforçar os conhecimentos teóricos gerais que o aluno já deve ter nas áreas de Aprendizagem Automática, Data Warehousing e Bases de Dados, mas também dotar o aluno com conhecimentos próximos do trabalho de investigação que tem vindo a ser realizado com resultados tanto no CENTRIA como em outras instituições. Assim, tal como descrito a propósito das disciplinas de especialização avançada (apresentação do Mestrado e Pós-graduação em Informática), e em particular para as áreas de Data e Text Mining; pretende-se não só uma especialização e iniciação à investigação em Data e Text Mining, mas também dotar os alunos com a capacidade de permitir reconhecer e explorar técnicas avançadas para resolver problemas aplicados de Engenharia Informática. Para tal será extremamente importante desenvolver no aluno as capacidades de pesquisa em publicações especializadas, a comunicação, síntese e o relato escrito, nomeadamente visando a apresentação de objectivos, métodos de solução, resultados e suas conclusões. A disciplina assume também um carácter reconhecidamente inter-disciplinar ao ser oferecida nas áreas científicas de Inteligência Artificial e Tecnologia de Sistemas de Informação.

 

No ano lectivo de 2002/2003 a disciplina de Aprendizagem e Data Mining contou com 20 alunos inscritos, dos quais apenas 45% (rácios de alunos aprovados para o número de alunos inscritos) obteve aprovação. No ano lectivo de 2003/2004 e 2004/2005 a disciplina de Text & Data Mining contou com, respectivamente, 13 e 8 alunos inscritos, com rácios respectivos de alunos inscritos para o número de alunos aprovados de 69% e 63%. Verifica-se que há uma taxa de desistências média de aproximadamente 35% em Text&Data Mining e de 55% em Aprendizagem e Data Mining. Trata-se de uma disciplina de difícil leccionação. De facto, muitas vezes os alunos são trabalhadores estudantes - com pouco tempo disponível para o seu estudo - , têm conhecimentos relativamente heterogéneos e interesses relativamente diversos. Este problema agravou-se particularmente quando a disciplina foi oferecida a alunos da LEI, com mais alternativas para obtenção de créditos lectivos. A elevada carga em termos de créditos ECTS associada às disciplinas de tipo avançado, leva a que a disciplina se foque essencialmente numa orientação tutorial sobre um trabalho seleccionado. Felizmente o interesse dos alunos pela matéria leccionada é extremamente elevado, sendo a audiência média nas aulas teóricas elevada.

 

Ao longo das 5 edições da disciplina que o autor teve oportunidade de reger (2 edições da disciplina de Aprendizagem e Data Mining e 3 edições do módulo Data Mining, em Text & Data Mining), houve a oportunidade de gradualmente adequar a disciplina a esta realidade. Tomando como exemplo a edição de 2005/2006, esta iniciou-se com a apresentação de um conjunto de conceitos base essenciais para a exposição dos tópicos avançados que se lhe seguem. Estes conceitos são imediatamente avaliados por um primeiro teste escrito que garante a consolidação da notação e conceitos necessários nas restantes aulas. Este primeiro módulo deverá corresponder a 1 ECTS. Ao forçar um acompanhamento inicial da matéria e consequente avaliação dos conhecimentos adquiridos por parte dos alunos, facilita-se igualmente a escolha dos temas de introdução à investigação que serão posteriormente seleccionados pelos alunos. Numa segunda fase, dá-se início à apresentação de diversos trabalhos de investigação, seleccionados para servirem de panorama à área. Esta segunda fase é concluída com um trabalho de síntese sobre um artigo seleccionado e conclui a fase lectiva da disciplina (que deverá corresponder, nas suas duas fases, a um total de 3 ECTS). Por fim os alunos iniciam a escolha e a realização do trabalho final, sobre orientação tutorial do docente. O trabalho será concluído com um pequeno relatório entregue sobre a forma de artigo. Esta fase inclui os restantes 5 ECTS da disciplina (i.e. aproximadamente 3 semanas, assumindo 40 horas de trabalho por semana).

 

Neste momento estão disponíveis os seguintes materiais para aprendizagem:

 

Importa ainda referir que, sempre que possível, as aulas têm sido complementadas com seminários sobre ferramentas de Data Mining e análise de dados disponíveis na indústria. Saliente-se o seminário sobre o IBM Inteligent Miner, e o seminário sobre o Statistica Text Miner. Em ambos os casos, mais que a apresentação de um produto, os peritos convidados apresentaram casos práticos que resultaram directamente da sua experiência. Estes seminários têm tido forte aceitação pelos alunos e - como veremos - têm também servido para aumentar a projecção desta disciplina e a relação dos tópicos focados com a resolução de problemas reais.

 

Planos para Trabalho Futuro

 

O trabalho futuro nesta área, incluirá o objectivo de criar um manual em Português para a área Text e Data Mining (sem esquecer a ligação desta área com as Bases de Dados e as Data warehouses), será igualmente estudada -durante o próximo ano- a preparação de um conjunto de textos apresentando e sistematizando a informação disponível nestas áreas. Estes textos podem igualmente vir a ser complementados com o desenvolvimento e adequação de sistemas open-source, nomeadamente para apoio ao ensino, mas eventualmente com possibilidades de utilização em empresas.

 

Durante o 2º semestre do ano de 2005 o Departamento de Informática concretizou a definição das estratégias relativamente ao processo de Bolonha, muito em especial no que se refere à necessária reformulação da Licenciatura em Engenharia Informática. Assim, graças ao excelente trabalho dos colegas encarregues da análise da divisão do curso em 1º e 2º ciclo, através de diversas reuniões e encontros de trabalho, tem vindo a ser definida uma nova estrutura para a licenciatura em Engenharia Informática.

A experiência docente do autor tanto em áreas mais fundamentais como o ensino a distância e o ensino na introdução a informática, como a sua maior especialização na área dos sistemas de informação, particularmente em Data e Text Mining, possibilita-lhe o enquadramento numa importante área de ensino: os Sistemas de Informação para a Gestão e Análise de Informação e Dados. Neste sentido, tentar-se-á desenvolver a colaboração com outros colegas nesta área, de forma a contribuir para uma eventual especialização em análise de informação no quadro da futura licenciatura+mestrado em Engenharia Informática.

O autor tentará aproveitar este momento de reformulação para concretizar alguns dos projectos que se têm vindo a revelar como extremamente promissores e, mesmo, necessários, no contexto da preparação de Engenheiros Informáticos especialistas em Análise e Gestão de Informação e Dados. Em concreto, planeia-se, no decorrer da edição de 2006 de Bases de Dados 2, dinamizar bastante mais os conteúdos relacionados com os sistemas de Reporting e de análise de informação na Base de Dados. Esta é de resto uma tendência que é reflectida na edição de 2005 do livro adoptado nas disciplinas de Bases de Dados I e II. Além disso, esta dinamização deverá servir como uma primeira introdução à área de Data Warehousing e Data Mining.

 

De igual forma, tratando-se de uma área com uma forte vertente tecnológica, tenciona-se formalizar melhor o conceito de seminário para incrementar a colaboração com parceiros industriais de reconhecido mérito nesta área (nomeadamente, relativamente a sistemas de gestão de bases de dados: a IBM ou Oracle; e a sistemas de Data Mining: a IBM, a StatSoft ou a SAS). Para tal, esta colaboração poderá ser reforçada no quadro de uma disciplina de seminários - devidamente acompanhada por docentes do DI-FCT/UNL- que não poderá descurar uma componente fortemente prática, baseada em casos de estudo resultantes da experiência industrial destes parceiros.

 

Outra possível linha de actuação - que pode, ou não, ser conjugada com a anterior - tem a ver com o reforço da área dos sistemas de informação com capacidades inteligentes e de extracção de conhecimento. Neste sentido, no quadro do actual mestrado Europeu em Computational Logic têm sido dinamizados contactos para o início de um módulo de análise e extracção de conhecimento do texto. Planeia-se incorporar grande parte do conhecimento disponível na área de processamento de língua natural e de extracção de conhecimento do texto. Neste sentido, espera-se que os últimos resultados já disponíveis, e resultantes do trabalho de investigação que o autor realiza possam vir a dar um carácter não só inovador e pioneiro, mas também extremamente prático a esta linha de pesquisa.

 

 

 

terça-feira, 30 de Maio de 2006