Mineração de Opinião
A Web produz e divulga informações de vital importância para o mercado financeiro. A ideia da Mineração de Opinião baseia-se em extrair informações subjetivas a partir de dados concretos através de processos de análise de texto e processamento de linguagem natural. Monitorando a resposta dos clientes, diante do lançamento de produtos e sua aceitação no mercado influencia preços, indica pontos positivos que devem ser mantidos e pontos negativos que apontam possíveis melhorias.
Módulos de Classificação[editar | editar código-fonte]
O processo de Mineração da Opinião consiste em passos básicos como: localizar, extrair, pré-processar, analisar e recomendar a opinião. A pesquisa funciona por meio da obtenção de opiniões em associação com importantes módulos de classificação semântica: Orientação Semântica (do inglês Semantic Orientation) e Informação Mútua Ponto a Ponto (do inglês Pointwise Mutual Information e portanto costumeiramente referido como PMI). A variável normalizada obtida a partir da PMI aumenta bastante a eficácia de tal extração, tornando informações subjetivas (opiniões dos clientes) em medidas palpáveis que podem ser analisadas e interpretadas por um programa de computador.[1][2]
A parte responsável pela classificação da opinião de clientes tem como objetivo categorizar as avaliações baseadas em entradas através de sentenças ou textos. É possível abordar todas as opiniões como unidades, fazendo o uso de palavras contidas nas opiniões que expressam sentimentos [3][4] para a classificação geral da opinião.[5] Assim, cada opinião, ao final estará em uma dessas classes: “Positiva” (i.e. recomendada) que será armazenado em um Positive Words Set, “Negativa” (i.e. Não-Recomendada) que fará parte do Negative Word Set. Algumas vezes é adicionada a classificação "Neutro" caso a denominação adeque-se àquela situação.[6]
Orientação Semântica[editar | editar código-fonte]
A Semantic Orientation ou Orientação Semântica, no contexto de Mineração de Opinião, pode ser vista como um módulo responsável por calcular a Orientação Semântica do documento (Opinião).[7] Também chamado de Polaridade de Palavra, indica o desvio de uma palavra de um dado grupo semântico ou campo léxico.[8] Orientações semânticas positivas indicam elogios e orientações semânticas negativas indicam critica. Variando tanto em direção (positiva e negativa) quanto grau (brando e forte).
Informação Mútua Pontual[editar | editar código-fonte]
A Pointwise Mutual Information ou Informação Mútua Ponto-a-Ponto é o módulo responsável por calcular o PMI. É uma medida de associação que envolve a área da Teoria da informação e Estatística com a função de medir a relação de entre palavras dentro de um texto comparando a probabilidade de encontrar dois itens juntos com as probabilidades de estarem separadas.[1][2]
A PMI de um par de palavras x e y se define pela seguinte equação:
Pré-processamento[editar | editar código-fonte]
As opiniões, após terem sido extraídas, passam por um pré-processamento. Esse pré-processamento retira das opiniões todos os sinais de pontuações e possíveis acentuações. Além disso, são feitas tentativas de retirar das opiniões palavras que não expressam orientação semântica. Geralmente essas palavras se encaixavam em uma dessas 6 (seis) classes gramaticais:
- Artigo;
- Conjunção;
- Interjeição;
- Numeral;
- Preposição;
- Pronome;
As palavras que se encontraram nessas classes gramaticais serão retiradas dos documentos porque elas não expressam a orientação de sentimentos do autor da opinião. Assim, as palavras que se encontraram nos documentos a serem processados encaixar-se-ão nas 4 (quatro) classes gramaticais restantes:[9] [10] [11]
- Adjetivo;
- Advérbio;
- Substantivo;
- Verbo;
Isso deve-se ao fato das palavras que se encontram nessas 4 classes gramaticais expressarem orientação de sentimentos do autor da opinião. Assim, o sistema deverá aplicar um stoplist, ou seja, eliminar do documento palavras que não têm importância para a classificação de opinião. Vale salientar que o pré-processamento pode ocorrer seguindo modelos variantes ao descrito, muitas vezes utilizando algoritmos de stemming com o intuito de maximizar ou melhorar o processo descrito.
A base de documentos de um sistema de Mineração de Opiniões guardará a informação de posição das palavras, pois esta informação será relevante para o cálculo de Pointwise Mutual Information, o PMI. Cálculo este de suma importância para a classificação da opinião. Um outro dado primordial que deverá ser guardado nesta base de documentos e que também servirá para o cálculo do PMI será a probabilidade de ocorrência das palavras.
Referências
- ↑ a b Zhi-Hua Zhou, Tu-Bao Ho. PRICAI 2008: Trends in Artificial Intelligence: 10th Pacific Rim International Conference on Artificial Intelligence. [S.l.: s.n.]
- ↑ a b Thomas, J., Cover, T. Elements of Information Theory. [S.l.: s.n.]
- ↑ Rosa, Renata Lopes; Rodríguez, Demóstenes Zegarra; Bressan, Graça (2015). «Music recommendation system based on user's sentiments extracted from social networks». Transactions on Consumer Electronics. 61. doi:10.1109/TCE.2015.7298296
- ↑ Rosa, Renata Lopes; Rodríguez, Demóstenes Zegarra; Bressan, Graça (2013). «SentiMeter-Br: A Social Web Analysis Tool to Discover Consumers' Sentiment». IEEE 14th International Conference on Mobile Data Management. 2. doi:10.1109/MDM.2013.80
- ↑ Vaithyanathan, Shivakumar, Pang, Bo; Lee, Lillian. Thumbs up? Sentiment Classification using Machine Learning Techniques publicado em Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). [S.l.: s.n.]
- ↑ Alok Choudhary, Kunpeng Zhang, Yu Cheng, Wei-keng Liao. Mining Millions of Reviews: A Technique to Rank Products Based on Importance of Reviews. [S.l.: s.n.]
- ↑ Kathleen R. McKeown, Vasileios Hatzivassiloglou. Predicting the Semantic Orientation of Adjectives. [S.l.: s.n.]
- ↑ Semantic fields and lexical structure. Amsterdam: North Holland Publishing Company. [S.l.: s.n.]
|nome1=
sem|sobrenome1=
em Authors list (ajuda) - ↑ Yong Shib, Emma Haddia, Xiaohui Liua. The Role of Text Pre-processing in Sentiment Analysis. [S.l.: s.n.]
- ↑ The Role of Text Pre-processing in Opinion Mining on a Social Media Language Dataset publicado em Intelligent Systems (BRACIS), 2014 Brazilian Conference on. [S.l.: s.n.]
|nome1=
sem|sobrenome1=
em Authors list (ajuda) - ↑ Various Approaches in Text Pre-processing. [S.l.: s.n.]
|nome1=
sem|sobrenome1=
em Authors list (ajuda)
Ligações externas[editar | editar código-fonte]
- Bibliografia
- Alok Choudhary, Kunpeng Zhang, Yu Cheng, Yusheng Xie, Daniel Honbo Ankit Agrawal, Diana Palsetia, Kathy Lee, Wei-keng Liao. SES: Sentiment Elicitation System for Social Media Data. [S.l.: s.n.]
- A resource for evaluating the deep lexical acquisition of English verbparticle constructions. In: Proceedings of the LREC 2008 Workshop Towards a Shared Task for Multiword Expressions (MWE 2008), Marrakech (2008). [S.l.: s.n.]
|nome1=
sem|sobrenome1=
em Authors list (ajuda) - A lexicographic evaluation of German adjective-noun collocations. In: Proceedings of the LREC 2008 Workshop Towards a Shared Task for Multiword Expressions (MWE 2008), Marrakech (2008). [S.l.: s.n.]
|nome1=
sem|sobrenome1=
em Authors list (ajuda)