Computação granular
Este artigo ou secção contém uma lista de referências no fim do texto, mas as suas fontes não são claras porque não são citadas no corpo do artigo, o que compromete a confiabilidade das informações. (Novembro de 2015) |
Computação granular (GrC) é um paradigma de computação emergente de processamento de informações. Trata-se de processamento de entidade complexas de informação chamadas de grânulos, que surgem no processo de abstração e derivação de conhecimento de informações ou dados. De modo Geral, grânulos de informações são coleções de entidade que usualmente originam no nível numérico e são organizadas em conjunto, deviso a sua semelhança, adjacência física ou funcional, indistinguibilidade, coerência, ou semelhantes.
Atualmente, computação granular é mais uma perspectiva teórica do que um conjunto coerente de métodos e princípios. Como uma perspectiva teórica, incentiva uma abordagem dos dados que reconhece e explora o conhecimento presente em dados em vários nível de resolução ou escala. Neste sentido, ela aborda todos os métodos que fornecem flexibilidade e adaptabilidade na resolução em que conhecimento ou informação é extraída ou apresentada
Tipos de granulação
[editar | editar código-fonte]Como mencionado acima, computação granular não é um algoritmo ou processo; não existe um método particular que é chamado de "computação granular". Isto é, uma abordagem para observar os dados que reconhece como regularidades são diferentes e interessantes, nos dados podem aparecer aparecer em diferentes nível de granularidade, tanto quanto diferentes características se salientam em Imagem de satélite de maior ou menor resolução. Em imagens de satélite de baixa resolução, por exemplo, pode-se notar padrões interessantes de nuvens que podem representar um Ciclone ou outro fenômeno de larga escala, enquanto uma imagem de alta resolução, falha em perceber esses fenômenos em grande escala, mas em vez percebe fenômenos atmosféricos em menor escala, como um padrão interessante nas ruas de Manhattan. O mesmo é geralmente verdade em todos os dados: em diferentes resoluções ou granularidades, diferentes características ou relações emergem. O objetivo da computação granular, em última analise, é simplesmente tentar tirar proveito deste fato na concepção de sistemas mais eficazes de aprendizagem de maquina e raciocínio.
Existem vários tipos de granularidade que são frequentemente encontrados em mineração de dados e aprendizado de maquina, e iremos rever isto abaixo:
Valor de granulação (discretização/quantização)
[editar | editar código-fonte]Um tipo de granulação é a quantização de variáveis. Isto é muito comum em aplicações de mineração de dados aprendizagem de máquina em que a resolução das varáveis precisa ser reduzida para obter regularidades significativas. Um exemplo disto seria uma variável como "temperatura do lado de fora" (), que em uma dada aplicação pode ser gravada com várias casas de precisão (dependendo do aparelho de medição). No entanto, para fins de extrair relações entre "temperatura do lado de fora" e dizer, "números de aplicações de saúde do clube" (), será vantajoso para quantificar "temperatura do lado de fora" entre um pequeno número de intervalos.
Motivações
[editar | editar código-fonte]Existem várias razões inter-relacionadas para variáveis de granulação desta forma
- Com base no conhecimento prévio, não há expectativa de que pequenas variações de temperatura (por exemplo, a diferença entre Predefinição:Convert/Dual/LoffAoffDbSoffT) poderia influenciar no comportamento de condução do número de aplicações sem saúde do clube. Por esta razão, alguma "regularidade" que nossos algoritmos de aprendizagem que poderiam detectar este nível de resolução deveriam ser espúrios, como um artefato de reajuste. Por engrossar a variável temperatura em intervalos e diferenças que podemos antecipar (baseado no conhecimento adquirido a priori) possam influenciar nas aplicações em saúde do clube, eliminamos a possibilidade de detecção destes padrões espúrios. Assim, nesse caso, reduzir resolução é um método de controle de sobreajuste.
- Por reduzir o número de intervalos na variável temperatura (por exemplo., aumentando o tamanho do granulo), aumentamos a quantidade de dados de exemplo indexados por cada intervalo designado. Assim, por engrossar a variável, aumentamos o tamanho das amostras e conseguimos uma melhor estimativa estatística. Neste sentido, aumentar a granularidade provem um antidoto para a então chamada maldição da dimensionalidade, que um decremento exponencial no poder estatístico com incremento no número de dimensões ou cardinalidade variável.
- Independente do conhecimento prévio, é muitas vezes o caso em que regularidades significativas (i.e., que podem ser detectadas por um dado método de aprendizagem, linguagem representativa, etc.) podem existir em um nível de resolução e não em outro.
Por exemplo, um sistema de reconhecimento de aprendiz ou um padrão simples pode tentar extrair regularidades satisfazendo o limite de probabilidade condicional como . No caso especial onde , este sistema de reconhecimento esta essencialmente detectando implicação lógica da forma ou, em palavras, "se , então ". O sistema de habilidade para reconhecer tais implicações (ou, em geral, as probabilidades condicionais de limiar superior ) é parcialmente contingente na resolução com que o sistema analisa as variáveis.
Como um exemplo deste último ponto, considere o espaço característico mostrado a direita. As variáveis podem ser consideradas com duas resoluções diferentes. Variável pode ser considerada como alta (quaternária) resolução onde isto leva a quatro valores ou como menor (binaria) resolução onde isto leva a dois valores . Similarmente, variável pode ser considerada alta (quaternária) resolução ou como baixa (binaria) resolução, onde terá os valores ou , respectivamente. Poderá ser notado que na alta resolução, não há implicações detectáveis na forma , uma vez que cada é associado a mais de um , e assim, para todo , . No entanto, na baixa (binaria) resolução variável, duas implicações bilaterais poderão ser detectadas: e, para cada ocorre se e somente se e ocorre se e somente se . Assim, um sistema de reconhecimento de padrões buscando por implicações deste tipo iria encontrá-los na resolução variável binária, mas não seria suficiente para encontrá-las na resolução variável superior quartenária.
Problemas e métodos
[editar | editar código-fonte]Não é viável testar exaustivamente todas possíveis soluções de discretização em todas as variáveis, a fim de ver qual a combinação de soluções possui resultados mais interessantes ou significativos . Em vez disso, o espaço de características devera ser pré-processado(muitas vezes por uma analise de uma espécie de entropia), de modo que alguma orientação pode ser dada a forma como o processo de discretização deve prosseguir. Além disso, não se pode obter bons resultados, ingenuamente, analisando e discretizando cada variável de forma independente, uma vez que isso pode destruir as próprias interações que esperávamos descobrir.
Umas amostras de documentos que abordam o problema de discretização de variáveis em geral, e em particular discretização de múltiplas-variáveis, estão a seguir: Chiu, Wong & Cheung (1991), Bay (2001), Liu et al. (2002), Wang & Liu (1998), Zighed, Rabaséda & Rakotomalala (1998), Catlett (1991), Dougherty, Kohavi & Sahami (1995), Monti & Cooper (1999), Fayyad & Irani (1993), Chiu, Cheung & Wong (1990), Nguyen & Nguyen (1998), Grzymala-Busse & Stefanowski (2001), Ting (1994), Ludl & Widmer (2000), Pfahringer (1995), An & Cercone (1999), Chiu & Cheung (1989), Chmielewski & Grzymala-Busse (1996), Lee & Shin (1994), Liu & Wellman (2002), Liu & Wellman (2004).
Granulação variável (agrupamento/agregação/transformação)
[editar | editar código-fonte]Granulação variável é um termo que poderia descrever uma variedade de técnicas, a maioria das quais são destinadas a redução de requerimentos de dimensionalidade, redundância e armazenamento. Nós descrevemos brevemente algumas das ideias aqui, e apresentamos ponteiros para literatura.
Transformação variável
[editar | editar código-fonte]Uma série de métodos clássicos, como analise de componentes principais, escalonamento multidimensional, analise fatorial, e modelagem de equações estruturais, e seus relativos, caem sob o gênero de "transformação variável." Também nesta categoria tem áreas mais modernas de estudo tais quais: redução de dimensionalidade, busca de projeção, e analise de componente independente. O objetivo comum destes métodos em geral é encontrar uma representação dos dados em termos de novas variáveis, que são transformações lineares ou não lineares das variáveis originais, e em que as relações estatísticas importantes emergem. O conjunto de variáveis resultante são quase sempre menor que o conjunto de variáveis original, e portanto, estes métodos podem ser vagamente para impor uma granulação em um espaço de características. Estes são métodos de redução de dimensionalidade, são revistos nos textos convencionais, como Duda, Hart & Stork (2001), Witten & Frank (2005), e Hastie, Tibshirani & Friedman (2001).
Variável de agregação
[editar | editar código-fonte]Uma classe diferente de métodos de granulação variável deriva mais de metodologias de data clustering que a partir da teoria de sistemas lineares informando os métodos acima. Notou-se bastante cedo que se pode considerar "cluster" em variáveis relacionadas exatamente do mesmo jeito que se considera dados de agrupamento relacionados. Em data clustering, uma identifica um grupo de entidades similares (usando uma medida de "similaridade" adequada ao domínio), e em seguida, em algum sentido, substitui as entidades com um protótipo de algum tipo. O protótipo pode ser a média simples dos dados identificados no cluster, ou alguma outra medida representativa. Mas a ideia chave, é que em operações subsequentes, que pode ser capaz de utilizar um único protótipo para o cluster de dados (ao longo, talvez um modelo estático que descreve como exemplares são derivadas do protótipo) para substituir um conjunto de exemplares maior. Estes protótipos são geralmente, como capturar a maior parte de informação de interesse referentes as entidades .
Similarmente, é razoável perguntar se um grande conjunto de variáveis podem ser agregadas em um conjunto menor de variáveis de protótipo que capturam as relações mais relevantes entre as variáveis. Embora métodos de agrupamento de variáveis baseados em correlação linear tenham sido propostos (Duda, Hart & Stork 2001;Rencher 2002), métodos mais poderosos de agrupamento de variáveis são baseados em informação mutua entre variáveis. Watanabe mostrou (Watanabe 1960;Watanabe 1969) que, para qualquer conjunto de variáveis pode-se construir uma politônica (i.e., n-aria) árvore que representa uma série de aglomerações variáveis em que o máximo de correlação "total" entre o conjunto variável completa é a soma das correlações "parciais" exibidas por cada aglomeração de subconjunto(veja a figura). Watanabe sugere que um observador poderia participar do sistema de tal forma a minimizar a interdependência entre as partes "... Como se eles estivessem procurando uma divisão natural ou um crack escondido."
Uma abordagem prática para a construção de uma tal árvore é escolher sucessivamente para a aglomeração das duas variáveis (ou variáveis atômicas ou variáveis anteriormente aglomeradas) que têm o mais alto de informação mútua em pares (Kraskov et al. 2003). O produto de cada aglomeração é uma nova (construída) variável que reflete a distribuição local conjunta de duas variáveis aglomeradas, e portanto, possui uma entropia igual a sua entropia conjunta . (De um ponto de vista procedural, este passo de aglomeração envolve a substituição de duas colunas na tabela de atributo-valor, representando as duas variáveis com aglomeração, com uma coluna que tem um valor único para cada combinação única de valores nas colunas substituídas (Kraskov et al. 2003). Nenhuma informação é perdida por uma dessas operações; no entanto, deve notar-se que, se está a explorar os dados de relações inter-variáveis, que geralmente, não seria desejável para fundir variáveis redundantes, desta forma, uma vez que em tal contexto é provável que seja precisamente a redundância ou dependência entre variáveis que são de interesse, e uma vez que as variáveis redundantes são fundidas, a sua relação uma à outra já não pode ser estudada.
Sistema de granulação (agregação)
[editar | editar código-fonte]Em banco de dados, aggregações (ver, por exemplo, OLAP e sistemas inteligência empresarial) resultam na transformação de tabelas de dados originais (muitas vezes chamados de sistemas de informação) nas mesas com diferentes semânticas de linhas e colunas, onde as linhas correspondem aos grupos (grânulos) da tupla original e as colunas expressam informações agregadas sobre os valores originais dento de cada um dos grupos. Essas agregações são usualmente baseadas em SQL e suas extensões. Os grânulos resultantes usualmente correspondem aos grupos de tuplas originais com os mesmos valores (ou intervalos) ao longo de algumas colunas originais pré-selecionadas.
Existem também outras abordagens em que os grupos são definidos baseando-se, por exemplo, em linhas de adjacência física. Por exemplo, Infobright implementa um mecanismo de banco em que os dados são dividido em linhas ásperas, cada uma consistindo de 64K de linhas fisicamente consecutivas (ou quase consecutivas). Linhas ásperas são automaticamente rotuladas com informações compactadas sobre seus valores em colunas de dados, muitas vezes envolvendo várias colunas e as relações multi-tabelas. Isso resulta em uma camada superior de sistemas de informação granuladas onde os objetos correspondem a linhas ásperas e atributos - para vários sabores de informação áspera. Operações de banco de dados podem ser eficientemente suportadas no âmbito de um novo framework, com um acesso às peças de dados originais ainda disponíveis.
Conceito de granulação (analise de componentes)
[editar | editar código-fonte]As origens da ideologia da computação granular podem ser encontrados na literatura dos conjuntos ásperos e conjuntos difusos. Uma das principais ideias de pesquisa de conjuntos áspero, embora de jeito nenhum única dele, é que, geralmente, a seleção de diferentes conjuntos de características ou variáveis produzirá diferentes conceitos de granulação. Aqui, como na teoria dos conjuntos rústicos elementares, por "conceito" queremos dizer um conjunto de entidades que são indistinguíveis ou indiscerníveis ao observador (i.e., um conceito simples), ou um conjunto de entidades que compõem um simples conceito (i.e., um conceito complexo). Em outras palavras, projetando um conjunto de dados (sistema de valor-atributo) em diferentes conjuntos de variáveis, reconhecemos conjuntos alternativos de classe de equivalência, "conceitos" no dado, e estes diferentes conjuntos de conceitos será em geral favorável para a extração de diferentes relacionamentos e regularidades.
Equivalência de classes de granulação
[editar | editar código-fonte]Ilustramos com um exemplo. Considere o valor-atributo do sistema abaixo:
Exemplo de sistema de informação Objeto 1 2 0 1 1 1 2 0 1 1 2 0 0 1 0 0 0 1 2 1 2 1 0 2 1 0 0 1 2 2 2 0 0 1 0 0 1 2 2 1 2 1 0 2 2 2 0 0 1 0
Quando o conjunto completo de atributos é considerado, vemos que temos as seguintes sete classes de equivalência ou conceitos primitivos(simples):
Assim, os dois objetos dentro da primeira classe de equivalência, , não podem ser distinguidos uns dos outros com base nos atributos disponíveis, e os três objetos dentro da segunda classe de equivalência, , não podem ser distinguidos uns dos outros com base nos atributos disponíveis. Os cinco objetos restantes são todos discerníveis dos demais objetos. Agora, vamos imaginar a projeção do sistema de valor de atributo para o atributo sozinho, que irá representar, por exemplo, o ponto de vista de um observador que só é capaz de detectar este único atributo. Então obtemos a seguinte estrutura de classe de equivalência mais grosseira.
Isto é, em certo ponto, a mesma estrutura de antes, mas com um menor de resolução (grãos maiores). Justamente como no caso de valor de granulação (discretização/quantização), é possível que os relacionamentos (dependências) talvez surjam em um nível de granularidade e não estarem presentes em outro. Como um exemplo disto, nós podemos considerar o efeito do conceito de granulação na medida conhecida como dependência de atributo (um parente mais simples da informação mutua).
Para estabelecer a noção de dependencia (veja também conjuntos ásperos), deixe representam um conceito particular de granulação, onde cada é uma classe de equivalência do conceito de estrutura induzido pelo conjunto de atributos . Por exemplo, se o conjunto de atributos consiste do atributo somente, como anteriormente, então o conceito de estrutura irá ser composto de , , e . A dependência do conjunto de atributos em outro conjunto de atributos , , é dada por
Ou seja, para cada classe de equivalência em , soma-se o tamanho de sua "aproximação inferior" (veja conjuntos ásperos) pelos atributos em , i.e., . Mais simplesmente, esta aproximação é o número de objetos que estão no conjunto de atributos , pode ser positivamente identificado como pertencem a meta estabelecida no conjunto . Adicionados em todas as classes de equivalência em , o numerador acima representa o número total de objetos que, com base no conjunto de atributos , podem ser positivamente categorizados de acordo com a classificação induzida por atributos . Por conseguinte, a razão de dependência expressa a proporção (dentro de todo universo) de tais objetos classificáveis, no sentido de capturar a "sincronização" das duas estruturas conceito e . A dependencia "Pode ser interpretada como a proporção de tais objetos no sistema de informação para os quais é suficiente para conhecer os valores de atributos em para determinar os valores de atributos em " (Ziarko & Shan 1995).
Tendo chegado definições agora fora do caminho, nós podemos fazer uma simples observação de que a escolha do conceito de granularidade (por exemplo, escolha de atributos) irá influenciar as dependências detectadas entre os atributos. Considere novamente a tabela de valores de atributos abaixo:
Exemplos de sistema de informação Objeto 1 2 0 1 1 1 2 0 1 1 2 0 0 1 0 0 0 1 2 1 2 1 0 2 1 0 0 1 2 2 2 0 0 1 0 0 1 2 2 1 2 1 0 2 2 2 0 0 1 0
Vamos considerar a dependência d conjunto de atributos no conjunto de atributos . Ou seja, queremos saber qual proporção de objetos podem ser corretamente classificados entre as classes de baseado no conhecimento de . A equivalência de classes de e de são demonstradas abaixo.
Os objetos que podem ser definitivamente categorizados de acordo com a estrutura conceito baseada em são aqueles no conjunto , e uma vez que existem seis deles, a dependência de em , . Isto pode ser considerado uma dependência interessante em seu próprio direito, mas provavelmente em um aplicação em particular de mineração de dados são desejadas dependências só que mais fortes.
Podemos então considerar a dependência do menor atributo do conjunto no conjunto de atributos . A passagem de para induz o engrossamento da estrutura de classe , como será vista em breve. Desejamos novamente saber qual proporção de objetos pode ser corretamente classificado nas (agora maior) classes de baseado no conhecimento de . A equivalência de classes do novo e de são demonstradas abaixo.
Claramente, tem uma granularidade mais grossa do que antes. Os objetos podem agora ser definitivamente categorizados de acordo com o conceito da estrutura baseado em constituindo o universo completo , e assim, a dependencia de em , . Ou seja, o conhecimento de adesão de acordo com a categoria do conjunto é adequada para determinar a associoação de categoria em com total certeza; Neste caso poderemos dizer que . Assim, por engrossamento da estrutura conceito, fomos capazes de encontrar uma (determinística) dependência mais forte. No entanto, notamos também que as classes induzidas em da redução da resolução necessária para obter esta dependência determinística agora são eles próprios grandes e poucos em número; como resultado, a dependência que encontramos, enquanto forte, pode ter menos valor para nós do que a dependência fraca encontrada anteriormente sob o ponto de vista da alta resolução de .
Geralmente não é possível testar todos os conjuntos de atributos par ver quais as estruturas conceito induzidas possui as dependências mais fortes, e esta busca deve ser guiada com alguma inteligência. Papéis que discutem este problema, e outros relacionando o uso inteligente da granulação, são aqueles por Y.Y. Yao and Lotfi Zadeh listado nas #References abaixo.
Granulação de componentes
[editar | editar código-fonte]Outra perspectiva no conceito de granulação pode ser obtida do trabalho em modelos paramétricos de categorias. No modelo de mistura de aprendizado, por exemplo, um conjunto de dados é explorado como uma mistura de distribuições Gaussianas (ou outras). Assim, uma grande quantidade de dados "substituída" por uma pequena quantidade de distribuições. A escolha do número de distribuições, e seu tamanho, pode novamente ser vista como um problema do conceito de granulação. Em geral, o melhor ajuste de dados é obtido pelo maior número de distribuições ou parâmetros, mas a fim de extrair padrões significativos, é necessário limitar o número de distribuições, assim deliberadamente engrossando o conceito de resolução. Encontrar o conceito de resolução "correto" é um problema complicado para os quais vários métodos foram propostos (por exemplo, AIC, BIC, MDL, etc.), e estes são frequentemente considerados sob a rubrica do "modelo de regularização".
Diferentes interpretações de computação granular
[editar | editar código-fonte]Computação granular pode ser concebido como um framework de teorias, metodologias, técnicas, e ferramentas que fazem uso de informações granulares no processo de resolução do problema. Neste sentido, computação granular é usado como um termo genérico para cobrir tópicos que tem sido estudados em vários campos isoladamente. Por examinar todos esses estudos existentes a luz do framework unificado da computação granular e extrair semelhanças deles, isto talvez seja possível por desenvolver uma teoria geral para resolução de problemas.
Em um sentido mais filosófico, computação granular pode descrever um jeito de pensar que depende da capacidade humana de perceber o mundo real sob vários níveis de granularidade (i.e., abstração) a fim de abstrair e considerar somente aquelas coisas que servem a um interesse especifico e alternar entre diferentes granularidades. Por focar em diferentes nível de granularidade, pode obter diferentes níveis de conhecimento, tal como, um grande entendimento de uma estrutura de conhecimento inerente. Computação granular é assim essencial para resolver problemas humanos, e portanto, tem um impacto muito significante na concepção e implementação de sistemas inteligentes.
Ver também
[editar | editar código-fonte]- Rough Sets, Discretização
- Type-2 Fuzzy Sets and Systems
Referencias
[editar | editar código-fonte]- An, Aijun; Cercone, Nick (1999), «Discretization of continuous attributes for learning classification rules», in: Ning Zhong & Lizhu Zhou, Methodologies for Knowledge Discovery and Data Mining: Proceedings of the Third Pacific-Asia Conference, PAKDD-99, Beijing, China, pp. 509–514, doi:10.1007/3-540-48912-6_69.
- Bargiela, A. and Pedrycz, W. (2003) Granular Computing. An introduction, Kluwer Academic Publishers
- Bay, Stephen D. (2001), «Multivariate discretization for set mining», Knowledge and Information Systems, 3 (4): 491–512, doi:10.1007/PL00011680.
- Catlett, J. (1991), «On changing continuous attributes into ordered discrete attributes», in: Y. Kodratoff, Machine Learning—EWSL-91: European Working Session on Learning, Porto, Portugal, pp. 164–178.
- Chiu, David K. Y.; Cheung, Benny (1989), «Hierarchical maximum entropy discretization», in: Ryszard Janicki & Waldemar W. Koczkodaj, Computing and Information: Proceedings of the International Conference on Computing and Information (ICCI '89), Toronto, Canada: North-Holland, pp. 237–242.
- Chiu, David K. Y.; Cheung, Benny; Wong, Andrew K. C. (1990), «Information synthesis based on hierarchical maximum entropy discretization», Journal of Experimental and Theoretical Artificial Intelligence, 2: 117–129, doi:10.1080/09528139008953718.
- Chiu, David K. Y.; Wong, Andrew K. C.; Cheung, Benny (1991), «Information discovery through hierarchical maximum entropy discretization and synthesis», in: Gregory Piatetsky-Shapiro & William J. Frawley, Knowledge Discovery in Databases, Cambridge, MA: MIT Press, pp. 126–140.
- Chmielewski, Michal R.; Grzymala-Busse, Jerzy W. (1996), «Global discretization of continuous attributes as preprocessing for machine learning» (PDF), International Journal of Approximate Reasoning, 15: 319–331, doi:10.1016/s0888-613x(96)00074-6.
- Dougherty, James; Kohavi, Ron; Sahami, Mehran (1995), «Supervised and unsupervised discretization of continuous features», in: Armand Prieditis & Stuart Russell, Machine Learning: Proceedings of the Twelfth International Conference (ICML 1995), Tahoe City, CA: Morgan Kaufmann, pp. 194–202.
- Duda, Richard O.; Hart, Peter E.; Stork, David G. (2001), Pattern Classification, ISBN 978-0-471-05669-0 2nd ed. , New York: John Wiley & Sons
- Fayyad, Usama M.; Irani, Keki B. (1993), «Multi-interval discretization of continuous-valued attributes for classification learning», in: edited volume, Proceedings of the Thirteenth International Joint Conference on Artificial Intelligence (IJCAI-93), Chambéry, France, pp. 1022–1027.
- Grzymala-Busse, Jerzy W.; Stefanowski, Jerzy (2001), «Three discretization methods for rule induction», International Journal of Intelligent Systems, 16 (1): 29–38, doi:10.1002/1098-111X(200101)16:1<29::AID-INT4>3.0.CO;2-0.
- Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2001), The Elements of Statistical Learning: Data Mining, Inference, and Prediction, ISBN 978-0-387-84857-0, New York: Springer
- Kraskov, Alexander; Stögbauer, Harald; Andrzejak, Ralph G.; Grassberger, Peter (2003), Hierarchical clustering based on mutual information, arXiv:q-bio/0311039.
- Lee, Changhwan; Shin, Dong-Guk (1994), «A context-sensitive discretization of numeric attributes for classification learning», in: A. G. Cohn, Proceedings of the 11th European Conference on Artificial Intelligence (ECAI 94), NL, pp. 428–432.
- Liu, Chao-Lin; Wellman, Michael (2002), «Evaluation of Bayesian networks with flexible state-space abstraction methods», International Journal of Approximate Reasoning, 30 (1): 1–39, doi:10.1016/S0888-613X(01)00067-6.
- Liu, Chao-Lin; Wellman, Michael (2004), «Bounding probabilistic relationships in Bayesian networks using qualitative influences: Methods and applications», International Journal of Approximate Reasoning, 36 (1): 31–73, doi:10.1016/j.ijar.2003.06.002.
- Liu, Huan; Hussain, Farhad; Tan, Chew Lim; Dasii, Manoranjan (2002), «Discretization: An enabling technique», Data Mining and Knowledge Discovery, 6 (4): 393–423, doi:10.1023/A:1016304305535.
- Ludl, Marcus-Christopher; Widmer, Gerhard (2000), «Relative unsupervised discretization for association rule mining», in: Djamel A. Zighed, Jan Komorowski & Jan Zytkow, Proceedings of the 4th European Conference on Principles of Data Mining and Knowledge Discovery (PKDD 2000), Lyon, France, pp. 148–158, doi:10.1007/3-540-45372-5_15.
- Monti, Stefano; Cooper, Gregory F. (1999), «A latent variable model for multivariate discretization», in: edited volume, Uncertainty 99: The 7th International Workshop on Artificial Intelligence and Statistics, Fort Lauderdale, FL.
- Nguyen, Hung Son; Nguyen, Sinh Hoa (1998), «Discretization methods in data mining», in: Lech Polkowski & Andrzej Skowron, Rough Sets in Knowledge Discovery 1: Methodology and Applications, Heidelberg: Physica-Verlag, pp. 451–482.
- Pfahringer, Bernhard (1995), «Compression-based discretization of continuous attributes», in: Armand Prieditis & Stuart Russell, Machine Learning: Proceedings of the Twelfth International Conference (ICML 1995), Tahoe City, CA: Morgan Kaufmann, pp. 456–463.
- Rencher, Alvin C. (2002), Methods of Multivariate Analysis, New York: Wiley.
- Simon, Herbert A.; Ando, Albert (1963), «Aggregation of variables in dynamic systems», in: Albert Ando, Franklin M. Fisher, & Herbert A. Simon, Essays on the Structure of Social Science Models, Cambridge, MA: MIT Press, pp. 64–91
- Simon, Herbert A. (1996), «The architecture of complexity: Hierarchic systems», in: Herbert A. Simon, The Sciences of the Artificial 2nd ed. , Cambridge, MA: MIT Press, pp. 183–216
- Ting, Kai Ming (1994), Discretization of continuous-valued attributes and instance-based learning (Technical Report No.491), Sydney: Basser Department of Computer Science.
- Wang, Ke; Liu, Bing (1998), «Concurrent discretization of multiple attributes», in: Springer, Proceedings of the 5th Pacific Rim International Conference on Artificial Intelligence, London: Springer-Verlag, pp. 250–259.
- Watanabe, Satosi (1960), «Information theoretical analysis of multivariate correlation», IBM Journal of Research and Development, 4 (1): 66–82, doi:10.1147/rd.41.0066.
- Watanabe, Satosi (1969), Knowing and Guessing: A Quantitative Study of Inference and Information, New York: Wiley.
- Witten, Ian H.; Frank, Eibe (2005), Data Mining: Practical Machine Learning Tools and Techniques 2 ed. , Amsterdam: Morgan Kaufmann
- Yao, Y.Y. (2004) "A Partition Model of Granular Computing", Lecture Notes in Computer Science (to appear)
- Yao, Y. Y. (2001). «On modeling data mining with granular computing». Proceedings of the 25th Annual International Computer Software and Applications Conference (COMPSAC 2001). pp. 638–643
- Yao, Yiyu (2006). «Granular computing for data mining» (PDF). In: Dasarathy, Belur V. Proceedings of the SPIE Conference on Data Mining, Intrusion Detection, Information Assurance, and Data Networks Security
- Yao, J. T.; Yao, Y. Y. (2002). «Induction of classification rules by granular computing» (PDF). Proceedings of the Third International Conference on Rough Sets and Current Trends in Computing (TSCTC'02). London, UK: Springer-Verlag. pp. 331–338
- Zadeh, L.A. (1997) "Toward a Theory of Fuzzy Information Granulation and its Centrality in Human Reasoning and Fuzzy Logic", Fuzzy Sets and Systems, 90:111-127
- Zighed, D. A.; Rabaséda, S.; Rakotomalala, R. (1998), «FUSINTER: A method for discretization of continuous attributes», International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 6 (3): 307–326, doi:10.1142/s0218488598000264.