Wikipédia Discussão:Projetos/Acordo ortográfico/Automatizar Arquivo 01

O conteúdo da página não é suportado noutras línguas.
Adicionar tópico
Origem: Wikipédia, a enciclopédia livre.
Último comentário: 6 de maio de 2009 de LeonardoG no tópico Trabalho do Bot

O texto seguinte foi movido de: Wikipedia_Discussão:Projetos/Acordo_ortográfico#Bots

Os benditos robôs serão ferramenta vital, é evidente. As regras para a criação/utilização desses bots será, talvez, o foco aqui. Franklin Kerber (discussão) 19h04min de 23 de Maio de 2008 (UTC)

Precisarei estudar a fundo a cartilha... por isso... para nos ajudar, os BOTs podem fazer mta coisa. Há uma ferramenta já disponível para correção ortográfica, baseada na simples substituição de uma palavra por outra, porém... não há nenhum BOT que a executa. Eu preciso rodá-la aqui no meu BROWSER e manualmente fazer a substituição. Há como melhorarmos esta ferramenta? Existe alguém que já tenha feito isto? Abraços --Mago® (discussão) 14h36min de 25 de Maio de 2008 (UTC)

O primeiro passo a dar será definir o que será alterado, para podermos começar a preparar as listas. Copio aqui a proposta de ordem de alterações do Manuel de Sousa em Wikipedia Discussão:Projetos/Acordo ortográfico:

  1. Títulos dos artigos
  2. Sistematização do uso da inicial minúscula: meses; estações do ano; pontos cardeais, colaterais e subcolaterais
  3. Hifenização: uso do hífen e sua supressão
  4. Supressão de acentuações exclusivamente brasileiras: trema; palavras graves com ditongos tónicos ei; palavras graves com i e u tónicos, quando precedidas de ditongo; palavras graves terminadas em o duplo
  5. Supressão de acentos: formas verbais de arguir e redarguir; formas verbais graves terminadas em eem; palavras graves com ditongos tónicos oi; palavras graves homógrafas de palavras com vogal tónica aberta ou fechada.
  6. Supressão de consoantes que são sempre mudas (quer em Portugal, quer no Brasil): cc > c; cç > ç; ct > t; pc > c; pç > ç; pt > t;

Waldir msg 17h23min de 1 de Junho de 2008 (UTC)

Trema[editar código-fonte]

Acho que, neste caso, melhor seria criar uma lista com as exceções, visto que são muito poucas - nomes estrangeiros que utilizam esse acento (Müller, etc.). Não sou profundo conhecedor de programação, mas posso ajudar na criação dessas listas. --Tonyjeff ¿Uíqui-o-quê? 17h38min de 1 de Junho de 2008 (UTC)

Consoantes mudas[editar código-fonte]

Confesso que mesmo eu tenho dúvidas quanto a esse caso - absolutamente TODAS as consoantes mudas serão suprimidas??? Fica deveras estranho palavras como oção (opção), assolutamente (absolutamente), inteletual (intectual), adatar (adaptar) etc. Claro que, se for isso mesmo, vamos em frente. Mas precisaremos de ajuda para confirmar a abrangência e resultado final de cada caso. --Tonyjeff ¿Uíqui-o-quê? 17h38min de 1 de Junho de 2008 (UTC)

para muitas palavras vamos provavelmente ter que esperar pelo vocabulário ortográfico que será produzido, se não estou em erro, em Junho; o Manuel de Sousa provavelmente saberá mais detalhes sobre este assunto. De qualquer forma podemos começar a pensar nas expressões regulares a usar, e criar uma lista, para termos tempo de as analisar à procura de falhas antes do momento de iniciar as alterações. --Waldir msg 18h14min de 1 de Junho de 2008 (UTC)
Tony, é conveniente que tenhas uma ideia, pelo menos aproximada, das principais alterações do Acordo Ortográfico de 1990. As tais consoantes chamam-se mudas, precisamente porque "não falam", ou seja não se pronunciam. Se tu pronuncias o p de opção, o b de absolutamente, o c de intelectual, etc. é porque não são mudas e, por isso, não são para eliminar, certo? Só serão eliminadas as consoantes que não são articuladas, por exemplo o c de director, o p de óptimo, etc. Este caso não se aplica ao Brasil, onde as tais consoantes já não se escrevem há muito. Dá uma vista de olhos a Anexo:Lista das alterações previstas pelo acordo ortográfico de 1990. Um abraço, Manuel de Sousa (discussão) 20h51min de 1 de Junho de 2008 (UTC)
Sousa, eu compreendo, mas de fato por "consoante muda" acho um tanto subjetivo. Muitos amigos portugueses estão a reclamar, pois para eles as consoantes de palavras como óptimo e facto não são tão mudas assim. Eu sinceramente me sentiria mais confortável com a publicação oficial do formulário. Abraços. --Tonyjeff ¿Uíqui-o-quê? 10h46min de 2 de Junho de 2008 (UTC)
Tony, facto não vai mudar em Portugal, porque o c pronuncia-se aqui. Esta palavra terá dupla grafia: facto em Portugal e fato no Brasil. Já o p de óptimo ninguém o diz em Portugal (e no Brasil já nem se escreve, faz tempo), então ficará ótimo em toda a Lusofonia. Esta eliminação de consoantes mudas irá afetar pouco mais de 600 palavras, ou sejam 0,54% do vocabulário usado em Portugal. Quando se diz consoante muda refere-se apenas às que não são pronunciadas, quando o são — por ex: corrupção, opção, réptil, dicçãonão são mudas. Quando variam entre o emudecimento e a prolação — para além do exemplo do facto/fato, também secção/seção, receção/recepção, contacto/contato, subtil/sutil, amnistia/anistia, etc. — o AO prevê que ambas as formas sejam consideradas corretas. Isto ocorrerá em cerca de 575 palavras, ou seja, 0,5% do vocabulário geral da língua. Um abraço, Manuel de Sousa (discussão) 11h23min de 2 de Junho de 2008 (UTC)

Hífen[editar código-fonte]

Sei que devemos manter o foco neste projeto, mas eu acharia esta uma excelente oportunidade para já corrigirmos erros clássicos, cujas regras não foram alteradas pelo AO, e não apenas os casos previstos por esse. --Tonyjeff ¿Uíqui-o-quê? 19h39min de 1 de Junho de 2008 (UTC)

Claro. É só uma questão de os acrescentar aos typos do AWB; Acho que as correcções do AO pelo menos por enquanto deveriam ficar numa lista separada. Mas sempre podemos ligar a opção "fix typos" enquanto estivermos a fazer as alterações. --Waldir msg 21h15min de 1 de Junho de 2008 (UTC)

Títulos de verbetes[editar código-fonte]

Realmente acho que deveríamos começar por aqui. Primeiro, porque já dá bastante trabalho adequar tudo o que precisa. Segundo, porque, ao ver o título de acordo com o novo acordo, os usuários já vão "acostumando-se" à nova grafia. Terceiro, porque seria deveras estranho um texto todo de acordo com as novas regras mas não o título do seu verbete. o comentário precedente não foi assinado por Tonyjeff (discussão • contrib.)

Eficácia dos bots[editar código-fonte]

Independentemente dos procedimentos a serem adotados, acho que realmente deveríamos esperar pelo pronunciamento da comunidade. Pois, para alguns, seria válido a um usuário reverter à grafia antiga texto alterado pot bot para o novo acordo, o que de fato inutilizaria todo este esforço. --Tonyjeff ¿Uíqui-o-quê? 10h52min de 2 de Junho de 2008 (UTC)

Tony, não é para fazer nada neste momento. É apenas para estudar o que se poderá fazer e como. O quando é para a comunidade decidir. Manuel de Sousa (discussão) 11h29min de 2 de Junho de 2008 (UTC)

iniciando...[editar código-fonte]

bem vou começar abaixo uma lista de expressões regulares que à medida que for expandida poderá ser movida para uma subpágina própria. A lista abaixo baseia-se no descrito em Anexo:Lista das alterações previstas pelo acordo ortográfico de 1990.

ü > u
find="(q|g)ü(e|i)" replace="$1u$2"
éia > eia
find="éia/b" replace="eia"
ôo > oo
find="ôo/b" replace="oo"
êem > eem
find="êem/b" replace="eem"
Janeiro > janeiro
find="/bJan(eiro)?/b" replace="jan$1"
Fevereiro > fevereiro
find="/bFev(ereiro)?/b" replace="fev$1"
Março > março
find="/bMar(ço)?/b" replace="mar$1"
Abril > abril
find="/bAbr(il)?/b" replace="abr$1"
Maio > maio
find="/bMai(o)?/b" replace="mai$1"
Junho > junho
find="/bJun(ho)?/b" replace="jun$1"
Julho > julho
find="/bJul(ho)?/b" replace="jul$1"
Agosto > agosto
find="/bAgo(sto)?/b" replace="ago$1"
Setembro > setembro (cf Set)
find="/bSet(embro)?/b" replace="set$1"
Outubro > outubro
find="/bOut(ubro)?/b" replace="out$1"
Novembro > novembro
find="/bNov(embro)?/b" replace="nov$1"
Dezembro > dezembro
find="/bDez(embro)?/b" replace="dez$1"
Estações do ano
find="/b(Primavera|Verão|Outono|Inverno)/b" replace="{{subst:lc:$1}}"
Pontos cardeais
find="([ao] )?(Norte|Sul|Este|[LO]este)( d[aeo]s?)" replace="$1{{subst:lc:$2}}$3"
find="(a )?(Nor-|Lés-|Su-|Oés-)?(Nor[od]|Sudo?)(este)( d[aeo]s?)/b" replace="$1{{subst:lc:$2}}{{subst:lc:$3}}$4"
consoantes mudas (cc > c, pc > c, ct > t, pt > t, cç > ç, pç > ç)
find="[cp](c|ç|t)" replace="$1"

Nem todas essas alterações acontecerão em todas as palavras. Tem um exemplo logo acima. Opção vai continuar com o "pç". Imagino que tem outros exemplos também para os outros casos de consoantes mudas. Só vejo duas opções : ou fazer uma lista das palavras que permanecerão com "pç" (opção) ou das palavras que serão mudadas "pç"->"ç".

Não sei qual dos dois é o melhor, ou se há um modo mais fácil. Mas inevitavelmente precisaremos de uma lista, pq podemos acabar deixando de fora alguma palavra ao fazer uma regra genérica, e a lista vai ajudar a verificar isso.

=> Rjclaudio msg 01h23min de 5 de Junho de 2008 (UTC)

Parece-me que, em vez de ü > u, seria preferível algo do género gü > gu e qü > qu, caso contrário nomes como Müller seriam alterados. Seja como for, o ideal seria uma listagem das palavras a alterar, mas não sei quem nos podia ajudar nisto... Manuel de Sousa (discussão) 10h35min de 5 de Junho de 2008 (UTC)
Era precisamente este tipo de resposta que eu pretendia :) notem o link que pus ao lado de setembro, por exemplo. Penso que mais fácil que uma lista de palavras, será talvez tentar discernir padrões que se repitam (por exemplo, e que já alterei -- talvez esse padrão de reconhecimento consiga excluir todos os nomes próprios; se não, pode-se tentar um padrão ainda mais complexo -- mas ainda assim é melhor que uma lista de palavras e/ou excepções, que temo não poder ser exaustiva) --Waldir msg 11h04min de 5 de Junho de 2008 (UTC)
Eu já colocaria logo güe, güi, qüe, qüi, pois são os únicos casos válidos de trema em português, o que evitaria ainda mais um eventual nome estrangeiro que usasse güa, por exemplo. Já no caso dos pontos cardeais, eu tomaria cuidado. É certo que, por exemplo, a região sul do Brasil é muito frio. Já O Sul é muito frio continua em maiúscula, pois toma-se o ponto cardeal de maneira absoluta (ver parágrafo 2.º, base 19, do Acordo). --Tonyjeff ¿Uíqui-o-quê? 00h29min de 6 de Junho de 2008 (UTC)

Pode tentar um "sul de/o/a", pq se sul for região, normalmente se tem "região de algum lugar". => Rjclaudio msg 00h54min de 6 de Junho de 2008 (UTC)

done. Introduzi também os casos "a norte", "a sul", etc. --Waldir msg 10h32min de 6 de Junho de 2008 (UTC)

Ponto de situação[editar código-fonte]

Caros, como estou com um pé dentro e outro pé fora, gostava que fizessem um ponto de situação sobre o desenvolvimento dos trabalhos neste subprojeto. Pode-se considerar que o levantamento do trabalho global a efetuar por bots está feito? Os recursos existentes são suficientes ou já identificaram limitações técnicas importantes? Conseguem estimar que tempo será necessário para tornar toda a WP-pt 100% conforme o AO? Obrigado e um abraço, Manuel de Sousa (discussão) 09h59min de 8 de Junho de 2008 (UTC)

Eu diria que se está a 50%. Por um lado, nos pontos 2, 4, 5 e 6 já há algum avanço; é necessário porém mais feedback sobre os casos que as regras actualmente definidas irão capturar indevidamente (ou não capturar), e talvez elaborar listas de excepções e/ou inclusões. Penso que para este efeito não temos remédio senão aguardar pelo vocabulário ortográfico, mas nalguns casos mais óbvios (por exemplo, opção, indicada acima) pode-se começar a esboçar essas listas. Algum brainstorming se calhar será necessário para averiguar se são maiores as listas de excepções ou de regras, em cada caso. Estes passos irão completar os pontos 2 a 6, embora uma cobertura completa só será possível após ter sido definido o vocabulário, como já afirmei acima
Já em relação ao ponto 1, será preciso a intervenção de outros bot-owners (nomeadamente, do pywikipediabot) pois tenho a impressão que no AWB não há a opção de mover artigos. --Waldir msg 12h18min de 8 de Junho de 2008 (UTC)

listas de regras ou de excepções?[editar código-fonte]

Pelo que li acima, serão à volta de 600 as palavras que irão mudar relativamente às consoantes mudas. Presumo que esse valor seja inferior às que não irão mudar. 575 irão manter dupla grafia. Pergunto-me se, somados a eventuais casos em que as combinações pt, ct, etc. não incluem consoantes mudas em nenhuma variante do português (se é que essas palavras existem), a lista não ultrapassaria os 600, pelo que seria (ligeiramente) mais conveniente elaborar a lista das mudanças (regras), em vez das excepções.

Tenho a esperança que, tendo essa lista, se possam agrupar palavras (nomeadamente famílias) de forma a diminuir o número de regras e tornar assim o processo mais fácil de gerir. --Waldir msg 16h51min de 9 de Junho de 2008 (UTC)

Imagino que, de fato, o melhor seja fazer nesse caso a lista das palavras a serem mudadas, tanto pela praticidade quanto pela segurança de não estar a omitir alguma palavra. No entanto, como disse anteriormente e o Waldir firsou logo acima, o mais certo é esperar pelo vocabulário oficial, antes de termos certeza do que seria melhor (regra ou exceção) e o que realmente muda. --Tonyjeff ¿Uíqui-o-quê? 17h34min de 9 de Junho de 2008 (UTC)
Alguém tem idéia de quando sairia o vocabulário oficial ? => Rjclaudio msg 20h39min de 9 de Junho de 2008 (UTC)
Começou a ser compilada uma lista de palavras que serão alteradas devido à supressão de consoantes mudas. Está em Wikipédia:Projetos/Acordo ortográfico/Consoantes mudas, quem puder, colabore. --Waldir msg 01h16min de 15 de Junho de 2008 (UTC)
Pretende-se que esta lista seja exaustiva e não apenas exemplificativa. Só devem ser colocadas as palavras que terão consoantes eliminadas em toda a lusofonia. Por exemplo, não deve ser incluído o caso aspecto > aspeto, porque, como no Brasil há quem pronuncie o c, ambas as formas se manterão como válidas. Assim sendo, quando fizermos a revisão da ortografia de todos os artigos, ajustando-os às normas do AO, não vamos alterar as palavras com grafias duplas, mas apenas aquelas que só terão uma grafia possível e diferente da que lá está atualmente. Exemplos: acção > ação, actual > atual, director > diretor, eléctrico > elétrico, óptimo > ótimo, etc.Toda a ajuda é muito bem-vinda, por exemplo recorrendo-se aos dicionários já publicados em Portugal segundo o AO.
Quanto à pergunta do Rjclaudio, acima, segundo esta notícia (3.º parágrafo a contar do fim), Evanildo Bechara diz que o vocabulário da ABL deverá sair em novembro, mas ainda não é certo. Não sei nada de Portugal, onde a entidade responsável pela língua (uma Academia que, pelo menos no nome, nem é da Língua, nem das Letras, nem sequer se identifica como Portuguesa — a Academia das Ciências de Lisboa) prima pela ausência, levando as editoras a fazerem as suas próprias interpretações do texto do AO e a lançar os seus dicionários. Seria de esperar que houvesse uma concertação de posições entre ambos os países e que saísse um só vocabulário comum, como manda o texto do AO. O que, na minha opinião, já deveria ter acontecido há muito. Já passaram 18 anos da assinatura do AO e continuam à espera não sei de quê! (Desculpem estes desabafos, mas esta forma lusitana ou luso-tropical de fazer as coisas, às vezes impacienta-me...) Cumprimentos, Manuel de Sousa (discussão) 10h40min de 15 de Junho de 2008 (UTC)

Poderíamos enviar um e-mail à ACL pra saber se está nos planos dela tratar do vocabulário ortográfico, que tal? Mateus Hidalgo sim? 13h57min de 15 de Junho de 2008 (UTC)

Trabalho do Bot[editar código-fonte]

Boa tarde, ando muito afastado daqui mas se usarem o bot replace.py inserindo uma regra no fixes.py para trocar um palavra por outra fica realmente muito fácil, podendo também colocar também exceções. Qualquer coisa eu ajudo. --leonardo (discussão) 17h17min de 6 de maio de 2009 (UTC)Responder