Ola,
Li a sua proposta e ficou bem claro o que é o que você quer.
Peguei seus dois arquivos e ja tenho feito um programa em R que resolve:
- a lista de palavras no texto
- a frequencia de cada uma delas
- identifica quais nao estao na lista de referencia
Por ex: "tá" aparece 82 veces e é a 9a palavra mais frequente do texto, emquanto ela esta na posicao 397 do ranking geral. As primeiras 10 sao: "que", "eu", "é", "não", "a", "o", "você", "de", "tá", "isso"
Eu tenho um PhD em Fisica pela PUC-Rio, estou no top 30% em R no site Stack Overflow e trabalho com datos.
Por que o preco baixo? Porque e a primeira vez aqui no Freelancer.