Dealing with Non-ascii characters

As a motivating example, it’s been suggested that this example breaks in Rasa if you use the CRFEntityExtractor.

- intent: simulação
  examples: |
    - Posso simular o pedido de [pagamento em prestações](tipo_pagamento) de uma [divida](PEF) no Portal das Finanças?
    - Simular [IRS](imposto) em prestações
    - simular [pagamento a prestações]{"entity": "tipo_pagamento", "value": "pagamento em prestações"} [IRS](imposto)
    - simular [prestações]{"entity": "tipo_pagamento", "value": "pagamento em prestações"}
    - Ja acedi a simulaçao 5 meses o valor é de 688.70 como posso finalizar o pedido
    - simular [prestações]{"entity": "tipo_pagamento", "value": "pagamento em prestações"} de [IRS](imposto)
    - como fazer simulação de prestações de [IRS](imposto)
    - onde posso obter simulação para [pagamento prestacional]{"entity": "tipo_pagamento", "value": "pagamento em prestações"} de 39000€ em 36 meses
    - Gostaria de fazer simulação para [dividir em prestações]{"entity": "tipo_pagamento", "value": "pagamento em prestações"} meu [IRS](imposto)
    - quero simular [pagamento a prestações]{"entity": "tipo_pagamento", "value": "pagamento em prestações"} [IRS](imposto)
    - como faço para simular [pagamento a prestações]{"entity": "tipo_pagamento", "value": "pagamento em prestações"} [IRS](imposto)
    - necessito de ajuda para simular [pagamento a prestações]{"entity": "tipo_pagamento", "value": "pagamento em prestações"} [IRS](imposto)
    - Em quantas [prestações]{"entity": "tipo_pagamento", "value": "pagamento em prestações"} posso pagar uma [divida fiscal](PEF)?
    - como conseguir uma simulação de [avaliação](tipo_avaliação) de imóvel
    - como conseguir uma simulação de [avaliação](tipo_avaliação) de uma casa
    - como conseguir uma simulação de [IMI](imposto)
    - como conseguir uma simulação de [IRS](imposto)
    - como conseguir uma simulação de um [plano de prestações]{"entity": "tipo_pagamento", "value": "pagamento em prestações"}
    - como consigo uma simulação de [avaliação](tipo_avaliação) de uma casa

To quote @nonola:

As you can see, I’ve some entity names like “tipo_avaliação”, “tipo_imóvel” or “óbito” which contains non-ascii char.

@nonola just to confirm, if you were to translate the text such that it does not include characters like ç or ã … would that suffice? One approach that might work here is to create an NLU component that takes care of this before the text is tokenized. Also to confirm, this wasn’t an issue with DIET? I understand DIET isn’t feasible now due to Tensorflow 2.6 performance, but it would be good to confirm.