Pipeline tốt nhất cho chatbot Tiếng Việt

Xin chào mọi người, hiện tại em đang có dự án phát triển rasa chatbot. Tuy nhiên, em không biết nên chọn pipeline nào là tốt nhất cho Tiếng Việt. Em đang dùng pipeline như bên dưới nhưng chatbot của em nhận nhầm các intent dẫn đến trả lời sai rất nhiều, em không biết lỗi đang nằm ở chỗ nào. Mọi người có thể giúp đỡ em được không ạ.

Configuration for Rasa NLU.

Components

language: vi

pipeline:

No configuration for the NLU pipeline was provided. The following default pipeline was used to train your model.

If you’d like to customize it, uncomment and adjust the pipeline.

See Tuning Your NLU Model for more information.

  • name: components.nlu_tok.AnotherWhitespaceTokenizer
  • name: LanguageModelFeaturizer model_name: “bert”

    model_weights: distilbert-base-uncased

  • name: RegexFeaturizer
  • name: CountVectorsFeaturizer
  • name: CountVectorsFeaturizer analyzer: “char_wb” min_ngram: 1 max_ngram: 4
  • name: DIETClassifier model_confidence: softmax constrain_similarities: True batch_strategy: sequence epochs: 50
  • name: EntitySynonymMapper
  • name: ResponseSelector model_confidence: softmax constrain_similarities: True batch_strategy: sequence epochs: 100
  • name: FallbackClassifier threshold: 0.7 ambiguity_threshold: 0.4

Configuration for Rasa Core.

Policies

policies:

No configuration for policies was provided. The following default policies were used to train your model.

If you’d like to customize them, uncomment and adjust the policies.

See Policies for fmore information.

  • name: RulePolicy core_threshold: 0.3 fallback_action_name: ‘action_default_fallback’ enable_fallback_prediction: True
  • name: MemoizationPolicy max_history: 3
  • name: TEDPolicy

    use_gpu: True

    batch_strategy: sequence model_confidence: softmax #### linear_norm max_history: 5 constrain_similarities: True epochs: 100 batch_size:
    • 32
    • 64