I’m trying to extract entities for indian language hindi. And most of the data gives the following warning UserWarning: Misaligned entity annotation in message ‘2?? ??? ??? ??? ??? ??? ??? ?? ???’ with intent ‘order’. Make sure the start and end values of entities in the training data match the token boundaries (e.g. entities don’t incl ude trailing whitespaces or punctuation). More info at Training Data Format
following is my pipeline
pipeline:
-
name: HFTransformersNLP
Name of the language model to use
model_name: “bert”
Pre-Trained weights to be loaded
model_weights: “bert-base-multilingual-cased”
-
name: LanguageModelTokenizer
-
name: LanguageModelFeaturizer
-
name: RegexFeaturizer
-
name: CRFEntityExtractor BILOU: True
-
name: CountVectorsFeaturizer analyzer: char_wb min_ngram: 1 max_ngram: 4
-
name: LexicalSyntacticFeaturizer
-
name: DIETClassifier epochs: 100
-
name: EntitySynonymMapper
following is sample of my input training file
intent:order
- 2 दस वाली कैडबरी डेरीमिल्क के बॉक्स दे दीजिये
- 10 दस रुपये के डेरी मिल्क बॉक्स देना प्लीज़
- 210 प्लीज़ 10 रुपये वाली डेरी मिल्क के बॉक्स दे सकते है
- 2 प्लीज़ ₹10 रुपये वाली डेरी मिल्क के बॉक्स दे सकते है
- 4 दस रुपये वाली डेरी मिल्क के बॉक्स दीजिये
- 15 10 रुपये वाली डेरी मिल्क के बॉक्स देना
- 50 क्या आपके पास डेरी मिल्क 10 वाले बॉक्स मिल सकते है
- दस वाली कैडबरी डेरीमिल्क के 2 बॉक्स दे दीजिये
intent:deny
- नहीं चाहिए
- नहीं चाहिए
- नहीं चाहिए
- नहीं
- बिलकुल नहीं
- बिलकुल नहीं चाहिए
- मुझे नहीं चाहिए
- नहीं चाहिए मुझे
- बादमे कॉल कीजिये
- बादमे कॉल करना
- बादमे
- अभी नहीं बादमे