uk-ner / README.md
ukr-models's picture
Create README.md
e4e7738
metadata
language:
  - uk
tags:
  - ukrainian
widget:
  - text: >-
      Могила Тараса Шевченка — місце поховання видатного українського поета
      Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над
      яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія
      Манізера.
license: mit

Model Description

Fine-tuning of XLM-RoBERTa-Uk model on synthetic NER dataset with B-PER, I-PER, B-LOC, I-LOC, B-ORG, I-ORG tags

How to Use

Huggingface pipeline way (returns tokens with labels):

from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained('ukr-models/uk-ner')
model = AutoModelForTokenClassification.from_pretrained('ukr-models/uk-ner')

ner = pipeline('ner', model=model, tokenizer=tokenizer)
ner("Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера.")

If you wish to get predictions split by words, not by tokens, you may use the following approach (download script get_predictions.py from the repository, it uses package tokenize_uk for splitting)

from transformers import AutoTokenizer, AutoModelForTokenClassification
from get_predictions import get_word_predictions

tokenizer = AutoTokenizer.from_pretrained('ukr-models/uk-ner')
model = AutoModelForTokenClassification.from_pretrained('ukr-models/uk-ner')

get_word_predictions(model, tokenizer, ["Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера."])