File size: 3,453 Bytes
6dd6d08
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
---
language: ar
---
# Arabic Named Entity Recognition Model

Pretrained BERT-based ([arabic-bert-base](https://huggingface.co/asafaya/bert-base-arabic)) Named Entity Recognition model for Arabic.

The pre-trained model can recognize the following entities:
1. **PERSON**

-  و هذا ما نفاه المعاون السياسي للرئيس ***نبيه بري*** ، النائب ***علي حسن خليل***   

- لكن أوساط ***الحريري*** تعتبر أنه ضحى كثيرا في سبيل البلد 

- و ستفقد الملكة ***إليزابيث الثانية*** بذلك سيادتها على واحدة من آخر ممالك الكومنولث 

2. **ORGANIZATION**

- حسب أرقام ***البنك الدولي*** 

-  أعلن ***الجيش العراقي*** 

-  و نقلت وكالة ***رويترز*** عن ثلاثة دبلوماسيين في ***الاتحاد الأوروبي*** ، أن ***بلجيكا*** و ***إيرلندا*** و ***لوكسمبورغ*** تريد أيضاً مناقشة 

-  ***الحكومة الاتحادية*** و ***حكومة إقليم كردستان*** 

- و هو ما يثير الشكوك حول مشاركة النجم البرتغالي في المباراة المرتقبة أمام ***برشلونة*** الإسباني في 


3. ***LOCATION***

-  الجديد هو تمكين اللاجئين من “ مغادرة الجزيرة تدريجياً و بهدوء إلى ***أثينا***-  ***جزيرة ساكيز*** تبعد 1 كم عن ***إزمير*** 


4. **DATE**

-  ***غدا الجمعة*** 

-  ***06 أكتوبر 2020*** 

- ***العام السابق*** 


5. **PRODUCT**

-  عبر حسابه ب ***تطبيق “ إنستغرام ”*** 

-  الجيل الثاني من ***نظارة الواقع الافتراضي أوكولوس كويست*** تحت اسم " ***أوكولوس كويست 2*** " 


6. **COMPETITION**

-  عدم المشاركة في ***بطولة فرنسا المفتوحة للتنس*** 

-  في مباراة ***كأس السوبر الأوروبي*** 

7. **PRIZE**

-  ***جائزة نوبل ل لآداب***

-  الذي فاز ب ***جائزة “ إيمي ” لأفضل دور مساند***

8. **EVENT**

-  تسجّل أغنية جديدة خاصة ب ***العيد الوطني السعودي***

- ***مهرجان المرأة يافوية*** في دورته الرابعة 

9. **DISEASE**

-  في مكافحة فيروس ***كورونا*** و عدد من الأمراض 

-  الأزمات المشابهة مثل “ ***انفلونزا الطيور*** ” و ” ***انفلونزا الخنازير*** 

## Example

[Find here a complete example to use this model](https://github.com/hatmimoha/arabic-ner)

Here is the map from index to label:

```
id2label = {
    "0": "B-PERSON",
    "1": "I-PERSON",
    "2": "B-ORGANIZATION",
    "3": "I-ORGANIZATION",
    "4": "B-LOCATION",
    "5": "I-LOCATION",
    "6": "B-DATE",
    "7": "I-DATE"",
    "8": "B-COMPETITION",
    "9": "I-COMPETITION",
    "10": "B-PRIZE",
    "11": "I-PRIZE",
    "12": "O",
    "13": "B-PRODUCT",
    "14": "I-PRODUCT",
    "15": "B-EVENT",
    "16": "I-EVENT",
    "17": "B-DISEASE",
    "18": "I-DISEASE",
}

```

## Training Corpus

The training corpus is made of 378.000 tokens (14.000 sentences) collected from the Web and annotated manually.

## Results

The results on a valid corpus made of 30.000 tokens shows an F-measure of ~87%.