hungdungn47 commited on
Commit
bb6fe5a
1 Parent(s): e585b9e

add readme and abmusu

Browse files
Files changed (2) hide show
  1. README.md +50 -12
  2. abmusu.zip +3 -0
README.md CHANGED
@@ -1,12 +1,50 @@
1
- ---
2
- title: MultiDocsSummarization
3
- emoji: 💻
4
- colorFrom: red
5
- colorTo: purple
6
- sdk: streamlit
7
- sdk_version: 1.37.0
8
- app_file: app.py
9
- pinned: false
10
- ---
11
-
12
- Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # Tóm tắt Đa văn bản Tiếng Việt
2
+
3
+ Đây là một ứng dụng tóm tắt Đa văn bản Tiếng Việt viết trên Python và deploy với Streamlit cloud.
4
+
5
+ Link sản phẩm:
6
+
7
+ https://huggingface.co/spaces/hungdungn47/MultiDocsSummarization
8
+
9
+ ## Bộ dữ liệu Abmusu
10
+
11
+ Abmusu gồm 600 cụm văn bản (1839 văn bản) cho tóm tắt đa văn bản tiếng Việt, trong đó
12
+
13
+ Tập train: 200 cụm - 621 văn bản
14
+
15
+ Tập validation: 100 cụm - 304 văn bản
16
+
17
+ Tập test: 300 cụm - 914 văn bản
18
+
19
+ Mỗi data example gồm title, anchor text và body text của toàn bộ văn bản trong cụm văn bản. Mỗi cụm văn bản có một chủ đề và một tóm tắt mẫu.
20
+
21
+ ## Phương pháp tóm tắt
22
+
23
+ Bài toán tóm tắt văn bản có 2 hướng tiếp cận:
24
+
25
+ - Extractive summarization: Chọn những câu mang nhiều ý nghĩa quan trọng nhất, có thể thể hiện nội dung toàn bộ văn bản. Lấy nguyên văn những câu đó để tạo bản tóm tắt.
26
+
27
+ - Abstractive summarization: Dùng mô hình sinh để sinh ra bản tóm tắt. Bản tóm tắt có thể chứa các cụm từ và các câu không xuất hiện trong văn bản gốc.
28
+
29
+ Ứng dụng này cài đặt cả 2 hướng tiếp cận với 2 phương pháp cụ thể sau:
30
+
31
+ - Hướng extractive: Sử dụng Contrastive Hierarchical Discourse Graph
32
+ - Hướng abstractive: Finetune mô hình ViT5
33
+
34
+ ## Cấu trúc Project
35
+
36
+ c_25_0.3701.mdl: Contrast Encoder của mô hình CHDG
37
+
38
+ e_25_0.3071.mdl: End2End Encoder của mô hình CHDG
39
+
40
+ LDA_models.pkl: Mô hình Latent Dirichlet Allocation dùng trong CHDG
41
+
42
+ chdg_inference.py: Inference code của CHDG
43
+
44
+ weight_cp19_model.pth: Tham số checkpoint ViT5
45
+
46
+ infer_concat.py: Inference code của ViT5
47
+
48
+ vietnamese-stopwords-dash.txt: Danh sách stopword tiếng Việt
49
+
50
+ app.py: Mã nguồn deploy web bằng Streamlit
abmusu.zip ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:68c760cdd0e067913dd3b75d7692a8300b82584f6461255dcfa15e2e64cd3b53
3
+ size 2204581