hungdungn47
commited on
Commit
•
81d7128
1
Parent(s):
a069072
change readme and function name in infer_concat
Browse files- README.md +27 -5
- infer_concat.py +2 -2
README.md
CHANGED
@@ -17,9 +17,27 @@ Link sản phẩm:
|
|
17 |
|
18 |
https://huggingface.co/spaces/hungdungn47/MultiDocsSummarization
|
19 |
|
20 |
-
##
|
21 |
|
22 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
23 |
|
24 |
Tập train: 200 cụm - 621 văn bản
|
25 |
|
@@ -29,6 +47,8 @@ Tập test: 300 cụm - 914 văn bản
|
|
29 |
|
30 |
Mỗi data example gồm title, anchor text và body text của toàn bộ văn bản trong cụm văn bản. Mỗi cụm văn bản có một chủ đề và một tóm tắt mẫu.
|
31 |
|
|
|
|
|
32 |
## Phương pháp tóm tắt
|
33 |
|
34 |
Bài toán tóm tắt văn bản có 2 hướng tiếp cận:
|
@@ -42,11 +62,13 @@ Bài toán tóm tắt văn bản có 2 hướng tiếp cận:
|
|
42 |
- Hướng extractive: Sử dụng Contrastive Hierarchical Discourse Graph
|
43 |
- Hướng abstractive: Finetune mô hình ViT5
|
44 |
|
45 |
-
|
|
|
|
|
46 |
|
47 |
-
c_25_0.3701.mdl: Contrast Encoder của mô hình CHDG
|
48 |
|
49 |
-
e_25_0.3071.mdl: End2End Encoder của mô hình CHDG
|
50 |
|
51 |
LDA_models.pkl: Mô hình Latent Dirichlet Allocation dùng trong CHDG
|
52 |
|
|
|
17 |
|
18 |
https://huggingface.co/spaces/hungdungn47/MultiDocsSummarization
|
19 |
|
20 |
+
## About the project
|
21 |
|
22 |
+
### Dự án môn Xử lý ngôn ngữ tự nhiên kỳ hè 2024 - Trường Đại học Công nghệ
|
23 |
+
|
24 |
+
Mã lớp học: INT3406 50
|
25 |
+
|
26 |
+
Giảng viên: TS. Trần Hồng Việt; PGS.TS. Nguyễn Phương Thái
|
27 |
+
|
28 |
+
### Nhóm sinh viên thực hiện
|
29 |
+
|
30 |
+
Mai Tú Phương - 21020552
|
31 |
+
|
32 |
+
Trần Nam Anh - 22022569
|
33 |
+
|
34 |
+
Nguyễn Hùng Dũng - 22021133
|
35 |
+
|
36 |
+
Phan Xuân Bảo - 21020053
|
37 |
+
|
38 |
+
## Bộ dữ liệu AbMusu (VLSP 2022)
|
39 |
+
|
40 |
+
AbMusu gồm 600 cụm văn bản (1839 văn bản) cho tóm tắt đa văn bản tiếng Việt, trong đó
|
41 |
|
42 |
Tập train: 200 cụm - 621 văn bản
|
43 |
|
|
|
47 |
|
48 |
Mỗi data example gồm title, anchor text và body text của toàn bộ văn bản trong cụm văn bản. Mỗi cụm văn bản có một chủ đề và một tóm tắt mẫu.
|
49 |
|
50 |
+
Bộ dữ liệu được lưu trong file abmusu.zip của repo này
|
51 |
+
|
52 |
## Phương pháp tóm tắt
|
53 |
|
54 |
Bài toán tóm tắt văn bản có 2 hướng tiếp cận:
|
|
|
62 |
- Hướng extractive: Sử dụng Contrastive Hierarchical Discourse Graph
|
63 |
- Hướng abstractive: Finetune mô hình ViT5
|
64 |
|
65 |
+
Cả hai phương pháp đều được huấn luyện/finetune trên tập dữ liệu AbMusu
|
66 |
+
|
67 |
+
## Cấu trúc project
|
68 |
|
69 |
+
c_25_0.3701.mdl: Tham số Contrast Encoder của mô hình CHDG
|
70 |
|
71 |
+
e_25_0.3071.mdl: Tham số End2End Encoder của mô hình CHDG
|
72 |
|
73 |
LDA_models.pkl: Mô hình Latent Dirichlet Allocation dùng trong CHDG
|
74 |
|
infer_concat.py
CHANGED
@@ -72,7 +72,7 @@ model.load_state_dict(torch.load("./weight_cp19_model.pth", map_location=torch.d
|
|
72 |
|
73 |
# batch_size need to be 1,
|
74 |
@torch.no_grad()
|
75 |
-
def
|
76 |
model.eval()
|
77 |
start = time.time()
|
78 |
all_summaries = []
|
@@ -105,5 +105,5 @@ def infer_2_hier(model, data_loader, device, tokenizer):
|
|
105 |
def vit5_infer(data):
|
106 |
dataset = Dataset4Summarization(data, tokenizer)
|
107 |
data_loader = torch.utils.data.DataLoader(dataset, batch_size=1)
|
108 |
-
result =
|
109 |
return result
|
|
|
72 |
|
73 |
# batch_size need to be 1,
|
74 |
@torch.no_grad()
|
75 |
+
def infer_concat(model, data_loader, device, tokenizer):
|
76 |
model.eval()
|
77 |
start = time.time()
|
78 |
all_summaries = []
|
|
|
105 |
def vit5_infer(data):
|
106 |
dataset = Dataset4Summarization(data, tokenizer)
|
107 |
data_loader = torch.utils.data.DataLoader(dataset, batch_size=1)
|
108 |
+
result = infer_concat(model, data_loader, device, tokenizer)
|
109 |
return result
|