hungdungn47 commited on
Commit
81d7128
1 Parent(s): a069072

change readme and function name in infer_concat

Browse files
Files changed (2) hide show
  1. README.md +27 -5
  2. infer_concat.py +2 -2
README.md CHANGED
@@ -17,9 +17,27 @@ Link sản phẩm:
17
 
18
  https://huggingface.co/spaces/hungdungn47/MultiDocsSummarization
19
 
20
- ## Bộ dữ liệu Abmusu
21
 
22
- Abmusu gồm 600 cụm văn bản (1839 văn bản) cho tóm tắt đa văn bản tiếng Việt, trong đó
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
23
 
24
  Tập train: 200 cụm - 621 văn bản
25
 
@@ -29,6 +47,8 @@ Tập test: 300 cụm - 914 văn bản
29
 
30
  Mỗi data example gồm title, anchor text và body text của toàn bộ văn bản trong cụm văn bản. Mỗi cụm văn bản có một chủ đề và một tóm tắt mẫu.
31
 
 
 
32
  ## Phương pháp tóm tắt
33
 
34
  Bài toán tóm tắt văn bản có 2 hướng tiếp cận:
@@ -42,11 +62,13 @@ Bài toán tóm tắt văn bản có 2 hướng tiếp cận:
42
  - Hướng extractive: Sử dụng Contrastive Hierarchical Discourse Graph
43
  - Hướng abstractive: Finetune mô hình ViT5
44
 
45
- ## Cấu trúc Project
 
 
46
 
47
- c_25_0.3701.mdl: Contrast Encoder của mô hình CHDG
48
 
49
- e_25_0.3071.mdl: End2End Encoder của mô hình CHDG
50
 
51
  LDA_models.pkl: Mô hình Latent Dirichlet Allocation dùng trong CHDG
52
 
 
17
 
18
  https://huggingface.co/spaces/hungdungn47/MultiDocsSummarization
19
 
20
+ ## About the project
21
 
22
+ ### Dự án môn Xử ngôn ngữ tự nhiên kỳ 2024 - Trường Đại học Công nghệ
23
+
24
+ Mã lớp học: INT3406 50
25
+
26
+ Giảng viên: TS. Trần Hồng Việt; PGS.TS. Nguyễn Phương Thái
27
+
28
+ ### Nhóm sinh viên thực hiện
29
+
30
+ Mai Tú Phương - 21020552
31
+
32
+ Trần Nam Anh - 22022569
33
+
34
+ Nguyễn Hùng Dũng - 22021133
35
+
36
+ Phan Xuân Bảo - 21020053
37
+
38
+ ## Bộ dữ liệu AbMusu (VLSP 2022)
39
+
40
+ AbMusu gồm 600 cụm văn bản (1839 văn bản) cho tóm tắt đa văn bản tiếng Việt, trong đó
41
 
42
  Tập train: 200 cụm - 621 văn bản
43
 
 
47
 
48
  Mỗi data example gồm title, anchor text và body text của toàn bộ văn bản trong cụm văn bản. Mỗi cụm văn bản có một chủ đề và một tóm tắt mẫu.
49
 
50
+ Bộ dữ liệu được lưu trong file abmusu.zip của repo này
51
+
52
  ## Phương pháp tóm tắt
53
 
54
  Bài toán tóm tắt văn bản có 2 hướng tiếp cận:
 
62
  - Hướng extractive: Sử dụng Contrastive Hierarchical Discourse Graph
63
  - Hướng abstractive: Finetune mô hình ViT5
64
 
65
+ Cả hai phương pháp đều được huấn luyện/finetune trên tập dữ liệu AbMusu
66
+
67
+ ## Cấu trúc project
68
 
69
+ c_25_0.3701.mdl: Tham số Contrast Encoder của mô hình CHDG
70
 
71
+ e_25_0.3071.mdl: Tham số End2End Encoder của mô hình CHDG
72
 
73
  LDA_models.pkl: Mô hình Latent Dirichlet Allocation dùng trong CHDG
74
 
infer_concat.py CHANGED
@@ -72,7 +72,7 @@ model.load_state_dict(torch.load("./weight_cp19_model.pth", map_location=torch.d
72
 
73
  # batch_size need to be 1,
74
  @torch.no_grad()
75
- def infer_2_hier(model, data_loader, device, tokenizer):
76
  model.eval()
77
  start = time.time()
78
  all_summaries = []
@@ -105,5 +105,5 @@ def infer_2_hier(model, data_loader, device, tokenizer):
105
  def vit5_infer(data):
106
  dataset = Dataset4Summarization(data, tokenizer)
107
  data_loader = torch.utils.data.DataLoader(dataset, batch_size=1)
108
- result = infer_2_hier(model, data_loader, device, tokenizer)
109
  return result
 
72
 
73
  # batch_size need to be 1,
74
  @torch.no_grad()
75
+ def infer_concat(model, data_loader, device, tokenizer):
76
  model.eval()
77
  start = time.time()
78
  all_summaries = []
 
105
  def vit5_infer(data):
106
  dataset = Dataset4Summarization(data, tokenizer)
107
  data_loader = torch.utils.data.DataLoader(dataset, batch_size=1)
108
+ result = infer_concat(model, data_loader, device, tokenizer)
109
  return result