Spaces:

darylalim
/

bart-large-cnn-abstract-summarization

Sleeping

darylalim commited on Apr 20

Commit

e0285bb

•

1 Parent(s): 48d3730

Upload 2 files

Files changed (2) hide show

app.py ADDED Viewed

+import torch
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+from optimum.bettertransformer import BetterTransformer
+import gradio as gr
+import pypdf
+tokenizer = AutoTokenizer.from_pretrained(
+    "facebook/bart-large-cnn",
+    use_fast=True
+)
+model_hf = AutoModelForSeq2SeqLM.from_pretrained(
+    "facebook/bart-large-cnn",
+    torch_dtype=torch.bfloat16
+)
+model = BetterTransformer.transform(model_hf, keep_original_model=True)
+def extract_abstract(pdf_path):
+  with open(pdf_path, 'rb') as f:
+    reader = pypdf.PdfReader(f)
+    first_page = reader.pages[0]
+    text = first_page.extract_text()
+    abstract_start = text.find('Abstract')
+    abstract_end = text.find('Introduction', abstract_start)
+    return text[abstract_start:abstract_end]
+def summarize_abstract(pdf_path):
+    abstract_text = extract_abstract(pdf_path)
+    inputs = tokenizer(
+        abstract_text,
+        max_length=130,
+        return_tensors="pt"
+    )
+    prediction = model.generate(**inputs)
+    prediction = tokenizer.batch_decode(prediction, skip_special_tokens=True)
+    return prediction[0]
+demo = gr.Interface(
+    fn=summarize_abstract,
+    inputs=[gr.File(label="PDF path")],
+    outputs=[gr.Textbox(label="Abstract summary")],
+    description="""
+    # BART Large CNN Abstract Summarization
+    [Code](https://github.com/darylalim/bart-large-cnn-abstract-summarization)
+    """
+)
+demo.queue()
+demo.launch()

requirements.txt ADDED Viewed

+torch
+transformers
+tokenizers
+optimum
+gradio
+pypdf