---
title: ChinesePrivacyPolicyMark
emoji: 👁
colorFrom: gray
colorTo: purple
sdk: gradio
sdk_version: 5.5.0
app_file: app.py
pinned: false
short_description: Mark Chinese Privacy Policy with Retrieve models
---
使用的数据地址:https://github.com/EnlightenedAI/CAPP-130
使用预训练好的模型检索预先保存好的隐私政策,以此标注隐私政策中的关键信息。
首先使用特征提取模型将隐私政策中的句子进行tokenize,将其与保存的向量对比进行一次“粗筛”,选取与其最为接近的n条记录。
之后使用文本相似度计算模型,将筛选出来的n条记录与原本的文本进行匹配,过滤出相似度高于阈值p的m条记录,将这m条记录所属的标记合并起来。
由于没有使用GPU,直接在Space中运行会很慢。有条件可以clone下来试试。