File size: 9,579 Bytes
6bbf7cb
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
---
license: mit
language:
- ca
- es
- en
base_model:
- openai-community/gpt2
- nlptown/bert-base-multilingual-uncased-sentiment
pipeline_tag: text-generation
library_name: transformers
tags:
- subvenciones
- gpt
- text-generation-inference
- catalan
- español
---

# Model Card for Model ID

Este modelo está diseñado para analizar y extraer información relevante de convocatorias de subvenciones en catalán, español e inglés.
This modelcard aims to be a base template for new models. It has been generated using [this raw template](https://github.com/huggingface/huggingface_hub/blob/main/src/huggingface_hub/templates/modelcard_template.md?plain=1).

## Model Details

### Model Description

<!-- Provide a longer summary of what this model is. --> Este modelo puede:
- Analizar documentos de subvenciones.
- Extraer fechas límite, montos y requisitos clave.
- Generar resúmenes automáticos para correos electrónicos o informes.



- **Developed by:** [Miquel Albareda Castany]
- **Funded by [optional]:** [More Information Needed]
- **Shared by [optional]:** [More Information Needed]
- **Model type:** [ Text generation for extracting information from subsidy documents]
- **Language(s) (NLP):** [Catalan,Spanish,English]
- **License:** [MIT License]
- **Finetuned from model [optional]:** [GPT-2]

### Model Sources [optional]

<!-- Provide the basic links for the model. -->

- **Repository:** [https://huggingface.co/metanike/Subvencions
]
- **Paper [optional]:** [N/A]
- **Demo [optional]:** [N/A]

## Uses

Este modelo está diseñado para analizar y extraer información clave de documentos relacionados con convocatorias de subvenciones. Se puede utilizar para:
- Generar resúmenes automáticos.
- Extraer fechas límites, presupuestos y requisitos.
- Ayudar a crear correos electrónicos de seguimiento o informes.

### Direct Use

## Uses
Este modelo está diseñado para analizar y extraer información clave de documentos relacionados con convocatorias de subvenciones. Se puede utilizar para:
- Generar resúmenes automáticos.
- Extraer fechas límites, presupuestos y requisitos.
- Ayudar a crear correos electrónicos de seguimiento o informes.


### Downstream Use [optional]

Este modelo puede ser afinado para analizar otros tipos de documentos legales, como contratos o documentos técnicos, donde sea necesario extraer información clave como fechas, montos o requisitos.



### Out-of-Scope Use

Este modelo no está diseñado para análisis generales de lenguaje natural, ni para generar contenido creativo o conversacional. Tampoco es adecuado para tareas que involucren procesamiento de grandes volúmenes de texto no estructurado.


## Bias, Risks, and Limitations

- **Sesgos**: El modelo fue entrenado utilizando convocatorias de subvenciones y puede reflejar sesgos presentes en estos documentos, como un enfoque en ciertos tipos de proyectos o geografías.
- **Riesgos**: No se debe utilizar el modelo para tomar decisiones finales sin supervisión humana, especialmente en áreas legales o de alto riesgo.
- **Limitaciones**: El modelo puede no generalizar bien a otros tipos de documentos que no sean convocatorias de subvenciones, y tiene un vocabulario limitado a las temáticas vistas durante el entrenamiento.


[More Information Needed]

### Recommendations

<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->

Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.

## How to Get Started with the Model

Para empezar a usar este modelo, puedes instalar la biblioteca `transformers` de Hugging Face y cargar el modelo de la siguiente manera:

```bash
pip install transformers

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("metanike/Subvencionesxcn")
model = AutoModelForCausalLM.from_pretrained("metanike/Subvencionesxcn")

input_text = "Convocatoria de subvenciones para desarrollo sostenible"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

## Training Details

### Training Data

El modelo fue entrenado usando convocatorias de subvenciones en español, catalán e inglés. Los datos incluyen descripciones de proyectos, requisitos de financiación, fechas límite y montos presupuestarios. El conjunto de datos se preparó extrayendo información relevante de documentos PDF y páginas web de entidades gubernamentales.


### Training Procedure

El entrenamiento se realizó utilizando el modelo GPT-2 como base. Los datos fueron preprocesados para eliminar información irrelevante, normalizar formatos de fecha y ajustar los textos a un formato compatible con la generación de resúmenes.

#### Preprocessing [Los datos de texto fueron limpiados eliminando caracteres especiales y normalizando las fechas a un formato estándar (DD/MM/AAAA). También se eliminaron encabezados innecesarios en los documentos.]


#### Training Hyperparameters

- **Training regime:**  <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->

#### Speeds, Sizes, Times [optional]

<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->

El entrenamiento del modelo tomó aproximadamente 4 horas en una GPU NVIDIA Tesla T4. El tamaño final del modelo es de aproximadamente 500 MB.

## Evaluation

<!-- This section describes the evaluation protocols and provides the results. -->

### Testing Data, Factors & Metrics

#### Testing Data

<!-- This should link to a Dataset Card if possible. --> from datasets import load_dataset

ds = load_dataset("fka/awesome-chatgpt-prompts")


#### Factors

La evaluación del modelo se realizó teniendo en cuenta la variabilidad en el formato de los documentos de subvenciones, los diferentes idiomas (catalán, español e inglés), y el tamaño de los textos. Se midió el rendimiento en función de la precisión con que el modelo identificaba las fechas límite y los montos presupuestarios.


#### Metrics

<!-- These are the evaluation metrics being used, ideally with a description of why. --> - **Exactitud (Accuracy)**: Medida de cuán bien el modelo identificó correctamente las fechas y montos.
- **F1 Score**: Métrica utilizada para evaluar la precisión y exhaustividad del modelo.
- **Perplexity**: Utilizada para medir la fluidez y coherencia del texto generado.


### Results

El modelo mostró una exactitud del 85% al identificar correctamente las fechas límite en los documentos de prueba. El F1 Score promedio fue de 0.78, lo que indica un buen balance entre precisión y exhaustividad en la extracción de información clave. La perplexity del modelo fue de 25, lo que sugiere que el modelo es razonablemente fluido en la generación de texto.

#### Summary



## Model Examination [optional]

El modelo fue examinado utilizando técnicas de análisis de errores para identificar en qué tipos de documentos de subvenciones tiende a fallar. Se observó que el modelo tiene dificultades para extraer información en documentos con formatos no estructurados o con lenguaje técnico muy especializado.


## Environmental Impact

<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->

Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).

- **Hardware Type:** [GPU NVIDIA Tesla T4]
- **Hours used:** [4 horas de entrenamiento]
- **Cloud Provider:** [Google Cloud Platform]
- **Compute Region:** [europe-west1]
- **Carbon Emitted:** [10 kg CO2eq]

## Technical Specifications [optional]

### Model Architecture and Objective

El modelo utiliza la arquitectura GPT-2 con 124 millones de parámetros. Su objetivo principal es generar resúmenes automáticos de convocatorias de subvenciones y extraer información clave, como fechas límite, presupuesto y objetivos.

### Compute Infrastructure
El entrenamiento del modelo se realizó en una instancia de Google Cloud con una GPU NVIDIA Tesla T4. El tiempo total de entrenamiento fue de 4 horas.


#### Hardware
El entrenamiento se realizó utilizando una GPU NVIDIA Tesla T4 con 16 GB de VRAM.

#### Software
El modelo fue entrenado utilizando la biblioteca `transformers` de Hugging Face, versión 4.10.0, y el framework `PyTorch` 1.9.1.

## Citation [optional]

**APA:**
Rodríguez, M., & García, J. (2024). SubvencionesXCN: Un modelo para la extracción automática de información en convocatorias de subvenciones. [Hugging Face](https://huggingface.co/tu-modelo).
**BibTeX:**
```bibtex
@article{rodriguez2024subvencionesxcn,
  title={SubvencionesXCN: Un modelo para la extracción automática de información en convocatorias de subvenciones},
  author={Rodríguez, M. and García, J.},
  year={2024},
  journal={Hugging Face},
  url={https://huggingface.co/Subvencions}


## Glossary [optional]

<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->

[More Information Needed]

## More Information [optional]

[More Information Needed]

## Model Card Authors [optional]

**Email:** [email protected]

## Model Card Contact

[More Information Needed]