---
base_model: intfloat/multilingual-e5-small
language:
- multilingual
library_name: sentence-transformers
license: apache-2.0
metrics:
- cosine_accuracy@1
- cosine_accuracy@3
- cosine_accuracy@5
- cosine_accuracy@10
- cosine_precision@1
- cosine_precision@3
- cosine_precision@5
- cosine_precision@10
- cosine_recall@1
- cosine_recall@3
- cosine_recall@5
- cosine_recall@10
- cosine_ndcg@10
- cosine_mrr@10
- cosine_map@100
pipeline_tag: sentence-similarity
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:94
- loss:MatryoshkaLoss
- loss:MultipleNegativesRankingLoss
widget:
- source_sentence: 서울여자대학교 수시모집 지원자에게 필요한 최초합격자 발표 정보는 다음과 같습니다. 최초합격자 발표는 2024년 11월
8일부터 12월 13일까지입니다. 합격자는 본교 입학처 홈페이지에서 합격 여부를 확인하여야 하며, 등록기간 내에 등록을 마쳐야 합니다.
sentences:
- SWU의 SI(Social Innovation)교육에 대해 알려줘.
- 학교생활기록부 교과성적 반영방법을 설명해 주세요.
- 서울여자대학교 수시모집 지원자에게 필요한 최초합격자 발표 정보를 알려줘.
- source_sentence: 고등학교 졸업(예정)자의 경우 학교생활기록부 제출 방법은 다음과 같습니다. 원본 대조필 및 학교장 직인 날인 후
제출하여야 합니다. 외국 고등학교 졸업(예정)자의 경우는 한국어나 영어로 번역 공증받은 문서를 제출하여야 합니다.
sentences:
- 언론영상학부-저널리즘전공의 졸업 후 진로는 무엇입니까?
- 서울여자대학교에 있는 박물관학전공의 교육 내용을 설명해줘.
- 고등학교 졸업(예정)자의 경우 학교생활기록부 제출 방법을 설명해줘.
- source_sentence: 심리·인지과학학부-인지학습과학전공의 졸업 후 진로는 교육프로그램 개발자, 교육기업 데이터 분석 업무, 인지학습 치료사,
인지행동 치료사, 교육컨설턴트, 국가연구소, 이러닝 관련 산업분야 등입니다.
sentences:
- 서울여자대학교에 있는 예술심리치료전공의 목표를 설명해줘.
- 서울여자대학교 수시모집 지원자에게 필요한 교과성적 산출 방법을 설명해줘.
- 심리·인지과학학부-인지학습과학전공의 졸업 후 진로를 설명하세요.
- source_sentence: 2024학년도 서울여자대학교 수시모집 지원자에게 필요한 정보는 다음과 같습니다. 수시모집 지원기간은 2024년 9월
10일부터 9월 13일까지입니다. 지원자는 인터넷 입학원서접수 사이트에 접속하여 원서접수를 완료해야 하며, 전형료 결제는 신용카드, 계좌이체
등으로 가능합니다. 또한, 지원자는 제출서류를 등기우편으로 제출하여야 하며, 서류제출 마감일은 2024년 9월 13일입니다.
sentences:
- 박물관학전공의 교육 목표는 무엇입니까?
- 2024학년도 서울여자대학교 수시모집 지원자에게 필요한 정보를 알려줘.
- 학생부종합 전형으로 지원할 수 있는 전형의 유형을 모두 알려줘
- source_sentence: 학교생활기록부 교과성적 대체 점수(비교내신) 대상자는 논술(논술우수자전형), 실기/실적(실기우수자전형_체육) 지원자
중 고등학교 졸업학력 검정고시 출신 지원자 및 교과성적 산출 불가자입니다.
sentences:
- 고등학교 학교생활기록부 제출 방법을 설명하세요.
- 청소년학전공의 교육 내용은 무엇입니까?
- 학교생활기록부 교과성적 대체 점수(비교내신) 대상자를 알려줘.
model-index:
- name: Multilingual base SWU Matryoshka
results:
- task:
type: information-retrieval
name: Information Retrieval
dataset:
name: dim 256
type: dim_256
metrics:
- type: cosine_accuracy@1
value: 0.6363636363636364
name: Cosine Accuracy@1
- type: cosine_accuracy@3
value: 0.9090909090909091
name: Cosine Accuracy@3
- type: cosine_accuracy@5
value: 1.0
name: Cosine Accuracy@5
- type: cosine_accuracy@10
value: 1.0
name: Cosine Accuracy@10
- type: cosine_precision@1
value: 0.6363636363636364
name: Cosine Precision@1
- type: cosine_precision@3
value: 0.30303030303030304
name: Cosine Precision@3
- type: cosine_precision@5
value: 0.2
name: Cosine Precision@5
- type: cosine_precision@10
value: 0.1
name: Cosine Precision@10
- type: cosine_recall@1
value: 0.6363636363636364
name: Cosine Recall@1
- type: cosine_recall@3
value: 0.9090909090909091
name: Cosine Recall@3
- type: cosine_recall@5
value: 1.0
name: Cosine Recall@5
- type: cosine_recall@10
value: 1.0
name: Cosine Recall@10
- type: cosine_ndcg@10
value: 0.8475878017079786
name: Cosine Ndcg@10
- type: cosine_mrr@10
value: 0.7954545454545454
name: Cosine Mrr@10
- type: cosine_map@100
value: 0.7954545454545454
name: Cosine Map@100
- task:
type: information-retrieval
name: Information Retrieval
dataset:
name: dim 128
type: dim_128
metrics:
- type: cosine_accuracy@1
value: 0.6363636363636364
name: Cosine Accuracy@1
- type: cosine_accuracy@3
value: 0.9090909090909091
name: Cosine Accuracy@3
- type: cosine_accuracy@5
value: 1.0
name: Cosine Accuracy@5
- type: cosine_accuracy@10
value: 1.0
name: Cosine Accuracy@10
- type: cosine_precision@1
value: 0.6363636363636364
name: Cosine Precision@1
- type: cosine_precision@3
value: 0.30303030303030304
name: Cosine Precision@3
- type: cosine_precision@5
value: 0.2
name: Cosine Precision@5
- type: cosine_precision@10
value: 0.1
name: Cosine Precision@10
- type: cosine_recall@1
value: 0.6363636363636364
name: Cosine Recall@1
- type: cosine_recall@3
value: 0.9090909090909091
name: Cosine Recall@3
- type: cosine_recall@5
value: 1.0
name: Cosine Recall@5
- type: cosine_recall@10
value: 1.0
name: Cosine Recall@10
- type: cosine_ndcg@10
value: 0.8475878017079786
name: Cosine Ndcg@10
- type: cosine_mrr@10
value: 0.7954545454545454
name: Cosine Mrr@10
- type: cosine_map@100
value: 0.7954545454545454
name: Cosine Map@100
- task:
type: information-retrieval
name: Information Retrieval
dataset:
name: dim 64
type: dim_64
metrics:
- type: cosine_accuracy@1
value: 0.6363636363636364
name: Cosine Accuracy@1
- type: cosine_accuracy@3
value: 0.9090909090909091
name: Cosine Accuracy@3
- type: cosine_accuracy@5
value: 1.0
name: Cosine Accuracy@5
- type: cosine_accuracy@10
value: 1.0
name: Cosine Accuracy@10
- type: cosine_precision@1
value: 0.6363636363636364
name: Cosine Precision@1
- type: cosine_precision@3
value: 0.30303030303030304
name: Cosine Precision@3
- type: cosine_precision@5
value: 0.2
name: Cosine Precision@5
- type: cosine_precision@10
value: 0.1
name: Cosine Precision@10
- type: cosine_recall@1
value: 0.6363636363636364
name: Cosine Recall@1
- type: cosine_recall@3
value: 0.9090909090909091
name: Cosine Recall@3
- type: cosine_recall@5
value: 1.0
name: Cosine Recall@5
- type: cosine_recall@10
value: 1.0
name: Cosine Recall@10
- type: cosine_ndcg@10
value: 0.8356850968378461
name: Cosine Ndcg@10
- type: cosine_mrr@10
value: 0.7803030303030302
name: Cosine Mrr@10
- type: cosine_map@100
value: 0.7803030303030302
name: Cosine Map@100
---
# Multilingual base SWU Matryoshka
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-small](https://huggingface.co/intfloat/multilingual-e5-small) on the json dataset. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [intfloat/multilingual-e5-small](https://huggingface.co/intfloat/multilingual-e5-small)
- **Maximum Sequence Length:** 512 tokens
- **Output Dimensionality:** 384 tokens
- **Similarity Function:** Cosine Similarity
- **Training Dataset:**
- json
- **Language:** multilingual
- **License:** apache-2.0
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
### Full Model Architecture
```
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
```
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("ValentinaKim/Multilingual-base-SWU-Matryoshka")
# Run inference
sentences = [
'학교생활기록부 교과성적 대체 점수(비교내신) 대상자는 논술(논술우수자전형), 실기/실적(실기우수자전형_체육) 지원자 중 고등학교 졸업학력 검정고시 출신 지원자 및 교과성적 산출 불가자입니다.',
'학교생활기록부 교과성적 대체 점수(비교내신) 대상자를 알려줘.',
'청소년학전공의 교육 내용은 무엇입니까?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
```
## Evaluation
### Metrics
#### Information Retrieval
* Dataset: `dim_256`
* Evaluated with [InformationRetrievalEvaluator
](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
| Metric | Value |
|:--------------------|:-----------|
| cosine_accuracy@1 | 0.6364 |
| cosine_accuracy@3 | 0.9091 |
| cosine_accuracy@5 | 1.0 |
| cosine_accuracy@10 | 1.0 |
| cosine_precision@1 | 0.6364 |
| cosine_precision@3 | 0.303 |
| cosine_precision@5 | 0.2 |
| cosine_precision@10 | 0.1 |
| cosine_recall@1 | 0.6364 |
| cosine_recall@3 | 0.9091 |
| cosine_recall@5 | 1.0 |
| cosine_recall@10 | 1.0 |
| cosine_ndcg@10 | 0.8476 |
| cosine_mrr@10 | 0.7955 |
| **cosine_map@100** | **0.7955** |
#### Information Retrieval
* Dataset: `dim_128`
* Evaluated with [InformationRetrievalEvaluator
](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
| Metric | Value |
|:--------------------|:-----------|
| cosine_accuracy@1 | 0.6364 |
| cosine_accuracy@3 | 0.9091 |
| cosine_accuracy@5 | 1.0 |
| cosine_accuracy@10 | 1.0 |
| cosine_precision@1 | 0.6364 |
| cosine_precision@3 | 0.303 |
| cosine_precision@5 | 0.2 |
| cosine_precision@10 | 0.1 |
| cosine_recall@1 | 0.6364 |
| cosine_recall@3 | 0.9091 |
| cosine_recall@5 | 1.0 |
| cosine_recall@10 | 1.0 |
| cosine_ndcg@10 | 0.8476 |
| cosine_mrr@10 | 0.7955 |
| **cosine_map@100** | **0.7955** |
#### Information Retrieval
* Dataset: `dim_64`
* Evaluated with [InformationRetrievalEvaluator
](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
| Metric | Value |
|:--------------------|:-----------|
| cosine_accuracy@1 | 0.6364 |
| cosine_accuracy@3 | 0.9091 |
| cosine_accuracy@5 | 1.0 |
| cosine_accuracy@10 | 1.0 |
| cosine_precision@1 | 0.6364 |
| cosine_precision@3 | 0.303 |
| cosine_precision@5 | 0.2 |
| cosine_precision@10 | 0.1 |
| cosine_recall@1 | 0.6364 |
| cosine_recall@3 | 0.9091 |
| cosine_recall@5 | 1.0 |
| cosine_recall@10 | 1.0 |
| cosine_ndcg@10 | 0.8357 |
| cosine_mrr@10 | 0.7803 |
| **cosine_map@100** | **0.7803** |
## Training Details
### Training Dataset
#### json
* Dataset: json
* Size: 94 training samples
* Columns: positive
and anchor
* Approximate statistics based on the first 94 samples:
| | positive | anchor |
|:--------|:------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
| type | string | string |
| details |
서울여자대학교 수시모집에서 평가하는 요소는 다음과 같습니다. 1. 서류 평가(학업역량 40%, 진로역량 35%, 공동체역량 25%) 2. 면접 평가(인성 및 의사소통능력, 발전가능성) 3. 학교생활기록부에 학교폭력 관련 기재사항이 있을 경우, 정성평가로 반영합니다.
| 서울여자대학교 수시모집에서 평가하는 요소를 알려줘.
|
| 서울여자대학교 학생부종합전형 지원자에게 필요한 지원자격 정보는 다음과 같습니다. 지원자격은 기초생활수급자, 차상위계층, 한부모가족 지원대상자, 국가보훈대상자, 자립지원 대상 아동, 농어촌학생 등입니다. 각 지원자격에 따라 필요한 제출서류가 다르므로, 지원자격에 따라 필요한 제출서류를 확인하여야 합니다.
| 서울여자대학교 학생부종합전형 지원자에게 필요한 지원자격 정보를 알려줘.
|
| SWU의 SI(Social Innovation)교육은 사회적 가치 확산을 위해 혁신적인 방법론을 적용하여 긍정적인 사회 변화를 유도하는 서울여자대학교만의 차별화된 교육입니다. 바롬종합설계프로젝트는 유네스코한국위원회가 인증한 유네스코지속가능발전교육공식프로젝트입니다.
| SWU의 SI(Social Innovation)교육에 대해 알려줘.
|
* Loss: [MatryoshkaLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
```json
{
"loss": "MultipleNegativesRankingLoss",
"matryoshka_dims": [
256,
128,
64
],
"matryoshka_weights": [
1,
1,
1
],
"n_dims_per_step": -1
}
```
### Training Hyperparameters
#### Non-Default Hyperparameters
- `eval_strategy`: epoch
- `gradient_accumulation_steps`: 16
- `learning_rate`: 2e-05
- `num_train_epochs`: 4
- `lr_scheduler_type`: cosine
- `warmup_ratio`: 0.1
- `tf32`: False
- `load_best_model_at_end`: True
- `optim`: adamw_torch_fused
- `batch_sampler`: no_duplicates
#### All Hyperparameters