SentenceTransformer based on intfloat/multilingual-e5-small

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-small. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-small
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 384 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()


Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("Tekkla/TripletLoss_flores_kaen")
# Run inference
sentences = [
    'ლიგანდების კოორდინაციული ბუნება შესწავლილია ინფრაწითელი სპექტროსკოპიული და რენტგენოგრაფიული მეთოდებით.',
    'The coordination character of cyanate ion has been studied by the methods of infrared spectra and X-ray.',
    'The Applicants argued that declaration of unconstitutionality of a normative act by the Constitutional Court shall be followed by efficient legal consequences.',
embeddings = model.encode(sentences)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 24,034 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    • min: 7 tokens
    • mean: 39.79 tokens
    • max: 170 tokens
    • min: 8 tokens
    • mean: 32.92 tokens
    • max: 133 tokens
    • min: 8 tokens
    • mean: 36.72 tokens
    • max: 154 tokens
  • Samples:
    anchor positive negative
    1979 წელს ის პირობით გაათავისუფლეს. He was released on licence in 1979. ფსიქოზის გავრცელების ხარისხი აჩვენებს წრფივ კორელაციას ურბანიზაციის ხარისხთან.
    ვეტერინარულ კონტროლს დაქვემდებარებული საქონლის ექსპორტისას - სერტიფიკატის წარდგენა სავალდებულოა მხოლოდ: When exporting the goods subject to veterinary control - it is mandatory to provide a certificate only: The Role of Terrestrial Mollusks in Propagation of Trematodes in Urban Environment.
    ბელა, ხომ კარგად ხარ? – Bella, are you okay? • to gain feedback on leading questions;
  • Loss: TripletLoss with these parameters:
        "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
        "triplet_margin": 5

Evaluation Dataset

Unnamed Dataset

  • Size: 3,005 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    • min: 8 tokens
    • mean: 38.7 tokens
    • max: 138 tokens
    • min: 8 tokens
    • mean: 31.89 tokens
    • max: 96 tokens
    • min: 8 tokens
    • mean: 36.32 tokens
    • max: 95 tokens
  • Samples:
    anchor positive negative
    3. თუ გადასახადის გადამხდელი იღებს ან მას უფლება აქვს, მიიღოს შემოსავალი პროცენტის სახით ან ქონების იჯარით გადაცემით, შემოსავალი სავალო ვალდებულების ან იჯარის ხელშეკრულების ვადის გასვლის მომენტში მიღებულად ითვლება. 3. If a taxpayer earns or has the right to earn income in the form of interest or from leasing property, the income shall be deemed to have been obtained at the moment when the debt obligation or lease agreement expires. In, Cd და Bi დაცილება ანიონიტ AB–17-ის OH′-ფორმაზე დალექვითი ქრომატოგრაფიის მეთოდით.
    პროფესიონალიზმის მაღალი ხარისხი ნიშნავს, რომ ჟურნალისტიკა, როგორც ინსტიტუტი, დიფერენცირებულია და სხვა ინსტიტუტებისგან განსხვავებული პრაქტიკა აქვს, მათ შორის, პოლიტიკის ჩათვლით. A high degree of professionalization of journalism means that journalism is differentiated as an institution and form of practice from other institutions and forms of practice – including politics. ჯანმრთელობის დაცვა და სოციალური დახმარება, კომუნალური, სოციალური და პერსონალური მომსახურების გაწევა.
    ამგვარად, მსგავს შემთხვევებში შეიძლება საჭირო იყოს დამატებითი ფრაზები, რათა თავიდან იქნეს აცილებული ისე წარმოჩენა, თითქოს მარწმუნებელ ანგარიშში ნაგულისხმევია, რომ პრაქტიკოსის პასუხისმგებლობა გამოთქმულ დასკვნაზე შემცირებულია ექსპერტის ჩართულობის გამო. Therefore, additional wording may be needed in such cases to prevent the assurance report implying that the practitioner’s responsibility for the conclusion expressed is reduced because of the involvement of the expert. სმენის პროთეზირება მრგვალი სარკმლის ეკრანირებისათვის ფოროვანი ელასტომერის და მეტალის ფირფიტის გამოყენებით.
  • Loss: TripletLoss with these parameters:
        "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
        "triplet_margin": 5

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • gradient_accumulation_steps: 2
  • learning_rate: 0.0001
  • num_train_epochs: 10
  • warmup_steps: 1000
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 2
  • eval_accumulation_steps: None
  • learning_rate: 0.0001
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 10
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 1000
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.0.1
  • Transformers: 4.42.4
  • PyTorch: 2.3.1+cu121
  • Accelerate: 0.32.1
  • Datasets: 2.20.0
  • Tokenizers: 0.19.1



Sentence Transformers

    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",


    title={In Defense of the Triplet Loss for Person Re-Identification}, 
    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
