michaelfeil
/

ct2fast-all-MiniLM-L6-v2

@@ -38,20 +38,17 @@ Speedup inference while reducing memory by 2x-4x using int8 inference in C++ on
 quantized version of [sentence-transformers/all-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2)
 ```bash
-pip install hf-hub-ctranslate2>=2.10.0 ctranslate2>=3.16.0
 ```
 ```python
 # from transformers import AutoTokenizer
 model_name = "michaelfeil/ct2fast-all-MiniLM-L6-v2"
-from hf_hub_ctranslate2 import EncoderCT2fromHfHub
-model = EncoderCT2fromHfHub(
-        # load in int8 on CUDA
-        model_name_or_path=model_name,
-        device="cuda",
-        compute_type="float16",
-        # tokenizer=AutoTokenizer.from_pretrained("{ORG}/{NAME}")
 )
 embeddings = model.encode(
     ["I like soccer", "I like tennis", "The eiffel tower is in Paris"],
@@ -65,13 +62,13 @@ scores = (embeddings @ embeddings.T) * 100
 ```
 Checkpoint compatible to [ctranslate2>=3.16.0](https://github.com/OpenNMT/CTranslate2)
-and [hf-hub-ctranslate2>=2.10.0](https://github.com/michaelfeil/hf-hub-ctranslate2)
 - `compute_type=int8_float16` for `device="cuda"`
 - `compute_type=int8`  for `device="cpu"`
-Converted on 2023-06-16 using
 ```
-ct2-transformers-converter --model sentence-transformers/all-MiniLM-L6-v2 --output_dir ~/tmp-ct2fast-all-MiniLM-L6-v2 --force --copy_files config_sentence_transformers.json tokenizer.json modules.json README.md tokenizer_config.json sentence_bert_config.json data_config.json vocab.txt special_tokens_map.json .gitattributes --quantization float16 --trust_remote_code
 ```
 # Licence and other remarks:

 quantized version of [sentence-transformers/all-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2)
 ```bash
+pip install hf-hub-ctranslate2>=3.0.0 ctranslate2>=3.16.0
 ```
 ```python
 # from transformers import AutoTokenizer
 model_name = "michaelfeil/ct2fast-all-MiniLM-L6-v2"
+from hf_hub_ctranslate2 import CT2SentenceTransformer
+model = CT2SentenceTransformer(
+    model_name, compute_type="int8_float16", device="cuda",
+    repo_contains_ct2=True
 )
 embeddings = model.encode(
     ["I like soccer", "I like tennis", "The eiffel tower is in Paris"],
 ```
 Checkpoint compatible to [ctranslate2>=3.16.0](https://github.com/OpenNMT/CTranslate2)
+and [hf-hub-ctranslate2>=3.0.0](https://github.com/michaelfeil/hf-hub-ctranslate2)
 - `compute_type=int8_float16` for `device="cuda"`
 - `compute_type=int8`  for `device="cpu"`
+Converted on 2023-06-18 using
 ```
+ct2-transformers-converter --model sentence-transformers/all-MiniLM-L6-v2 --output_dir ~/tmp-ct2fast-all-MiniLM-L6-v2 --force --copy_files tokenizer.json sentence_bert_config.json data_config.json README.md modules.json special_tokens_map.json vocab.txt config_sentence_transformers.json tokenizer_config.json .gitattributes --trust_remote_code
 ```
 # Licence and other remarks:

config.json CHANGED Viewed

@@ -1,6 +1,28 @@
 {
-  "bos_token": "<s>",
-  "eos_token": "</s>",
-  "layer_norm_epsilon": 1e-12,
-  "unk_token": "[UNK]"
-}

 {
+    "_name_or_path": "nreimers/MiniLM-L6-H384-uncased",
+    "architectures": [
+        "BertModel"
+    ],
+    "attention_probs_dropout_prob": 0.1,
+    "gradient_checkpointing": false,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 384,
+    "initializer_range": 0.02,
+    "intermediate_size": 1536,
+    "layer_norm_eps": 1e-12,
+    "max_position_embeddings": 512,
+    "model_type": "bert",
+    "num_attention_heads": 12,
+    "num_hidden_layers": 6,
+    "pad_token_id": 0,
+    "position_embedding_type": "absolute",
+    "transformers_version": "4.8.2",
+    "type_vocab_size": 2,
+    "use_cache": true,
+    "vocab_size": 30522,
+    "bos_token": "<s>",
+    "eos_token": "</s>",
+    "layer_norm_epsilon": 1e-12,
+    "unk_token": "[UNK]"
+}

model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e02198a1a1480129f35fede1751d0406a43e5ea8e7abb618ac58285e974cd6e
-size 45430860

 version https://git-lfs.github.com/spec/v1
+oid sha256:2abb237beb39bae980a7537a16a1fe5a0f0be2184be1d9f39f755b731a582adc
+size 90857292