Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper
•
1908.10084
•
Published
•
9
This is a sentence-transformers model finetuned from dangvantuan/french-document-embedding on the invoices_embedding_3 dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: BilingualModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("Noureddinesa/Invoices_french-document-embedding")
# Run inference
sentences = [
'Une société de téléphonie mobile, réalisant que ses anciens modèles de téléphones ne se vendent plus, décide de provisionner 500 000 dirhams sur un total de 3 millions de dirhams pour ces modèles obsolètes.',
"Le compte de provisions pour dépréciation des immobilisations enregistre les pertes de valeur potentielles des biens durables de l'entreprise, qu'ils soient matériels (comme des machines) ou immatériels (comme des logiciels).\n\n1. Une entreprise constate que l'ordinateur utilisé depuis plusieurs années perd de sa valeur et crée une provision pour cette dépréciation. 2. Une société immobilière doit ajuster la valeur de ses bâtiments en raison d'une baisse du marché immobilier. 3. Un studio de design évalue la perte de valeur de ses équipements créatifs après plusieurs années d'utilisation. 4. Une entreprise de transport met une provision pour la dépréciation de ses camions vieillissants. 5. Un éditeur de logiciels ajuste la valeur de sa propriété intellectuelle en raison de l'émergence de nouvelles technologies. 6. Un constructeur automobile constate que certains modèles ne se vendent plus bien et prépare une provision pour leur dépréciation. 7. Un restaurant ajuste la valeur de son mobilier ancien qui a perdu de son attrait. 8. Une société de production audiovisuelle prend en compte la dépréciation de ses équipements de tournage. 9. Un cabinet médical observe que son matériel médical devient obsolète et crée une provision en conséquence. 10. Une entreprise de construction ajuste la valeur de ses machines après un certain temps d'utilisation. 11. Un musée doit établir une provision pour la dépréciation de ses œuvres d'art moins prisées. 12. Une société de télécommunications évalue la baisse de valeur de ses antennes anciennes. 13. Un club de sport met à jour la valeur de ses installations vieilles de plusieurs décennies. 14. Un opérateur de location de voitures doit créer une provision pour la dépréciation de son parc automobile. 15. Une entreprise de nettoyage évalue la perte de valeur de ses équipements de nettoyage avec le temps.",
"Le matériel de transport désigne tous les véhicules et équipements utilisés pour déplacer des personnes ou des marchandises, que ce soit par voie terrestre, aérienne ou maritime. Cela inclut les moyens de transport affectés au tourisme ou à l'usage du personnel d'une entreprise.\n\n1. Un bus utilisé pour transporter des employés au travail. 2. Un camion de livraison pour acheminer des marchandises. 3. Une voiture de société mise à disposition d'un salarié. 4. Un bateau de croisière pour le tourisme. 5. Un avion de ligne pour le transport de passagers. 6. Un train utilisé pour le transport de marchandises. 7. Un vélo de fonction pour les déplacements professionnels. 8. Un fourgon utilisé pour des services de dépannage. 9. Un hélicoptère pour des missions d'urgence ou de transport de personnes. 10. Un tramway utilisé pour les transports en commun. 11. Un ferry reliant deux rives pour le transport de véhicules. 12. Un autocar pour des excursions touristiques. 13. Un taxi pour le transport de personnes. 14. Un véhicule utilitaire léger (VUL) pour des travaux sur site. 15. Un scooter utilisé pour des livraisons rapides.",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
anchor, positive, and negative| anchor | positive | negative | |
|---|---|---|---|
| type | string | string | string |
| details |
|
|
|
| anchor | positive | negative |
|---|---|---|
Une collectivité locale verse un acompte de 1 000 000 MAD pour un projet de construction de routes, afin de débuter les travaux d'infrastructure. Cet acompte est inscrit dans les comptes comme une avance sur immobilisations corporelles. |
Les avances et acomptes sur immobilisations corporelles représentent des paiements anticipés effectués pour des biens durables, comme des équipements ou des bâtiments, avant leur réception. |
Les achats de matières et fournitures consommables concernent l'acquisition de biens qui sont utilisés ou consommés dans le cadre d'activités professionnelles. Cela inclut des produits qui ne sont pas destinés à être revendus mais à soutenir l'exploitation d'une entreprise. |
Une société de sécurité engage un service de transport pour déplacer ses agents vers un événement spécial, avec des frais de 1 000 dirhams pour le transport aller-retour. |
Les transports regroupent les frais liés au déplacement du personnel et au transport des marchandises lors des achats et des ventes. Ces coûts s'ajoutent aux frais d'acquisition d'immobilisations si le transport est lié à leur achat. |
Les redevances de crédit-bail sont les paiements effectués par une entreprise pour louer des biens matériels, comme des équipements ou des meubles, via un contrat de leasing. Ce contrat permet à l'entreprise de louer un bien avec la possibilité de l'acheter à la fin de la période de location. Les paiements sont enregistrés comme des charges et peuvent inclure la TVA récupérable. |
Lors de l'importation de boissons gazeuses, l'entreprise AC doit payer des droits d'accise de 2 000 dirhams, qui seront comptabilisés comme impôts indirects. |
Les impôts et taxes indirects sont des prélèvements que l'on paie lors de l'achat de biens ou de services, sans qu'ils soient directement inclus dans le prix. Ils peuvent inclure des droits de douane, des taxes sur la valeur ajoutée (TVA) ou d'autres charges qui s'ajoutent au coût initial. |
Le mobilier de bureau désigne l'ensemble des meubles utilisés dans un espace de travail, tels que les bureaux, chaises, tables et rangements, qui contribuent à l'organisation et au confort des employés. |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
anchor, positive, and negative| anchor | positive | negative | |
|---|---|---|---|
| type | string | string | string |
| details |
|
|
|
| anchor | positive | negative |
|---|---|---|
Une société de télécommunications paie un acompte de 300 000 MAD pour l'achat de nouveaux équipements de réseau. Cet acompte est essentiel pour le développement de l'infrastructure et est comptabilisé comme une avance sur immobilisations corporelles. |
Les avances et acomptes sur immobilisations corporelles représentent des paiements anticipés effectués pour des biens durables, comme des équipements ou des bâtiments, avant leur réception. |
Les immobilisations corporelles en cours de matériel de transport représentent les dépenses engagées pour la fabrication ou l'acquisition de véhicules et équipements de transport que l'entreprise utilise pour ses activités. Ce compte reflète les coûts accumulés jusqu'à ce que le matériel soit prêt à être utilisé. |
La société E a acheté des petits outils nécessaires pour des réparations dans ses locaux, totalisant 600 dirhams, sans gestion de stock, payé par chèque. |
Les achats non stockés de matières et de fournitures concernent les biens et services que l'entreprise utilise directement sans les conserver en stock, comme l'eau, l'électricité et d'autres fournitures jugées non nécessaires à stocker. |
Le matériel de bureau désigne l'ensemble des équipements utilisés dans un bureau pour faciliter le travail administratif et organisationnel. |
'Services Juridiques' a payé 12 000 dirhams pour des conseils juridiques avant l'achat d'un local commercial, ajoutant ce montant aux frais d'acquisition qui s'élèvent à 1,2 million de dirhams au total dans les comptes. |
Les frais d'acquisition des immobilisations sont les coûts liés à l'achat d'actifs durables, comme les bâtiments, les machines ou les véhicules, incluant les frais de notaire, les commissions et autres dépenses nécessaires pour finaliser l'achat. |
Les rabais, remises et ristournes sont des réductions accordées lors de l'achat de biens ou de services. Ils permettent d'obtenir un prix plus bas sur les produits achetés. |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
eval_strategy: stepsper_device_train_batch_size: 4per_device_eval_batch_size: 4warmup_ratio: 0.1fp16: Truebatch_sampler: no_duplicatesoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 4per_device_eval_batch_size: 4per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 3max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Falsehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportional| Epoch | Step | Training Loss | Validation Loss |
|---|---|---|---|
| 0.1736 | 50 | 0.4507 | 0.1454 |
| 0.3472 | 100 | 0.1278 | 0.1222 |
| 0.5208 | 150 | 0.0851 | 0.0773 |
| 0.6944 | 200 | 0.0475 | 0.1045 |
| 0.8681 | 250 | 0.049 | 0.0655 |
| 1.0417 | 300 | 0.0788 | 0.0459 |
| 1.2153 | 350 | 0.017 | 0.0337 |
| 1.3889 | 400 | 0.0123 | 0.0455 |
| 1.5625 | 450 | 0.0083 | 0.0492 |
| 1.7361 | 500 | 0.0043 | 0.0548 |
| 1.9097 | 550 | 0.0085 | 0.0549 |
| 2.0833 | 600 | 0.0008 | 0.0554 |
| 2.2569 | 650 | 0.0009 | 0.0542 |
| 2.4306 | 700 | 0.0011 | 0.0562 |
| 2.6042 | 750 | 0.0005 | 0.0552 |
| 2.7778 | 800 | 0.0005 | 0.0547 |
| 2.9514 | 850 | 0.0008 | 0.0539 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Base model
dangvantuan/french-document-embedding