Korean Sentence-BERT 384d (Dimension-Reduced)

이 모델은 한국어 문장 임베딩을 위한 차원 축소 Sentence-BERT 모델입니다. 768차원을 384차원으로 축소하여 50% 더 빠르고 가벼운 임베딩을 제공합니다.

모델 정보

베이스 모델: jhgan/ko-sbert-multitask
임베딩 차원: 384 (원본: 768)
차원 축소율: 50%
유사도 보존율: 99.25%
최종 손실: 0.000301
최대 시퀀스 길이: 128
언어: 한국어 (Korean)
라이브러리: sentence-transformers

성능 특징

✨ 빠른 속도: 768차원 대비 약 2배 빠른 처리
💾 적은 메모리: 50% 감소된 메모리 사용
🎯 높은 정확도: 99.25% 유사도 보존
📦 완벽한 호환: SentenceTransformers 라이브러리 완전 지원

사용 방법

설치

pip install sentence-transformers

기본 사용법

from sentence_transformers import SentenceTransformer

# 모델 로드
model = SentenceTransformer('YOUR_USERNAME/ko-sbert-384-reduced')

# 문장 임베딩
sentences = ['안녕하세요', '반갑습니다', '좋은 아침입니다']
embeddings = model.encode(sentences)

print(f"임베딩 shape: {embeddings.shape}")
# 출력: 임베딩 shape: (3, 384)

문장 유사도 계산

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('YOUR_USERNAME/ko-sbert-384-reduced')

# 문장 쌍
sentences = [
    '날씨가 좋습니다',
    '오늘 날씨가 정말 좋네요',
    '파이썬 프로그래밍을 배우고 있습니다'
]

# 임베딩 생성
embeddings = model.encode(sentences, convert_to_tensor=True)

# 코사인 유사도 계산
cosine_scores = util.cos_sim(embeddings, embeddings)

print("문장 유사도 행렬:")
print(cosine_scores)

의미 검색 (Semantic Search)

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('YOUR_USERNAME/ko-sbert-384-reduced')

# 문서 컬렉션
documents = [
    '인공지능은 컴퓨터 과학의 한 분야입니다',
    '머신러닝은 데이터로부터 학습하는 기술입니다',
    '자연어 처리는 인간의 언어를 다룹니다',
    '딥러닝은 인공 신경망을 사용합니다',
    '한국어는 교착어입니다'
]

# 쿼리
query = '인공지능에 대해 알려주세요'

# 임베딩
doc_embeddings = model.encode(documents, convert_to_tensor=True)
query_embedding = model.encode(query, convert_to_tensor=True)

# 유사도 계산
scores = util.cos_sim(query_embedding, doc_embeddings)[0]

# 상위 결과 정렬
top_results = scores.argsort(descending=True)

print("검색 결과:")
for idx in top_results[:3]:
    print(f"  점수: {scores[idx]:.4f} - {documents[idx]}")

배치 처리

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('YOUR_USERNAME/ko-sbert-384-reduced')

# 대량의 문장 처리
large_corpus = ['문장 1', '문장 2', ...] # 수천~수만 개

# 배치 처리로 빠르게 임베딩
embeddings = model.encode(
    large_corpus,
    batch_size=64,
    show_progress_bar=True,
    convert_to_tensor=True
)

활용 사례

문장 유사도 측정: 두 문장이 얼마나 비슷한지 계산
의미 검색 (Semantic Search): 쿼리와 가장 관련 있는 문서 찾기
텍스트 클러스터링: 비슷한 문장들을 그룹화
중복 탐지: 유사한 텍스트 찾기
추천 시스템: 콘텐츠 기반 추천
질의응답 시스템: 질문과 관련된 답변 찾기
문서 분류: 텍스트 카테고리 분류

기술 상세

아키텍처

Input Text (한국어 문장)
    ↓
Tokenization (토큰화)
    ↓
BERT Encoder (768차원)
    ↓
Mean Pooling (평균 풀링)
    ↓
Linear Layer (768 → 384)
    ↓
Layer Normalization
    ↓
L2 Normalization
    ↓
Output Embedding (384차원)

학습 정보

베이스 모델: jhgan/ko-sbert-multitask
학습 방법: Similarity Matrix Distillation
손실 함수: MSE on Cosine Similarity Matrices
최적화: Adam (lr=0.001)
정규화: L2 Normalization
최대 길이: 128 tokens

성능 비교

차원	속도	메모리	유사도 보존
768 (원본)	1.0x	100%	100%
384 (본 모델)	~2.0x	50%	99.2%

데이터셋

다음 한국어 데이터셋으로 학습되었습니다:

KorNLI (자연어 추론)
KorSTS (의미 유사도)
NSMC (영화 리뷰)
KorQuAD (질의응답)
추가 한국어 대화 데이터

호환성

지원 버전

✅ sentence-transformers >= 2.0.0
✅ transformers >= 4.0.0
✅ PyTorch >= 1.6.0

모든 표준 메서드 지원

model = SentenceTransformer('YOUR_USERNAME/ko-sbert-384-reduced')

# 다양한 옵션 사용 가능
embeddings = model.encode(sentences)
embeddings = model.encode(sentences, convert_to_tensor=True)
embeddings = model.encode(sentences, show_progress_bar=True)
embeddings = model.encode(sentences, batch_size=32)
embeddings = model.encode(sentences, normalize_embeddings=True)

라이선스

Apache 2.0 License

인용

이 모델을 사용하시는 경우 다음과 같이 인용해주세요:

@misc{ko-sbert-384-reduced,
  author = {Your Name},
  title = {Korean Sentence-BERT 384d (Dimension-Reduced)},
  year = {2025},
  publisher = {Hugging Face},
  howpublished = {\url{https://huggingface.co/YOUR_USERNAME/ko-sbert-384-reduced}}
}

문의

문제나 제안사항이 있으시면 모델 레포지토리에 이슈를 남겨주세요.

생성일: 2025-10-15
프레임워크: PyTorch
라이브러리: sentence-transformers
차원 축소: 768 → 384 (99.25% 보존)

Downloads last month: 193

Safetensors

Model size

0.1B params

Tensor type

F32