Spicy Motivator - PPO

한국어 명언을 비꼬는 문장으로 변환하는 모델 (PPO/REINFORCE로 학습)

모델 설명

Base Model: meta-llama/Llama-3.1-8B
학습 방법: PPO (REINFORCE with heuristic reward)
LoRA: r=16, alpha=32
Reward Function: 비꼬는 키워드 + 길이 + 다양성 기반 휴리스틱

사용법

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel
import torch

# Base 모델 로드
base_model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-3.1-8B",
    torch_dtype=torch.float16,
    device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3.1-8B")

# LoRA 어댑터 로드
model = PeftModel.from_pretrained(base_model, "YOUR_USERNAME/spicy-motivator-ppo")

# 생성
prompt = "### 명언: 노력은 배신하지 않는다.\n### 비꼬는 답변:"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=100, temperature=0.7)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

프로젝트 정보

충남대학교 강화학습 수업 텀 프로젝트
PPO vs DPO 비교 연구

Downloads last month: 1

Video Preview

Reinforcement Learning

Model tree for Guardrium/spicy-motivator-ppo

Base model

meta-llama/Llama-3.1-8B

Adapter

(535)

this model