FairSteer BAD Classifier (Secure)

Base Model: mistralai/Mistral-7B-Instruct-v0.3
Target Layer: 25
Architecture: Linear Probe (Dropout -&gt; Linear)
Performance: 75.19% Balanced Accuracy

Biased Activation Detection (BAD) classifier optimized for mistralai/Mistral-7B-Instruct-v0.3. This model detects whether the LLM's internal activation (at layer 25) indicates biased reasoning.

This repository contains only SafeTensors weights for security.