Anthropic выпустила подкаст с Амандой Аскелл (Amanda Askell) и Стюартом Ричи (Stuart Ritchie), которые занимаются разработкой языковых моделей Claude. Они рассказали о том, как обучали личность и характер нейросети так, чтобы общение с языковой моделью для людей было привычным и лёгким.
Первой языковой моделью с обученной личностью стала Claude 3. Разработчики постарались сделать её любопытной и заинтересованной в вопросах пользователей, а сам этап обучения проводился на этапе выравнивания модели (alignment) и файнтюнинга. Также в компании отметили, что такой подход позволяет сделать характер модели основной чертой. Это значит, что если в процессе языковая модель станет больше, то разработчикам не придётся снова обучать личность Claude.Главной проблемой в обучении характера нейросети стала разность культур. Claude доступен в разных странах, моделью могут пользоваться люди с разными традициями, политическими и религиозными взглядами, достатком и положением в обществе. Разработчикам надо было решить, как Claude будет реагировать на озвучивание различных ценностей и суждений. У команды было несколько вариантов:
- научить нейросеть определять портрет человека, с которым она общается, и поддерживать его взгляды и мнение;
- ввести единую систему ценностей, которая будет приемлема для разных групп населения;
- избегать любых политических, религиозных и этических вопросов.
В итоге команда проекта выбрала иной путь: Claude не избегает вопросы и не соглашается со всем подряд, а сравнивает суждение пользователя с заложенными в его характер ценностями. Если они не совпадают, то нейросеть прямо об этом говорит, даже если пользователь не согласен. При этом модель может попытаться рассмотреть вопрос с разных точек зрения и выслушать доводы пользователя.
Инженеры отметили, что языковые модели с обученным характером лучше воспринимаются пользователями. Они видят в них компаньонов и помощников, а не поисковых роботов. Поэтому Anthropic продолжит экспериментировать с чертами характера нейросетей и обучением личности.