Логотип Data Secrets
gpt

OpenAI представила систему, которая помогает понять, как думает нейросеть

07.06.2024

В блоге OpenAI рассказали, что нейросети — одно из изобретений человека, поведение которого сложно предсказать. К примеру, автомобильные инженеры могут изучить строение машины и сделать выводы о его безопасности и практичности. Разработчики нейросетей лишены этой возможности, так как большинство процессов проходят скрыто и без явной взаимосвязи. Это значительно усложняет интерпретация сгенерированных ответов и мешает оценить уровень безопасности.

Для решения этой проблемы исследователи OpenAI разработали новый автокодеровщик, обученный на активациях GPT2-small. Команде инженеров удалось выявить некоторые закономерности, которые значительно повысить надёжность и управляемость языковой модели. Несмотря на это, автокодировщик всё равно ограничен:

Компания опубликовала исследование и поделилась визуализаций обнаруженных функций. Код автокодировщика доступен на GitHub, а ниже представлен пример использования:


import torch

import blobfile as bf

import transformer_lens

import sparse_autoencoder



# Extract neuron activations with transformer_lens

model = transformer_lens.HookedTransformer.from_pretrained("gpt2", center_writing_weights=False)

device = next(model.parameters()).device



prompt = "This is an example of a prompt that"

tokens = model.to_tokens(prompt)  # (1, n_tokens)

with torch.no_grad():

    logits, activation_cache = model.run_with_cache(tokens, remove_batch_dim=True)



layer_index = 6

location = "resid_post_mlp"



transformer_lens_loc = {

    "mlp_post_act": f"blocks.{layer_index}.mlp.hook_post",

    "resid_delta_attn": f"blocks.{layer_index}.hook_attn_out",

    "resid_post_attn": f"blocks.{layer_index}.hook_resid_mid",

    "resid_delta_mlp": f"blocks.{layer_index}.hook_mlp_out",

    "resid_post_mlp": f"blocks.{layer_index}.hook_resid_post",

}[location]



with bf.BlobFile(sparse_autoencoder.paths.v5_32k(location, layer_index), mode="rb") as f:

    state_dict = torch.load(f)

    autoencoder = sparse_autoencoder.Autoencoder.from_state_dict(state_dict)

    autoencoder.to(device)



input_tensor = activation_cache[transformer_lens_loc]



input_tensor_ln = input_tensor



with torch.no_grad():

    latent_activations, info = autoencoder.encode(input_tensor_ln)

    reconstructed_activations = autoencoder.decode(latent_activations, info)



normalized_mse = (reconstructed_activations - input_tensor).pow(2).sum(dim=1) / (input_tensor).pow(2).sum(dim=1)

print(location, normalized_mse)


Больше интересного - в нашем Telegram

Подпишись: @data_secrets