Оценить:
 Рейтинг: 0

120 практических задач

Год написания книги
2024
Теги
<< 1 ... 7 8 9 10 11 12 13 14 15 ... 46 >>
На страницу:
11 из 46
Настройки чтения
Размер шрифта
Высота строк
Поля

from tensorflow.keras.preprocessing.text import Tokenizer

from tensorflow.keras.preprocessing.sequence import pad_sequences

from sklearn.model_selection import train_test_split

# Шаг 2: Подготовка данных

# Загрузка данных. Предположим, что у нас есть CSV файл с текстами и метками настроений (0 – негативное, 1 – позитивное).

data = pd.read_csv('sentiment_data.csv')

# Пример структуры данных:

# text sentiment

# 0 This movie was great! 1

# 1 I did not like this movie. 0

# …

# Тексты и метки

texts = data['text'].values

labels = data['sentiment'].values

# Токенизация текстов

tokenizer = Tokenizer(num_words=10000) # Используем только 10,000 наиболее частотных слов

tokenizer.fit_on_texts(texts)

sequences = tokenizer.texts_to_sequences(texts)

# Ограничение длины последовательностей (padding)

maxlen = 100 # Максимальная длина последовательности

X = pad_sequences(sequences, maxlen=maxlen)

# Разделение данных на обучающую и тестовую выборки

X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=42)

# Шаг 3: Построение модели LSTM

model = models.Sequential()

model.add(layers.Embedding(input_dim=10000, output_dim=128, input_length=maxlen))

model.add(layers.LSTM(128, return_sequences=True))

model.add(layers.LSTM(128, return_sequences=False))

model.add(layers.Dense(1, activation='sigmoid'))

# Шаг 4: Компиляция и обучение модели

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

history = model.fit(X_train, y_train, epochs=10, batch_size=32,

validation_data=(X_test, y_test))

# Шаг 5: Оценка модели

loss, accuracy = model.evaluate(X_test, y_test, verbose=2)

print(f'\nТочность на тестовых данных: {accuracy}')

# Визуализация процесса обучения

plt.plot(history.history['accuracy'], label='Точность на обучающем наборе')

plt.plot(history.history['val_accuracy'], label='Точность на валидационном наборе')

plt.xlabel('Эпоха')

plt.ylabel('Точность')

plt.legend(loc='lower right')

plt.show()

```

Пояснение:

1. Импорт библиотек: Импортируются необходимые библиотеки TensorFlow, Keras, pandas, matplotlib и другие.

2. Подготовка данных: Загрузка данных из CSV файла, содержащего тексты и метки настроений. Тексты токенизируются с использованием `Tokenizer`, и последовательности приводятся к одинаковой длине с помощью `pad_sequences`.

3. Построение модели LSTM: Модель строится с использованием слоя `Embedding` для преобразования токенов в плотные векторы, двух слоев LSTM для обработки последовательностей и одного полносвязного слоя для выдачи прогноза.

– Слой Embedding:

```python
<< 1 ... 7 8 9 10 11 12 13 14 15 ... 46 >>
На страницу:
11 из 46