t-SNE в машинном обучении
t-SNE – это очень мощный алгоритм машинного обучения, который можно использовать для визуализации многомерного набора данных также в двумерных фигурах. Аббревиатура означает t-распределенное стохастическое соседнее вложение. Если вы хотите узнать больше о t-SNE и о том, как визуализировать многомерный набор данных с помощью t-SNE, эта статья для вас. В этой статье я познакомлю вас с t-SNE в машинном обучении и его реализацией с использованием Python.
Что такое t-SNE?
Одна из проблем, с которой часто сталкиваются специалисты по анализу данных – понимание структуры очень сложного набора данных без ее визуализации. Здесь на помощь приходит алгоритм t-распределенного стохастического соседнего встраивания, он используется для визуализации многомерного набора данных с использованием двумерной фигуры. Вы также можете визуализировать многомерный набор данных, используя трехмерную фигуру, но самая важная особенность, которую он предоставляет, заключается в том, что его можно использовать для уменьшения размерности набора данных для сохранения внутренних связей.
Существует множество инструментов и библиотек визуализации, которые можно использовать для реализации t-SNE с использованием Python. В следующем разделе я расскажу вам о реализации t-SNE с использованием Python для визуализации многомерного набора данных на двухмерной фигуре с помощью plotly.
t-SNE с использованием Python
Теперь давайте посмотрим, как реализовать алгоритм t-распределенного стохастического соседнего вложения в машинном обучении с использованием языка программирования Python. Здесь я буду использовать классический набор данных радужной оболочки для этой задачи. Итак, вот как вы можете легко реализовать алгоритм t-SNE в машинном обучении с помощью Python:
from sklearn.manifold import TSNE import plotly.express as px df = px.data.iris() features = df.loc[:, :'petal_width'] tsne = TSNE(n_components=2, perplexity=20, random_state=1000) projections = tsne.fit_transform(features) fig = px.scatter( projections, x=0, y=1, color=df.species, labels={'color': 'species'} ) fig.show()
Реализация t-распределенного стохастического соседнего вложения в наборе данных Iris
На рисунке выше легко увидеть виды ирисов, сгруппированные в соответствии с их исходным распределением в наборе данных. Вот как вы можете использовать алгоритм t-распределенного стохастического соседнего встраивания в машинном обучении для визуализации многомерного набора данных за короткое время.
Резюме
Вот как можно реализовать алгоритм t-SNE в машинном обучении с помощью языка программирования Python. Это расшифровывается как t-Distributed Stochastic Neighbor Embedding (t-распределенное стохастическое соседнее встраивание) и используется для визуализации многомерного набора данных в двухмерной фигуре за очень короткий промежуток времени. Надеюсь, вам понравилась эта статья о t-SNE в машинном обучении и его реализации с использованием Python.