Статьи по теме data-science

Публикации по теме 'data-science'

«Стандартизация» данных: когда и почему?

Как мы принимаем решение о том, следует ли нам «стандартизировать» или «нормализовать» (масштабирование [0, 1]) данные? Ну, честно говоря, это всегда безопасно. Но давайте обсудим несколько примеров, когда масштабирование функций действительно помогает. Это определенно помогает в обучении на основе экземпляров, таком как алгоритмы соседей (такие как k-means и KNN), где мерой производительности является евклидово расстояние. Масштабируя данные, мы гарантируем, что все функции в наборе..

2 вещи, которые нужно проверить, если ваша хорошо обученная модель плохо работает с тестовыми данными

Большую часть времени при изучении науки о данных нам дается набор данных, в основном предварительно разделенный для обучения и тестирования, и мы пытаемся придумать хорошую модель с желаемой метрикой после обучения и проверки наших данных с перекрестной проверкой, тонкой настройкой. по технике и т. д. Если вы достаточно внимательны, вы хорошо разбираетесь в фиче-инжиниринге, очистке данных и т. д.; в конечном итоге вы получите хорошую модель, которая дает аналогичные результаты в реальном..

Это то, что вам нужно знать о функции диапазона Python

Сделайте себе одолжение и выучите это правильно раз и навсегда Создание циклов — обычная задача для программистов, а функция диапазона Python предлагает простой в использовании, но важный инструмент при создании циклов for-loop . В Python есть цикл for , который требует некоего итерируемого объекта, который возвращает свои элементы один за другим.

Использовать или не использовать машинное обучение

Как решить, является ли использование ML хорошей идеей, и как это меняется с GenAI Машинное обучение отлично подходит для решения определенных сложных проблем, обычно связанных со сложными отношениями между функциями и результатами, которые не могут быть легко жестко запрограммированы как эвристики или операторы if-else. Однако есть некоторые ограничения или вещи, которые следует учитывать при принятии решения о том, является ли ML хорошим решением для данной проблемы. В этом посте мы..

Введение в R для науки о данных (часть седьмая, заключительная)

Это седьмое введение в R. Здесь будут рассмотрены ящичковые диаграммы, построение переменных, координаты и многое другое. *Первоначально опубликовано в моем подстеке. Это лишь часть статьи. PS : пожалуйста, прочтите «Введение в R для науки о данных (часть шестая)», прежде чем читать это. Это продолжение шестой части. Часть шестая: Введение в R для науки о данных (часть шестая) Блочные диаграммы В этом случае я создал гистограмму с помощью функции geom_boxplot(). Вы..

Раскройте силу Python: 10 встроенных декораторов, которые сделают ваш код еще лучше!

Я всегда верил в силу оптимизации кода для достижения более быстрых и эффективных результатов. Привет! Меня зовут Гейб, и я увлечен обучением других Python и машинному обучению. Как человек с более чем десятилетним опытом анализа и визуализации данных, я всегда верил в силу оптимизации кода для достижения более быстрых и эффективных результатов. Сегодня я хочу поделиться с вами десятью встроенными в Python декораторами, которые могут значительно повысить производительность и..

Матрица путаницы

Матрица путаницы Существует несколько способов измерения производительности модели классификации, например. точность. Однако точность не всегда является лучшим способом измерения производительности, поскольку она склонна к выбросам. Кроме того, точность не подходит для задач, где важны как положительные, так и отрицательные результаты, например, в сфере здравоохранения. Матрица путаницы Матрица путаницы — это табличное представление фактического и прогнозируемого значения в..