Наука о данных действительно очень большая и разнообразная область. Поэтому трудно быть мастером по всем предметам. В этом и нескольких следующих постах я хочу поделиться несколькими вопросами, которые мне и моим друзьям задавали в 2021 году. Если вам интересна эта тема, вы также можете найти другие статьи ниже:









Вопросы о вероятности и статистике

13. Что происходит с коэффициентом детерминации (R²), когда в модель регрессии добавляются дополнительные независимые переменные?

Наличие большего количества переменных, как правило, дает лучшее соответствие, это означает, что R² будет расти (или, по крайней мере, не будет снижаться), хотя это не обязательно означает лучшую модель.

Вообще говоря, сравнение моделей следует проводить в конце с точки зрения того, как модель объясняет данные (например, вероятность, R² и т. д.) и насколько проста модель (например, бритва Оккама). Переобучение также потенциально может быть вызвано, поэтому можно посмотреть на критерий выбора модели BIC, чтобы избежать слишком большого количества переменных.

Как всегда есть замечательный StatQuest про R²:

14. Если вы поймали медведя А, вы пометили и выпустили его; во второй раз, когда вы поймали B медведей и обнаружили, что есть K медведей с меткой. Как вы думаете, сколько всего медведей было на улице?

Предположим, что на улице всего N медведей, из которых мы пометили A медведей. Что нам нужно определить, так это число N, чтобы максимизировать вероятность P (X = K)

Мы можем перечислить результат так, что P(X = K) ≥ P(X = K-1) и P(X = K) ≥ P(X = K +1)

15. Головоломка с 25 лошадьми: Допустим, у вас есть 25 лошадей, и вы хотите выбрать 3 самых быстрых из этих 25 лошадей. В каждой гонке одновременно могут бежать только 5 лошадей, потому что есть только 5 дорожек. . Какое минимальное количество скачек требуется, чтобы определить 3 самых быстрых лошадей без использования секундомера?

Потому что только до 5 лошадей могут участвовать в гонках каждый раз. Мы можем создать 5 разных групп (см. ниже). Нам нужно провести 5 скачек, и мы можем отсортировать лошадей по скорости, как показано ниже (1 — самая быстрая, а 5 — самая медленная).

А: А(1), А(2), А(3), А(4) и А(5);

В: В(1), В(2), В(3), В(4) и В(5);

С: С(1), С(2), С(3), С(4) и С(5);

Д: Д(1), Д(2), Д(3), Д(4) и Д(5);

Е: Е(1), Е(2), Е(3), Е(4) и Е(5).

Затем мы можем выбрать самых быстрых из каждой группы: A(1), B(1), C(1), D(1) и E(1) и провести шестую гонку. Предполагая, что скорость среди них все еще отсортирована по алфавиту. Итак, мы знаем, что A(1) является самым быстрым, и нам просто нужно выяснить, какие из них 2-е и 3-е.

Тогда мы знаем, что можем исключить D(1), E(1), а также B(3), C(2) и C(3) из тройки самых быстрых лошадей. Теперь нам просто нужно провести еще одну гонку среди A(2), A(3), B(1), B(2) и C(1). Поэтому нам нужно всего 7 скачек, чтобы определить 3 самых быстрых лошадей.

Если вам нравится учиться на видео, я нахожу ссылку ниже на Youtube, которая очень хорошо это объясняет:

Я надеюсь, что вы найдете это полезным, и желаю вам удачи в ваших исследованиях данных и количественных исследованиях!

Спасибо за прочтение!

Если вам понравилось, подпишитесь на меня на Medium, чтобы узнать больше. Это отличное кардио для вашего👏 И поможет другим людям увидеть историю.



Если вы хотите и дальше получать статьи такого типа, вы можете поддержать меня, став подписчиком на средний уровень.