С исходным кодом
- Проект автоматического распознавания номерных знаков
- Классификация изображений
- Метакат: сделать большие данные доступными для обнаружения и значимыми в Netflix (Код) Netflix
- DataHub: универсальный инструмент поиска и обнаружения метаданных (Код) LinkedIn
- DataHub: популярные архитектуры метаданных LinkedIn
- Как мы улучшили обнаружение данных для специалистов по данным в Spotify Spotify
- Как мы решаем проблемы обнаружения данных в Shopify Shopify
- Nemo: открытие данных в Facebook Facebook
- Атлас Apache: структура управления данными и метаданных для Hadoop (Код) Apache
- Сбор, агрегирование и визуализация метаданных экосистемы данных (Код) WeWork
- Амундсен - механизм обнаружения данных и метаданных Lyft Lyft
- Открытый исходный код Амундсена: платформа для обнаружения данных и метаданных (Код) Lyft
- Прогнозирование временных рядов с помощью модели ARIMA
- Проект прогнозирования цен на акции
- Модель обнаружения фейковых новостей
- Система обнаружения сонливости водителя с OpenCV и Keras
- Open-Sourcing Riskquant, библиотека для количественной оценки рисков (Код) NetFlix
- Автоматическое прогнозирование с использованием Prophet, Databricks, Delta Lake и MLflow (Paper, Code) Atlassian
- Классификация изображений с помощью искусственных нейронных сетей
- Модель двоичной классификации
- Проект обнаружения фейковых новостей
- Увеличение данных с помощью глубокого обучения
- Модель прогнозирования следующего слова
- Персонализированные обзоры Yelp
- Распознавание ориентиров с помощью машинного обучения
- CarveML- классификация фрагментов
- Анализ настроений с помощью машинного обучения
- Анализ голосовых паттернов для определения эмоций с помощью машинного обучения
- Предсказание коммерческого успеха песен на основе слов
- Концептуальный дизайн самолета с использованием машинного обучения
- Извлечение словесных отношений с помощью машинного обучения
- Прогнозирование травмы с отсроченным началом - машинное обучение ишемического инсульта
- Классификация поведения пользователей в Интернете с помощью машинного обучения
- Оптимизация траектории полета в реальном времени с помощью машинного обучения
- Проект распознавания жестового языка
- Сегментация изображений
- Алгоритм XGBoost
- Обнаружение ориентиров на лицах
- Прогноз цен на подержанные автомобили
- Машинное обучение для прогнозирования неплательщиков ссуд
- Анализ Uber Trips
- Машинное обучение Python для прогнозирования права на получение кредита
- Анализ чатов WhatsApp
- Анализ вакцины против Covid-19
- Модель прогнозирования оценок учащихся
- Проект обнаружения масок в реальном времени в машинном обучении
- GDMix: платформа персонализации глубокого ранжирования (Код) LinkedIn
- Проект по изучению данных о площади и населении
- Полное пошаговое руководство по проекту машинного обучения
- Рекомендация фильма
- Научный проект по анализу рождаемости
- Проект по анализу данных о временных рядах
- Анализ данных о преступности
- Проект по анализу данных о временных рядах
- Извлечение ключевых слов
- Прогнозирование множественных заболеваний
- Прогнозирование множественных заболеваний - часть 2
- Обобщение текста
- Извлечение ключевых слов
- Amazon Search: радость ранжирования продуктов (Бумага, Видео, Код) Amazon
- Прогнозирование отвлечения внимания водителя с помощью глубокого обучения
- Площадь и население
- Полное руководство по проекту машинного обучения
- Обобщение текста
- Обнаружение фейковых новостей с помощью машинного обучения
- Распознавание изображений
- Модель гендерной классификации
- Ежедневное прогнозирование рождений
- Алгоритм двоичного поиска
- Моделирование конверсии и сбережения миллионов с использованием распределений Каплана-Мейера и гамма-распределения (Код)
- F ake Product Review Detection
- Модель прогнозирования рейтинга кликов
- Интерактивный переводчик языков
- Проект сегментации клиентов
- Определение языка
- Служба потоковой передачи
- Прогноз цены акций
- Президентские высоты
- Прогноз продаж на Черную пятницу
- Прогноз диабета
- Анализ поиска Google
- Встречайте Wasabi, платформу для A / B-тестирования с открытым исходным кодом (Код) Intuit
- Модель прогнозирования цен на акции Tesla
- Анализ финансового бюджета
- Учимся гладиатора
- Играть в денежный шар
- Анализ сетевой безопасности
- Гонка на гистограмме
- Исследование ключевых слов
- Система рекомендаций о моде
- Распознавание лиц
- Модель обнаружения эмоций
- Telegram Bot
- Машинное обучение бейсбол
- Прогнозирование цен на акции
- Предиктор цен на акции
- Анализ выживания Титаника
- Глубокое обучение для перевода между языками программирования (Бумага, Код) Facebook
- Классификация галактик
- Временные ряды с моделью LSTM
- Классификация изображений с помощью TensorFlow
- Прогноз погоды
- Распознавание рукописного текста с помощью TensorFlow
- Распознавание почерка
- Визуализируйте солнечную систему
- Модель выявления языка вражды
- Создайте фильтры Instagram
- Отслеживание контактов
- Развернуть чат-бота
- Обобщить текст
- PEGASUS: современная модель обобщения абстрактного текста (Бумага, Код) Google
- GeDi: новый мощный метод управления языковыми моделями (Бумага, Код) Salesforce
- Классификация языков
- Графический интерфейс проверки OTP
- Создать аудиокнигу
- Изучите анализ мошенничества Enron
- Компьютерное зрение
- Анализ бриллиантов
- Image GPT (Бумага, Код) OpenAI
- Классификация текста с помощью TensorFlow
- Сегментация изображений
- Регрессия гребня и лассо
- Объявление ScaNN: эффективный поиск сходства векторов (Бумага, Код) Google
- Я маг-мультипликатор
- Прогнозирование эффективности использования топлива
- Анализ ABC с помощью Python
- Сегментация легких
- Проект распознавания рукописных цифр
- Анализ RFM с помощью Python
- Построить нейронную сеть
- Генетический алгоритм на Python
- Проект Emojify
- Прогнозирование миграции с помощью машинного обучения
- Написание алгоритмов машинного обучения с нуля
- DeText: глубокая структура НЛП для интеллектуального понимания текста (Код) LinkedIn
- Обнаружение мошенничества с кредитными картами с помощью машинного обучения
- Прогноз погоды
- Обнаружение SMS-спама
- Обнаружение Covid-19
- Выявление и предотвращение злоупотреблений в LinkedIn с помощью Isolation Forests (Код) LinkedIn
- Определение пола и возраста с помощью OpenCV
- Сегментация клиентов
- Прогноз текучести кадров
- Прогнозирование диабета
- Butterfree: фреймворк на основе Spark для создания магазина функций (Код) QuintoAndar
- Представляем Feast: магазин функций с открытым исходным кодом для машинного обучения (Код) Gojek
Бонус - Лучшие ресурсы по науке о данных и машинному обучению, организованные следующим образом:
- Лучшие курсы
- Лучшие каналы и блоги
- Лучшие методы науки о данных - 23 хака по науке о данных
- Вопросы на собеседовании по ML
- Лучшие подкасты
- Малоизвестные библиотеки Python для науки о данных
- Лучшие соревнования
- Полезные руководства / руководства по ноутбукам Ipython
- Лучшие наборы данных
- Проекты в области науки о данных и машинного обучения
- Новости и информационные бюллетени
- Инструменты и процессы
- Шпаргалки, советы и хитрости
- Бесплатные книги и полные руководства
- Ресурсы для глубокого обучения
- Бесплатные книги по информатике, машинному обучению, науке о данных, глубокому обучению
Курсы
Список базовых курсов:
Базовые курсы - Python и информатика
- Введение в программирование на Python с помощью Python: лучший курс программирования на Python.
- Программирование AI с Python
- Программирование для науки о данных с помощью Python
- CS50: Введение в информатику CS50
Базовый курс - Статистика
Базовый курс - SQL
Базовый курс - математика
Базовые курсы - Data Science
- Udacity Intro to Data Science: все в одном (лучший курс)
- Введение в науку о данных в Python
Базовый курс - Data Engineer
- Курс Data Engineer - на мой взгляд, один из лучших курсов.
Базовый курс - ИИ для бизнес-менеджеров
- AI для бизнес-менеджеров - обязательный курс.
Хотите учиться у Гарварда?
Базовый курс - Машинное обучение
- Введение в курс машинного обучения
- Введение в машинное обучение с помощью Tensorflow
- Инженер по машинному обучению Udacity: Это один из лучших курсов машинного обучения, которые я прошел.
- "Машинное обучение"
Книги по машинному обучению (в статье ниже) -
Базовый курс - искусственный интеллект
Базовый курс - Jupyter
Список продвинутых курсов:
- Прикладная наука о данных со специализацией на Python
- Прикладное машинное обучение на Python
- Машинное обучение Эндрю Нг на Coursera [Бесплатно]
- Основы нанодипломов глубокого обучения Udacity
- Udacity Искусственный интеллект Nanodegree
- Курс машинного обучения Fast.ai [Бесплатно]
- Введение в TensorFlow для глубокого обучения [Бесплатно]
- Введение в глубокое обучение с помощью PyTorch
- Самостоятельное вождение автомобиля: если вы занимаетесь компьютерным зрением.
- Летающий автомобиль и автономный бортинженер
3. Лучшие каналы и блоги
Примечание. Я слежу за всеми
Каналы и видео Youtube:
- Инжиниринг данных с Андреасом Кретцем
- SentDex: лучшие учебники по Python
- Карьера в области науки о данных в 2020 году
- 3Blue1Brown: математика стала проще
- Эндрю Нг: Глубокое обучение, обучение с самообучением и обучение без учителя
- Интервью с Джеффри Хинтоном в области искусственного интеллекта и глубокого обучения Google
- Введение в глубокое обучение с помощью Python
- Создание моей первой игры с машинным обучением
- Все, что нужно для начала программирования!
- Анализ данных на Python с пандами
- Что такое машинное обучение и как оно работает?
- Наука о данных 101
- Серия видео о нейронных сетях от Хьюго Ларошеля
- Соучредитель Google DeepMind Шейн Легг - Machine Super Intelligence
- Учебник по науке о данных
- AI 101
- Обзор ваших проектов в области науки о данных
- Проект по науке о данных с нуля
- 5 советов для получения работы в области науки о данных [ИНТЕРВЬЮ]
- Two Minute Papers: Кароли Жолнаи-Фехер представляет короткие сводные видео о последних разработках в области искусственного интеллекта и научных исследований.
Аккаунты Twitter:
- Центр науки о данных
- Клэр Кортелл - разработчик, дизайн, наука о данных @mattermark #hackerei
- Data Science London Наука о данных. Большое количество данных. Взлом данных. Любители данных.
- Отчет по науке о данных - Миссия состоит в том, чтобы помочь направлять и продвигать карьеру в области науки о данных и аналитики.
- Советы по анализу данных
- Дрю Конвей - компьютерный ботаник, хакер, изучающий конфликты.
- Data Vizzard - DataViz, Безопасность, Военные
- Эрин Бартоло - Запуск с BigData
- Грег Реда Работа в GrubHub о данных и пандах
- DJ Патил - руководитель службы данных Белого дома, вице-президент @ RelateIQ.
- Григорий Пятецкий - Президент KDnuggets
- Хакан Кардас - Data Scientist
- Хилари Мейсон - специалист по анализу данных в резиденции @accel.
- Джефф Хаммербахер Ретвит о науке о данных
- Джон Майлс Уайт, ученый в Facebook и разработчик Джулии. Автор книги Машинное обучение для хакеров.
- Джулия Эванс - Хакер - Панды - Анализ данных
- Кеннет Кукьер - редактор данных журнала The Economist и соавтор Big Data
- Кевин Маркхэм - инструктор по науке о данных и основатель Data School
- Kim Rees - Интерактивная визуализация данных и инструменты. Фланер данных.
- Линда Регбер - рассказчик данных, визуализации.
- Луис Рей - Ph.D. Ученик. Программирование, мобильная связь, Интернет. Искусственный интеллект.
- Марк Стивенсон - специалист по подбору персонала по аналитике данных в Salt
- Мэтью Рассел - Майнинг в социальной сети.
- Mert Nuhoğlu Data Scientist компании BizQualify, Разработчик
- Моника Рогати - Данные в Jawbone.
- Петр Скомороч - Создание интеллектуальных систем для автоматизации задач и улучшения решений.
- Quora Data Science Тема Quora по науке о данных
- Рэнди Олсон - ученый-компьютерщик, исследующий искусственный интеллект. Мастер обработки данных.
- Реджеп Эрол - Компьютерщик Data Science @ UALR
- Райан Орбан - специалист по данным, генетический оригамист, фанат аппаратного обеспечения.
- Шон Дж. Тейлор - социолог. Хакер. Команда Facebook Data Science.
- Сильвия К. Спива - #DataScience в Cisco
- Суровый Б. Гупта - специалист по анализу данных BBVA Compass
- Спенсер Нельсон - дата-ботаник
- Ной Ильинский - дизайнер визуализации и взаимодействия. Практикующий велосипедист.
- Пол Миллер - облачные вычисления / большие данные / аналитик и консультант по открытым данным. Писатель, спикер и модератор. Аналитик Gigaom Research.
- Тасос Скарлатидис - сложная обработка событий, большие данные, искусственный интеллект и машинное обучение. Увлечен программированием и открытым исходным кодом.
- Терри Тимко - InfoGov; Большое количество данных; Данные как услуга; Data Science; Открытая конвергенция социальных и бизнес-данных
- Тони Охеда - специалист по данным | Автор | Предприниматель. Соучредитель @DataCommunityDC.
- WileyEd - старший менеджер - @Seagate Big Data Analytics
Аккаунты Facebook:
- Наука о данных 101
- Ученый по большим данным
- Data Science Technology and Corporation
- Центр науки о данных
- Большие данные, наука о данных, интеллектуальный анализ данных и статистика
- Эксперт BigData / Hadoop
- Блог о данных
Блоги:
- Андреас Мюллер
- Блог Андрея Карпаты
- Блог данных Airbnb
- Блог человека-инженера
- Расширенная аналитика и R
- Приключения в стране данных
- Алгобины | Руководства и эксперименты по аналитике данных для непрофессионалов
- Блог Amazon AWS AI
- Аналитика Видхья
- Красивые данные
- Стать специалистом по данным
- Berkeley AI Research
- Блог о нейронных сетях
- Совершенно неправильные мысли о науке и программировании
- Наина Чатурведи Тех
- Сообщения Cloudera Data Science
- Блог Cortana Intelligence и машинного обучения
- Изобретения, основанные на данных
- Data Blogger
- Лаборатории данных
- Исследование интеллектуального анализа данных
- Data Mining: анализ текста, визуализация и социальные сети
- Наука о данных 101
- Data Science @ Facebook
- Блог Додзё Data Science
- Аналитика науки о данных
- Учебники по науке о данных
- Записная книжка по анализу данных
- Блог Dataquest
- DataRobot
- Глубокое обучение
- "Глубокая тарелка"
- Погружение в данные
- Предпринимательский фанатизм
- Фабиан Педрегоса
- Fast Forward Labs
- FastML
- Полный стек ML
- Блог Gradient Metrics
- Insight Data Science
- Джейсон Той
- Джереми Д. Джексон, доктор философии
- Радость данных
- KDnuggets
- Масштабное машинное обучение
- Ленивый программист
- Изучите аналитику здесь
- LearnDataSci
- Обучение с помощью данных
- Машинное обучение и наука о данных
- "Машинное обучение"
- Мастерство машинного обучения
- Блоги по машинному обучению
- Машинное обучение, математика и физика
- Модели светлые и неправильные
- Мои мысли о Data Science, прогнозной аналитике, Python
- Блог обработки естественного языка
- Блог Neptune: подробные статьи для практиков машинного обучения
- Энтузиаст НЛП и глубокого обучения
- О машинном интеллекте
- Питер Лауринек - Интеллектуальный анализ данных временных рядов в R
- Сюжетный блог
- PyImageSearch
- Пифонические прогулки
- R and Data Mining
- Рамиро Гомес
- Случайные заметки по информатике, математике и программной инженерии
- Обучение с подкреплением для развлечения
- Ракетная наука о данных
- Шон Дж. Тейлор
- Себастьян Рашка
- Просто статистика
- Статистика и R
- Статистическое моделирование, причинный вывод и социальные науки
- Технический блог Stitch Fix
- Рассказ со статистикой на Quora
- Умная машина
- Блог Data Camp
- Инкубатор данных
- Лаборатория науки о данных
- Неофициальный блог Google по науке о данных
- Блог компьютерного зрения Томбоуна
- Блог UW Data Science
- Уэс МакКинни
- WildML
- Harvard Data Science - Мысли о статистических вычислениях и визуализации.
- New Data Scientist - Как социолог попадает в мир больших данных
- P-value - Размышления о данных, машинном обучении и статистике.
- Веб-сайт Криса Албона - заметки о данных и искусственном интеллекте
- Эндрю Карр - Наука о данных с эзотерическими языками программирования
4. Лучшие методы науки о данных - 23 метода анализа данных
Работа специалиста по данным - непростая задача, поэтому важно знать несколько хитростей в области науки о данных, которые могут сэкономить ваше драгоценное время и упростить вашу жизнь. В посте ниже я расскажу о 23 методах анализа данных, которые я использовал.
5. Вопросы на собеседовании по ML
Средняя заработная плата за машинное обучение, согласно исследованию Indeed, составляет примерно 146 085 долларов (поразительное увеличение на 344% с 2015 года). Это часть 1 из 3-х частей интервью по ML.
6. Лучшие подкасты:
- Противоречивое обучение
- Стать специалистом по данным
- Обучающие машины 101
- Линейные отступления
- Частично производная
- Data Crunch
- Скептик данных
- Истории данных
7. Очистите табличные данные и малоизвестные библиотеки Python для науки о данных
Сбор данных - это процесс импорта информации с веб-сайта в электронную таблицу или локальный файл в вашей системе, и это один из наиболее эффективных способов получения данных из Интернета. Многие из вас должны быть знакомы с библиотекой Cheerio или Python с Beautiful Soup для очистки данных.
8. Лучшие соревнования:
9. Полезные учебники / руководства для ноутбуков Ipython:
- Pandas Tutorial - Базовое введение в Pandas в виде записной книжки.
- Scipy Tutorial - Базовое руководство по Scipy.
- Numpy Tutorial - Базовый учебник по Numpy.
- Множественные регрессии с использованием статистических моделей
- SQL в iPython
- Монго в Python
- Учебник по красивому супу
- Sci-Kit Learn Basics - основы машинного обучения с помощью scikit-learn.
- MatPlotLib - Визуализация данных с помощью Matplotlib
- Some Basic Data Analysis in Python - Базовый анализ данных с помощью Python.
- Ускоренный курс Python для ученых - Записная книжка Ipython для ученых
- Регулярные выражения - регулярное выражение для сопоставления шаблонов в строках - очень мощное средство.
- Рекурсия
10. Лучшие наборы данных:
- Безопасность авиалиний - содержит информацию об авариях от каждой авиакомпании.
- US Weather History - исторические данные о погоде в США.
- Политическая реклама в Facebook - бесплатный ежедневный сбор данных о рекламе в Facebook.
- Новости преступлений на почве ненависти - регулярно обновляемые данные о преступлениях на почве ненависти, публикуемые в Новостях Google.
- USA Names - содержит все заявки на получение имени в системе социального страхования в США с 1879 по 2015 год.
- Github Activity - содержит всю публичную активность в более чем 2,8 миллионах публичных репозиториев Github.
- Порядок спутниковых снимков - набор спутниковых снимков Земли - цель - предсказать, какие снимки были сделаны раньше других.
- Data.Gov - правительственный портал США по открытым данным.
- Data Basin - научная картографическая и аналитическая платформа.
- Найти наборы данных | Библиотеки CMU : откройте для себя высококачественные наборы данных благодаря коллекции Хуацзинь Вана, CMU.
- Open Energy Data Initiative - более 800 наборов данных по вопросам энергетики.
- Наборы данных машинного обучения UCI - Данные для машинного обучения - множество помеченных данных и описание типов проблем.
- Quandl : Хороший источник экономических и финансовых данных.
- Открытые данные Всемирного банка: наборы данных, охватывающие демографические данные населения, огромное количество экономических показателей и показателей развития.
- Обнаружение мошенничества с кредитными картами: Выявление мошеннических транзакций по кредитным картам.
- Данные МВФ: Международный валютный фонд публикует данные о международных финансах, валютных резервах, ценах на сырьевые товары и инвестициях.
- Лондонское хранилище данных - множество наборов данных о Лондоне, Великобритания.
- Сбои производственного процесса - совокупность переменных, которые были измерены в процессе производства. Цель состоит в том, чтобы предсказать производственные неисправности.
- Вопросы с множественным выбором - набор данных вопросов с множественным выбором и соответствующих правильных ответов. Цель состоит в том, чтобы предсказать ответ на любой заданный вопрос.
- Историческая погода - данные 9000 метеостанций NOAA с 1929 по 2016 год.
- Возраст машин для голосования - данные о возрасте машин для голосования, которые использовались на выборах 2016 года.
- COVID-19 Open Research Dataset Challenge (CORD-19) - набор данных CORD-19 представляет собой самый обширный сборник машиночитаемой литературы по коронавирусу, доступный на сегодняшний день для интеллектуального анализа данных.
- Тенденция статистики видео на YouTube - анализ настроений в различных формах, категоризация видео на YouTube на основе их комментариев и статистики, обучение алгоритмов машинного обучения, таких как RNN, для создания собственных комментариев на YouTube, анализ факторов, влияющих на популярность видео на YouTube, статистические анализ с течением времени.
- California Water Resources - данные о водных ресурсах Калифорнии.
- Данные для проектов Cool DS
- Академические торренты - Обмен данными затруднен, торренты облегчают работу ученых.
- Open Data Philly Объединение людей с данными для Филадельфии
- Список полезных источников Сообщение в блоге включает в себя множество баз данных с наборами данных.
- Grouplens.org Образец фильма (с рейтингом), книги и наборы данных вики
- Репозиторий машинного обучения UC Irvine - содержит наборы данных, подходящие для машинного обучения.
- Национальный центр климатических данных - NOAA
- Набор данных задачи сегментации опухоли печени
- Публичный архив Git
- GHTorrent
- Открытые данные Microsoft Research
- Платформа данных открытого правительства Индии
- Поиск по набору данных Google (бета)
- NAYN.CO Турецкие новости с категориями
- Covid-19 Google
11. Проекты в области науки о данных и машинного обучения.
- Анализ настроений в Twitter с использованием Python
- Обнаружение спама с помощью python
- Создание и развертывание веб-приложения для машинного обучения
- Прогнозирование продаж с использованием набора данных Walmart
- Проект ML для прогнозирования продаж BigMart - узнайте об алгоритмах неконтролируемого машинного обучения
- Обзоры продуктов электронной торговли - Парный рейтинг и анализ настроений
- Классификация рукописных цифр MNIST
- Data Science Project - TalkingData AdTracking Fraud Detection
- Tensor2Robot (T2R) от Google Research
- Генеративные модели в TensorFlow 2
- Google Research Football - Уникальная среда обучения с подкреплением
- Gaussian YOLOv3: точный и быстрый детектор объектов для автономного вождения
- Сверхлегкий и быстрый детектор лиц
- Удаление видеообъекта
- DeepPrivacy - впечатляющий метод анонимизации изображений
- SiamMask - быстрое онлайн-отслеживание и сегментация объектов
- Анализ текста в отчете правительства Мексики за 2019 год - блестящее применение НЛП
- LazyNLP для создания массивных текстовых наборов данных
- Реализация BigGAN DeepMind в PyTorch
- Удаление человека в реальном времени с помощью TensorFlow.js
- Удаление человека в реальном времени с помощью TensorFlow.js
- Проект системы рекомендаций фильмов
- Проект распознавания речевых эмоций
12. Новости и информационные бюллетени
- KDNuggets - Эта платформа полностью посвящена искусственному интеллекту и аналитике.
- BananaData - этот информационный бюллетень анализирует новости и отправляет главные информационные сообщения на ваш почтовый ящик один раз в неделю.
- AI Digest. Еженедельный информационный бюллетень, чтобы быть в курсе событий в области искусственного интеллекта, машинного обучения и анализа данных.
13. Инструменты и процессы
- Weka представляет собой набор алгоритмов машинного обучения для задач интеллектуального анализа данных.
- Datalab от Google легко исследует, визуализирует, анализирует и трансформирует данные с помощью знакомых языков, таких как Python и SQL, в интерактивном режиме.
- ML Workspace - универсальная среда разработки для машинного обучения и анализа данных.
- R - это бесплатная программная среда для статистических вычислений и графики.
- IDE RStudio - мощный пользовательский интерфейс для R. Это бесплатная программа с открытым исходным кодом, работает на Windows, Mac и Linux.
- Питон - Анаконда
- Машинное обучение Scikit-Learn на Python
- NumPy является фундаментальным для научных вычислений с Python.
- SciPy SciPy работает с массивами NumPy и предоставляет эффективные процедуры для численного интегрирования и оптимизации.
- Инструментарий Data Science
- Инструментарий Data Science
- Datadog Решения, код и разработки для крупномасштабной науки о данных.
- Apache Flink Платформа для эффективной распределенной универсальной обработки данных.
- A / B Testing - Блог об A / B тестировании.
- Apache Hama Apache Hama - проект верхнего уровня Apache с открытым исходным кодом.
- Octave GNU Octave - интерпретируемый язык высокого уровня, в первую очередь предназначенный для численных вычислений. (Free Matlab)
- Apache Spark Молниеносные кластерные вычисления
- Bloom Filters - блокнот на Python о фильтрах цветения.
- Фильтры Блума - Фильтры Блума.
- Отбор проб из резервуара - учебник по отбору проб из резервуара.
- Фреймворк глубокого обучения Caffe
- Факел Научно-вычислительный фреймворк.
- Intel framework - Intel® Deep Learning Framework
- Datawrapper - платформа визуализации данных с открытым исходным кодом.
- Tensor Flow - TensorFlow - это программная библиотека с открытым исходным кодом для машинного интеллекта.
- Инструментарий естественного языка
- Юлия - высокоуровневый, высокопроизводительный язык динамического программирования.
- Apache Zeppelin - блокнот на базе Интернета, который обеспечивает управляемую данными, интерактивную аналитику данных и совместную работу с документами с помощью SQL, Scala и т. Д.
- Featuretools - фреймворк с открытым исходным кодом для автоматизированной разработки функций, написанный на Python.
- Цепь Маркова Монте-Карло.
- Многопоточность и очереди - Как построить многопоточность и очереди.
- Основы многопоточности и очередей - охватывает основы многопоточности и очередей.
- Optimus - очистка, предварительная обработка, разработка функций, исследовательский анализ данных и легкий машинный перевод.
- AWS Data Wrangler - пакет Python с открытым исходным кодом, который использует и расширяет возможности библиотеки Pandas до AWS, соединяя DataFrames и сервисы, связанные с данными AWS.
- Lightwood - фреймворк на основе Pytorch, который разбивает задачи машинного обучения на более мелкие блоки, которые можно решить для построения прогнозных моделей с помощью одной строчки кода.
14. Шпаргалки, советы и хитрости
Основы Python и импорт данных
Python - мощный язык программирования общего назначения. Он используется для разработки веб-приложений, обработки данных, создания прототипов программного обеспечения и так далее. К счастью для новичков, Python имеет простой и удобный синтаксис. Это делает Python отличным языком программирования для начинающих.
Лучший MOOC для изучения основ Python: https://www.edx.org/course/python-basics-for-data-science
Обзор курса MOOC: по завершении вы сможете писать собственные сценарии Python и выполнять базовый практический анализ данных с помощью нашей лабораторной среды на основе Jupyter. Это один из лучших курсов.
Рейтинг: 8/10
Вы можете найти шпаргалку здесь: Шпаргалка по основам Python
Вы можете найти шпаргалку здесь: Python for Data Science: Importing Data Cheat Sheet
Блокнот Jupyter
Jupyter Notebook - это веб-приложение с открытым исходным кодом, которое позволяет создавать и обмениваться документами, содержащими живой код, уравнения, визуализации и повествовательный текст. Области применения: очистка и преобразование данных, численное моделирование, статистическое моделирование, визуализация данных, машинное обучение и многое другое.
Вы можете найти шпаргалку здесь: Шпаргалка по Jupyter Notebook
Математика
SciPy - это один из базовых пакетов для научных вычислений в Python, который предоставляет математические алгоритмы и удобные функции, построенные на расширении Python NumPy.
Вы можете найти шпаргалку здесь: Шпаргалка по линейной алгебре Scipy
Манипуляция данными
NumPy
NumPy - это основная библиотека для научных вычислений на Python. Он предоставляет высокопроизводительный объект многомерного массива и инструменты для работы с этими массивами.
Вы можете найти шпаргалку здесь: Шпаргалка по основам NumPy
Панды
Pandas - это быстрый, мощный, гибкий и простой в использовании инструмент для анализа и обработки данных с открытым исходным кодом, созданный на основе языка программирования Python.
Вы можете найти шпаргалку здесь: Шпаргалка по основам Pandas
Обработка данных Pandas
Обработка данных включает в себя обработку данных в различных форматах, таких как слияние, группирование, объединение и т. Д., С целью анализа или подготовки их к использованию с другим набором данных. Python имеет встроенные функции для применения этих методов борьбы с различными наборами данных для достижения аналитической цели.
- Шаги по очистке текстовых данных в Python
- Шпаргалка - коды Python и R для распространенных алгоритмов машинного обучения
- "Машинное обучение"
- Scitk-Learn (PDF)
- Моделирование машинного обучения в R
- Карет
- Оценщик
- H2O
- Млр
- Машинное обучение Microsoft Azure: шпаргалка по алгоритмам
- Памятка по основам теории вероятностей
- Шпаргалка по Apache Spark
- Регресс
- Обучение под наблюдением VIP
- Сегментация и кластеризация
- VIP обучение без учителя
- Советы и рекомендации по VIP-машинному обучению
- Выбор подходящей модели
- Вывод из шпаргалки по науке о данных
15. Ресурсы для глубокого обучения
Глубокое обучение - это ветвь машинного обучения, по сути, реализация нейронных сетей с более чем одним скрытым слоем нейронов.
Людвиг из Uber
Uber представил фреймворк для обучения и тестирования моделей глубокого обучения без необходимости писать код и назвал его Ludwig -
Ludwig - это набор инструментов, созданный на основе TensorFlow, который позволяет нам обучать и тестировать модели глубокого обучения без необходимости писать код.
Основные принципы дизайна Ludwig (источник: Ludwig Github):
- Не требуется кодирование: не требуется навыков кодирования для обучения модели и использования ее для получения прогнозов.
- Общность: новый подход к проектированию моделей глубокого обучения, основанный на типах данных, который позволяет использовать этот инструмент во многих различных сценариях использования.
- Гибкость: опытные пользователи имеют полный контроль над построением моделей и обучением, а новички сочтут это простым в использовании.
- Расширяемость: легко добавлять новую архитектуру модели и новые типы данных функций.
- Интерпретируемость и понятность. Ludwig включает визуализации, которые помогают специалистам по обработке данных понять эффективность моделей машинного обучения.
16. Бесплатная компьютерная наука, машинное обучение, наука о данных, книги по глубокому обучению.
Вся статистика
Автор: Ларри Вассерман
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-0-387-21736-9
Дискретная математика
Автор: Ласло Ловас, Йожеф Пеликан, Каталин Вестергомби
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-0-387-21777-2
Численная оптимизация
Автор: Хорхе Нокедаль, Стивен Райт
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-0-387-40065-5
Анализ временных рядов
Автор: Джонатан Д. Крайер, Кунг-Сик Чан
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-0-387-75959-3
Вводная статистика с R
Автор: Питер Далгаард
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-0-387-79054-1
Элементы статистического обучения
Автор: Тревор Хасти, Роберт Тибширани, Джером Фридман
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-0-387-84858-7
Вводный временной ряд с R
Автор: Пол С.П. Каупертвейт, Эндрю В. Меткалф
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-0-387-88698-5
Руководство по R для новичков
Автор: Ален Зуур, Елена Н. Иено, Эрик Мистерс
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-0-387-93837-0
Введение в дифференциальные уравнения с частными производными
Автор: Дэвид Бортвик
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-48936-0
Структуры данных и алгоритмы с Python
Автор: Кент Д. Ли, Стив Хаббард
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-13072-9
Методы математического моделирования
Автор: Томас Вительски, Марк Боуэн
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-23042-9
Руководство по разработке алгоритмов
Автор: Стивен С. Скиена
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-84800-070-4
Введение в статистику и анализ данных
Автор: Кристиан Хойманн, Майкл Шомакер, Shalabh
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-46162-5
Принципы интеллектуального анализа данных
Автор: Макс Брамер
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-4471-7307-6
Прикладной многомерный статистический анализ
Автор: Вольфганг Карл Хердл, Леопольд Симар
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-662-45171-7
Робототехника, зрение и управление
Автор: Питер Корк
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-54413-7
Компьютерное зрение
Автор: Ричард Селиски
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-84882-935-0
Интеллектуальный анализ данных
Автор: Чару К. Аггарвал
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-14142-8
Вычислительная геометрия
Автор: Марк де Берг, Отфрид Чеонг, Марк ван Кревельд, Марк Овермарс
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-540-77974-2
Вероятность
Автор: Джим Питман
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-4612-4374-8
Моделирование жизни
Автор: Алан Гарфинкель, Джейн Шевцова, Ина Го
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-59731-7
Учебник по научному программированию с помощью Python
Автор: Ханс Петтер Лангтанген
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-662-49887-3
Статистический анализ и отображение данных
Автор: Ричард М. Хейбергер, Burt Holland
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-4939-2122-5
Элементарный анализ
Автор: Кеннет А. Росс
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-4614-6271-2
Теория вероятности
Автор: Боровков Александр Александрович
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-4471-5201-9
Статистика и анализ данных для финансового инжиниринга
Автор: Дэвид Рупперт, Дэвид С. Маттесон
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-4939-2614-5
Дифференциальные уравнения и их приложения
Автор: Мартин Браун
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-4612-4360-1
Уравнения в частных производных
Автор: Юрген Йост
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-4614-4809-9
Случайные процессы и исчисления
Автор: Уве Хасслер
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-23428-1
Байесовские и частотные методы регрессии
Автор: Джон Уэйкфилд
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-4419-0925-1
Руководство по проектированию для науки о данных
Автор: Стивен С. Скиена
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-55444-0
Введение в машинное обучение
Автор: Мирослав Кубат
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-63913-0
Руководство по дискретной математике
Автор: Джерард О’Реган
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-44561-8
Введение в временные ряды и прогнозирование
Автор: Питер Дж. Броквелл, Ричард А. Дэвис
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-29854-2
Многомерное исчисление и геометрия
Автор: Шон Динин
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-4471-6419-7
Линейное и нелинейное программирование
Автор: Дэвид Г. Люенбергер, Yinyu Ye
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-18842-3
Правильная линейная алгебра
Автор: Шелдон Акслер
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-11080-6
Основы робототехнических механических систем
Автор: Хорхе Анхелес
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-01851-5
Линейная алгебра
Автор: Йорг Лизен, Фолькер Мерманн
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-24346-7
Понимание анализа
Автор: Стивен Эбботт
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-4939-2712-8
Обыкновенные дифференциальные уравнения
Автор: Уильям А. Адкинс, Марк Дж. Дэвидсон
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-4614-3618-8
Анализ статистики с помощью R
Автор: Рэндалл Шумакер, Сара Томек
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-4614-6227-9
Введение в статистическое обучение
Автор: Гарет Джеймс, Даниэла Виттен, Тревор Хасти, Роберт Тибширани
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-4614-7138-7
Статистическое обучение с точки зрения регрессии
Автор: Ричард А. Берк
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-44048-4
Прикладные дифференциальные уравнения с частными производными
Автор: Дж. Дэвид Логан
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-12493-3
Стратегии регрессионного моделирования
Автор: Фрэнк Э. Харрелл-младший.
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-19425-7
Прикладные количественные финансы
Автор: Вольфганг Карл Хердл, Кэти Йи-Сюань Чен, Людгер Овербек
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-662-54486-0
Современное введение в вероятность и статистику
Автор: Ф.М. Деккинг, К. Краайкамп, Х.П. Лопухаа, Л. Мистер
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-84628-168-6
Комплексный анализ
Автор: Джозеф Бак, Дональд Дж. Ньюман
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-4419-7288-0
Книга Python
Автор: Бен Стивенсон
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-14240-1
Основы программирования на Python
Автор: Кент Д. Ли
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-4471-6642-9
Машинное обучение в медицине - полный обзор
Автор: Тон Дж. Клеофас, Эилко Х. Звиндерман
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-15195-3
Объектно-ориентированный анализ, проектирование и реализация
Автор: Брахма Датан, Сарнатх Рамнатх
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-24280-4
Введение в науку о данных
Автор: Лаура Игуаль, Санти Сеги
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-3-319-50017-1
Исчисление с приложениями
Автор: Питер Д. Лакс, Мария Ши Террелл
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-4614-7946-8
Прикладное прогнозное моделирование реального анализа
Автор: Макс Кун, Кьелл Джонсон
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-4614-6849-3
Теория вероятности
Автор: Ахим Кленке
Получите книгу: http://link.springer.com/openurl?genre=book&isbn=978-1-4471-5361-0