С простыми примерами для начинающих

У вас есть данные.

Вам нужны идеи.

К сожалению, прежде чем вы сможете получить представление о данных, вам необходимо заняться процессом подготовки данных.

На данный момент есть часто используемые ключевые слова Python, помогающие вам в основных задачах подготовки данных.

В этой статье я объясню эти основные ключевые слова Python и их использование в процессе подготовки данных на простых примерах.

Что такое ключевое слово

Ключевые слова Python — это зарезервированные слова, которые нельзя использовать в качестве имени переменной, имени функции или любого другого идентификатора, поскольку они имеют особое назначение и значение в языке Python.

Python 3.8 содержит 35 ключевых слов, которые перечислены ниже;

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

Вам не нужно импортировать ключевые слова, так как они всегда доступны, но их нужно писать именно так, как написано выше.

Ключевые слова Python можно разделить на следующие категории:

  • Ключевые слова импорта: import, from, as
  • Ключевые слова структуры: def, class, with, pass, lambda
  • Ключевые слова значения: True, False, None
  • Ключевые слова оператора: and, or, not, in, is
  • Ключевые слова потока управления: if, elif, else
  • Ключевые слова итерации: for, while, break, continue
  • Возвращаемые ключевые слова: return, yield
  • Ключевые слова обработки исключений: try, except, raise, finally, assert
  • Ключевые слова асинхронного программирования: async, await
  • Ключевые слова обработки переменных: del, global, nonlocal

Что такое подготовка данных

Процесс Подготовка данных содержит набор задач предварительного моделирования. Эти задачи можно классифицировать следующим образом:

  • Очистка данных: исправление или удаление неправильных, поврежденных, отсутствующих, дублирующихся или неполных данных в наборе данных.
  • Выбор функций: определение входных переменных, наиболее релевантных задаче.
  • Преобразование данных: изменение масштаба или распределения данных.
  • Разработка функций: получение новых переменных из доступных данных.
  • Уменьшение размерности. Сокращение количества входных переменных в наборе данных при максимальном сохранении вариации.

Какие конкретные задачи подготовки данных следует использовать, зависит от данных и алгоритмов, которые будут использоваться для моделирования.

Основные ключевые слова Python, используемые в задачах подготовки данных

"импортировать" и "как"

Чтобы не изобретать велосипед при выполнении конкретных задач в своих проектах по науке о данных, вам нужно использовать модули и библиотеки других. Чтобы использовать эти библиотеки, вам необходимо импортировать их в свой код с помощью ключевых слов импорта, таких как 'импортировать', 'как' и >'от'.

import pandas as pd
import numpy as np

В приведенном выше коде импортируются библиотеки pandas и numpy. Мы будем использовать эти модули позже в нашем коде. 'as' ключевое слово здесь помогает нам переименовать модуль. Это особенно полезно при использовании модулей с длинными именами или когда необходимо разделить пространство имен.

'защита'

def используется для определения функции Python. Функции активно используются в проектах по науке о данных. Они помогают нам преобразовать наши большие блоки кода в логические и управляемые части.

Давайте создадим функцию, которая печатает количество отсутствующих элементов в столбце фрейма данных.

def missing_item_count(df):

«за» и «в»

Обычной практикой является циклическое перебор элементов в фрейме данных или в сложном объекте данных, таком как словари или списки. Пара "за" и "в" идеально подходит для таких задач. Ниже вы можете видеть, что мы можем получить столбцы фрейма данных ‘airbnb’ с ключевым словом ‘for’.

Наш цикл начинается с ключевого слова for, затем мы добавляем переменную 'col' для назначения каждому элементу контейнера данных, за которым следует ключевое слово 'in'. . После ключевого слова in, наконец, идет df.columns, который является самим контейнером данных.

airbnb_url = 'https://raw.githubusercontent.com/ManarOmar/New-York-Airbnb-2019/master/AB_NYC_2019.csv'
airbnb = pd.read_csv(airbnb_url)
def missing_item_count(df):
  for col in df.columns:
    missing_item_count = df[col].isna().sum()
    print(f'Column {col} has {missing_item_count} missing items')
missing_item_count(airbnb)
Output:
Column id has 0 missing items 
Column name has 16 missing items 
Column host_id has 0 missing items 
Column host_name has 21 missing items

Теперь внутри цикла for мы можем перебирать элементы в объекте df.column и получать их в переменной 'col'.

«если» и «иначе»

Ключевые слова if, else используются для принятия решений. Блоки кода выполняются в зависимости от значения тестового выражения.

def missing_item_count(df):
  for col in df.columns:
    missing_item_count = df[col].isna().sum()
   
    if pct:
      print(f'Column {col} has {missing_item_count} missing items')
    else:
      print(f'Column {col} has ZERO missing item')
missing_item_count(airbnb)
Output:
Column id has ZERO missing item 
Column name has 16 missing items 
Column host_id has ZERO missing item 
Column host_name has 21 missing items

В приведенном выше коде, если переменная missing_item_count имеет значение True (если в нашем случае это не нулевое целое число), она печатает столбец имя и значение missing_item_count.

Если переменная missing_item_count имеет значение False (если это нулевое целое число),то блок кода внутри ключевого слова else выполняется.

Вот как вы можете управлять потоком кода с помощью ключевых слов if и else.

Ключевые выводы и выводы

  • Ключевые слова Python – это зарезервированные слова, имеющие особое значение и назначение. Вам не нужно импортировать ключевые слова в код, поскольку они всегда доступны.
  • def используется для определения функции Python. Функции активно используются в проектах по науке о данных. Они помогают нам преобразовать наши большие блоки кода в логические и управляемые части.
  • Ключевые слова if, else используются для принятия решений. Блоки кода выполняются в зависимости от значения тестового выражения.
  • Обычной практикой является циклическое перебор элементов в фрейме данных или в сложном объекте данных, таком как словари или списки. Пара "за" и "в" идеально подходит для таких задач.

Я надеюсь, что вы нашли статью полезной и вы начнете использовать приведенные выше ключевые слова в своем собственном коде.