1. Введение

1.1. Цель

Целью этого упражнения является разработка модели глубокого обучения (многослойный персептрон) для прогнозирования вероятности дефолта клиента по кредиту. Предварительно одобренный кредит означает, что кредитор уже оценил финансовое положение и кредитную историю заявителя. Следовательно, время обработки кредита короткое, а выплата быстрая.

В объяснимости модели выделяют 3 стадии:

· Выбор функций (раздел 2)

· Выбор модели (раздел 3)

· Объяснимый вывод (раздел 4)

1.2. Данные

Имеется 68 294 наблюдения и 10 столбцов (см. приложение A). Есть 4 категориальных переменных, 5 числовых переменных и 1 зависимая переменная.

1.3. Зависимая переменная

Модель разработана на основе 68 294 наблюдений. Есть 61 770 (90,4%) не по умолчанию и 6 524 (9,6%) по умолчанию.

2. Выбор функций

2.1. Категориальные переменные

На основе ставки по умолчанию категории объединяются вместе. На приведенной ниже диаграмме показана ставка по умолчанию для объединенных категорий.

2.2. Численное значение

Деревья решений используются для бинирования числовых переменных (максимальная глубина дерева составляет 3, а минимальный лист выборки — 1360). На основе скорости по умолчанию ячейки объединяются вместе. На приведенной ниже диаграмме показана ставка по умолчанию для комбинированных ячеек.

Сумма и продолжительность не используются в модели, поскольку они не являются монотонными по своей природе.

2.3. Мульти коллинеарность

Матрица корреляции используется для определения того, коррелируют ли переменные друг с другом. Наблюдается, что корреляция между независимыми переменными составляет более -0,7 и менее 0,7. Следовательно, мультиколинеарности нет.

3. Многослойный персептрон

3.1. Методология

Глубокое обучение — это наука, которая позволяет компьютерам учиться так же, как люди, в частности, извлекать закономерности из информации. Машинное обучение имеет контролируемые, неконтролируемые и полуконтролируемые алгоритмы. Глубокое обучение является частью машинного обучения. Существуют определенные алгоритмы, которые являются частью глубокого обучения. Глубокое обучение состоит из набора слоев, состоящих из нейронов и функции активации.

· Алгоритм с учителем: обучение алгоритму с использованием входных и выходных данных. Результатом является этикетка, идентифицирующая мошенничество, а не мошенничество.

· Извлечение функций. Извлечение наиболее ценных функций.

3.2. Гиперпараметры

GridSearchCV исчерпывающе рассматривает все комбинации параметров. Он используется для настройки гиперпараметров оценщика. Экземпляр GridSearchCV реализует обычный API оценки, при «подгонке» его к набору данных оцениваются все возможные комбинации значений параметров и сохраняется наилучшая комбинация.

Оптимальные гиперпараметры определяются с помощью итеративного процесса (см. приложение B). Лучшие гиперпараметры:

· hidden_layer_sizes:4,4,4 (i-й элемент представляет количество нейронов в j-м скрытом слое). В модели есть 3 скрытых слоя, и каждый слой имеет 4 нейрона.

· активация:логистика (Функция активации для скрытого слоя. Логистическая сигмоидальная функция возвращает f(x) = 1 / (1 + exp(-x)))

· решатель:lbfgs (решатель для оптимизации веса. Оптимизатор lbfgs относится к семейству квазиньютоновских методов)

3.3. Резюме модели

· Отмечено, что пороговое значение составляет 0,55. Отсечка определяется на основе Точности.

· Модель имеет точность 0,933 (точность = (истинно положительный + истинно отрицательный) / все)

· Модель имеет показатель F1 0,518(F1 = 2 * (точность * полнота) / (точность + полнота))

· Модель имеет AUROC 0,803 (показывает, насколько хорошо модель способна различать хорошее и плохое).

4. Объяснимость модели

4.1. Отношение

Для каждой из объединенных переменных вмененное значение и направление показаны ниже. Наблюдается монотонный тренд для всех независимых переменных.

4.2. Количество комбинаций

Всего 56 комбинаций (7 х 2 х 2 х 2 = 56). Оценка (7 бинов), Тип счета (2 бина), Платеж (2 бина) и Месяц (2 бина). Для каждой из комбинаций вычисляется прогнозируемая PD (см. приложение C).

4.3. Пользовательский интерфейс

Поскольку в модели используются категориальные переменные и группированные числовые переменные, можно получить все возможные комбинации входных данных. Для каждой комбинации входных данных рассчитывается прогнозируемый PD.

· Входные данные: Счет (TU) — числовой бин, Тип счета — категория, Тип платежа — категория и Месяц — числовой бин выбираются из выпадающего меню.

· Выходные данные: вероятность дефолта (PD) и решение. Если PD > 0,55, то ПЛОХОЕ, иначе ХОРОШЕЕ.

· Интерпретируемость: каждое наблюдение получает свои собственные прогнозируемые значения. Это помогает объяснить, почему случай получает свой прогноз и вклад (направление) предикторов.

5. Приложение

5.1. А — переменные

Категориальные переменные:

· id — идентификатор аккаунта заявителя (не используется при разработке модели)

· Оплата — код способа оплаты (1, 2, 3, 4, 5, 7, 8, 9, 8A, 8P, 9B, 9P и UR)

· Тип учетной записи — код типа учетной записи (A, B, C, D, F, G, H, I, L, M, N, P, R, S, T и U).

· Тип платежа — код типа платежа (B и U).

Числовые переменные:

· Год —год, когда был взят кредит(не используется при разработке модели)

· Месяц — месяц, когда был взят кредит

· Оценка — оценка Trans Union (TU) (внешняя оценка).

· Сумма — сумма кредита в долларах США.

· Длительность — продолжительность кредита в месяцах.

5.2. B — Гиперпараметры

Гиперпараметры управляют подгонкой и подгонкой модели. Для каждого предложенного значения гиперпараметра модель оценивается. Выбираются гиперпараметры, дающие наилучшую модель.

5.3. С — Комбинации

Есть 56 комбинаций. Для каждой из комбинаций рассчитывается прогнозируемый PD.