Формирование скоринговой модели оценки кредитоспособности корпоративного заемщика. Требования к данным скоринговых моделей Разработка скоринговых моделей


Для построения скоринговых моделей (причем независимо от выбранного математического подхода) берется репрезентативная выборка из предыдущих заявителей (от нескольких тысяч до сотен тысяч - что не проблема для отрасли, обслуживающей десятки миллионов клиентов). Для каждого заявителя из выборки извлекается полная информация из анкеты-заявления и информация из его кредитной истории за фиксированный период времени (обычно 12, 18 или 24 мес.). Затем принимается экспертное решение, какую историю считать приемлемой, т.е. является ли клиент "хорошим" или "плохим". Чаще всего "плохим" считается клиент, не выплативший по кредиту 3 месяца подряд. Всегда оказывается некоторое число клиентов, которых нельзя отнести ни к "хорошим", ни к "плохим", поскольку
они либо недостаточно давно получили кредит (прошло слишком мало времени), либо их кредитная история "неясна" (например, были задержки по 3 месяца, но не подряд). Как правило, такие "промежуточные" клиенты исключаются из выборки.
Эмпирические требования к базе данных, используемых для построения скоринговой модели:
размер выборки - не менее 1500 всего, не менее 500 плохих;
четкое определение критерия "плохой"/"хороший". Далеко не всегда ясно, на каком этапе кредитной истории, по какому признаку и на каком уровне разделять "плохих" и "хороших";
четкое определение временного отрезка - периода жизни продукта (зависит от самого продукта и может меняться от месяца - мобильный телефон до десятилетий - ипотека);
стабильность состава клиентской группы - демография, миграции, сохранение привычек потребления;
неявное, но обязательное требование: стабильность экономических, политических, социальных и прочих условий.
При построении кредитных моделей существенным является выбор временного горизонта - отрезка времени между подачей заявления (выдачей кредита) и классификацией "плохой"/"хороший". Анализ показывает, что процент дефолта как функция длительности нахождения клиента с организацией поначалу растет и только через 12 месяцев (кредитные карты) и даже более (разовые займы) начинает стабилизироваться. Таким образом, меньший временной горизонт приводит к недооценке и не учитывает полностью всех характеристик, предсказывающих дефолт. С другой стороны, временной горизонт более двух лет оставляет модель подверженной к сдвигам в составе клиентской группы в течение этого времени, т.к. как состав клиентов в выборке в начале временного горизонта может оказаться существенно отличным от состава клиентов, приходящих в настоящее время. Фактически используются два единовременных среза (в начале и в конце временного горизонта) для создания модели, которая стабильна по времени (за пределами начального временного отрезка). Это и диктует выбор длины временного отрезка - временного горизонта при моделировании.
Другим чрезвычайно важным и дискутируемым вопросом остается соотношение "хороших" и "плохих" в выборке. Должно ли оно отражать реальное соотношение их в составе населения или их должно быть равное число (такое соотношение резко облегчает построение модели с математической точки зрения)?
Далее построение скоринговой модели превращается в классификационную проблему, где входными характеристиками (или параметрами) являются ответы на вопросы анкеты-заявления и параметры (или данные), получаемые в результате проверок из различных организаций (например, полиции, судов, местных советов, кредитных бюро и т.д.), а выходными характеристиками (ответом) - искомым результатом - является разделение клиентов на "хороших" и плохих" согласно имеющимся кредитным историям, сопоставленным по этим входным характеристикам.
Собственно рейтинговая таблица (scorecard) - это система придания численных баллов (счета) характеристикам (или параметрам) заемщика для получения искомого числового значения, которое отражает, с какой вероятностью у заемщика по отношению к другим заемщикам произойдет некое событие или он совершит определенное действие (аспект "по отношению" в определении очень важен).
Кредитная рейтинговая таблица, например, не показывает, какой уровень риска следует ожидать (скажем, какой процент кредитов данного типа, вероятно, не будет возвращен); вместо этого она показывает, как данный заем, скорее всего, будет вести себя по отношению к другим займам. Например, ожидается ли, что процент невозвратов или дефолтов для кредитов с данным набором атрибутов будет больше или меньше, чем у кредитов с другим набором.
Большинство рейтинговых таблиц построены с помощью расчета регрессионной модели - статистической модели, которая проверяет, как отдельный параметр (характеристика) влияет на другой параметр или (чаще всего) на целый набор других параметров.
Регрессионная модель дает в результате своего применения набор коэффициентов (factors), называемых регрессионными, которые можно интерпретировать как корреляцию между искомыми параметрами (которые необходимо определить) и объясняющими параметрами, сохраняя неизменными все остальные воздействия на искомые параметры. Эти коэффициенты превращаются в веса баллов (point weights) в рейтинговой таблице.
Самый часто используемый метод построения рейтинговых таблиц
Чаще всего для построения рейтинговых таблиц используется статистический метод логистической регрессии. Однако для объяснения этого подхода стоит начать с простой линейной регрессии, а потом перейти к логистической - как особого случая линейной.
В простейшем случае линейная регрессия пытается найти линейную связь между двумя переменными: X и К Переменная Y, которую пытаются спрогнозировать, определяется как зависимая (поскольку она зависит от X). Переменная X является объясняющей, поскольку она "объясняет", почему У меняется от одного индивидуума к другому.
С помощью линейной регрессии пытаются выяснить следующее: если меняется X, то насколько

вероятно, что в результате этого также изменится и К Для того чтобы это сделать, необходим набор данных, в котором можно наблюдать множество пар X и соответствующих ему К Когда они будут отложены на плоскости XY и будет получено некое множество, может оказаться, что оно ложится на некую прямую, т.е. есть определенная связь между X и Y, которую можно попытаться аппроксимировать с помощью уравнения:
Y = B_0 + B_1 x X_1
где
B0 - это величина Y, когда X = 0;
B1 - наклон прямой линии.
Эти В. являются коэффициентами регрессии. На практике, скорее всего, окажется несколько объясняющих переменных:
Y = B_0 + B_1 x X_1 + B_2 x X_2 + ... + B_n x X_n.
Логистическая регрессия в сравнении с линейной регрессией
При использовании скоринга, как правило, зависимая переменная принимает значения в очень небольшом диапазоне. Чаще всего работают с бинарной переменной, т.е. такой, которая принимает только два целых значения: так, например, по кредиту дефолт или произошел, или нет; клиент, получивший каталог по почте или ответил, или нет. Как правило, в таком случае дефолту приписывают значение "1", а выплаченному кредиту - значение "0".
Модель в итоге должна оценить вероятность дефолта по кредиту (или ответа клиента на каталог).
И хотя линейная модель иногда используется для расчета рейтинговой таблицы, логистическая регрессия оказывается много удобнее, поскольку она специально построена для случаев, когда зависимая переменная - бинарная (т.е. принимает, как мы уже говорили, только два значения).
Линейная регрессия может давать значения вероятности и меньше нуля, и больше единицы, что лишено смысла. Логистическая модель избегает этого, поскольку работает не с самим бинарным значением зависимой переменной, а с вероятностью или шансами (odds), что это значение действительно реализуется. Логарифм отношения вероятности реализации к вероятности нереализации называют логитом (logit), который может принимать любые значения, как отрицательные, так и положительные. Поэтому для логитов вполне можно использовать модель линейной регрессии (отсюда и название "логистическая").
В модели логистической регрессии объясняющие переменные, умноженные на свои коэффициенты, предполагаются линейными по отношению не к Y, как в линейной регрессии, а к логиту - натуральному логарифму отношения шансов:
ln (p/(1 - p)) = B_0 + B_1 x X_1 + B_2 x B_2 + X_2 + ... + B_n x X_n, где
р - вероятность того, что V произойдет;
р/(1 - р) - отношение шансов.
Шансы и соотношение шансов
Соотношение шансов позволяет сравнивать уровни рисков для разных кредитов. Так, если для одного р1/(1 - p_1) = 0,11, а для другого р2/(1 - р2) = 0,052, то их отношение составит 0,46, т.е. риск невозврата по одному кредиту составляет чуть меньше половины риска невозврата по второму кредиту.
Самые важные выводы из этого следующие: необходимо получать сами шансы и их отношения для разных кредитов из логистических регрессий, т.к. только так удается прямо сопоставить и учесть как влияние отдельных характеристик на уровень риска, так и относительный риск одного кредита по отношению к другому. Попытки обойтись одной рейтинговой таблицей не позволяют оценить рисковость одного кредита относительно другого в силу возможного влияния характеристик, которые были учтены для одного и не учтены для другого.
Вычисление относительных весов отдельных характеристик рейтинговой таблицы
Построив и оценив логистическую модель, можно подставить величины X для любого заявителя или кредита и вычислить счет (score), используя уравнение:

Однако этот счет представлен в шкале натуральных логарифмов, что неудобно для интерпретации. Поэтому счет переводится в линейную шкалу, где определенное число баллов выбирается так, чтобы это число обеспечивало удвоение шансов того, что определенное событие произойдет. Для этого необходимо умножить счет на множитель, равный числу баллов, которое должно представлять удвоение шансов, а затем поделить на 1n(2):
счет по линейной шкале = (В 1 х Х 1 + ... + Вп х Хп) х (20/1п(2)),
если желаемое число баллов, необходимое для удвоения шансов, равно 20.
Иначе, если надо узнать, сколько именно баллов дает каждая характеристика, можно умножить каждое В_1 на (20/(1n(2)), а затем умножить на значение параметра X_1.
Использование КС-статистики для оценки полученной рейтинговой таблицы
Скоринговая таблица конструируется так, чтобы ранжировать различные кредиты в терминах шансов по отношению к определенному событию. Необходимо, чтобы такая скоринговая таблица приписывала кредитам, с которыми происходит некое событие, и кредитам, с которыми оно не происходит, различные счета.
Например, кредитная скоринговая таблица (скоринговая карта) приписывает меньший счет тем кредитам, которые впоследствии испытают серьезные трудности с возвратом или перейдут в дефолт, так что в целом группа плохих кредитов должна иметь меньшие счета, чем группа хороших кредитов.
Для определения качества полученной таблицы строятся графики - кривые распределения процентов хороших и процентов плохих кредитов (от соответствующего общего числа хороших и плохих) в зависимости от величины счета, и качество скоринговой таблицы (карты) характеризуется тем, насколько эти две кривые разделяются.
Именно для численного определения качества разделения и используется статистика Колмогорова-Смирнова (K-S statistics), которая дает числовую меру этого разделения. Статистика КС вычисляется просто: это максимум разности между кумулятивным процентом распределения "хороших" и кумулятивным процентом распределения "плохих". Теоретически статистика КС может принимать значения от 0 до 100, однако на практике она обычно оказывается в диапазоне от 25 до 75.
Примерная градация выглядит так:
меньше 20 - наверное, скоринговая таблица непригодна к применению;
20-40 - неплохая таблица;
41-50 - хорошая таблица;
51-60 - очень хорошая таблица; />61-75 - поразительно хорошая таблица;
больше 75 - вероятно, слишком хороший результат, чтобы быть правдой, наверное, что-то неправильно* (128).
Следует отметить, что качество скоринговых моделей следует постоянно проверять и мониторинг является обязательной процедурой в процессе эксплуатации. Со временем могут меняться как экономические условия, так и поведенческие особенности заемщиков, и только своевременная подстройка или даже замена скоринговых моделей обеспечат эффективное управление кредитными рисками.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

  • Введение
    • 1.4 Нейронные сети
    • 1.5 CHAID анализ
    • 1.6 Другие методы
    • 2.1 Постановка задачи
    • 3.1 Задача Монжа-Канторовича
    • 3.2 Применение задачи Монжа-Канторовича к скорингу
  • Заключение
  • Список литературы

Введение

Скоринг - это эвристический способ построения рейтингов и классификации различных объектов на группы. Он основывается на предположении о том, что люди со схожими социальными показателями ведут себя одинаково. Он применяется в банковской сфере, маркетинге, страховом деле.

Основной целью традиционного скоринга является классификация клиентов банка на “хороших” и “плохих”, исходя из которой кредитор может выбирать соответствующие действия по отношению к данному клиенту. “Плохого” клиента, к примеру, можно определить как клиента с низкой эмпирической вероятностью возвращения кредита. Но, как правило, такое определение “плохого” клиента расширяется до любого нежелательного банку поведения клиента. Классификация осуществляется на основе скоринговой карты с помощью которой рассчитывается скоринговый балл клиента. скоринг дискриминантный байесовский

Из литературы, посвященной скорингу, отметим несколько работ.

“Руководство по кредитному скорингу” под редакцией Элизабет Мейз, 2008 г. - единственная книга о скоринге на русском языке. Описываются общие понятия, разбираются методы построения скоринговой карты, обсуждается применение скоринга на практике. Книга состоит из статей написанных зарубежными специалистами в области финансов.

Диссертационная работа Сэмюэла Глассона “Метод цензурированной выборки для кредитного скоринга”, 2007 г. В ней исследуются инструменты анализа выживаемости, применительно к кредитному скорингу, в условиях цензурированных данных. Разбирается применение метода линейной регрессии и в частности метода Бакли-Джеймса. Практическая часть работы содержит в себе применение этих методов к оценке времени кредитного дефолта и времени выплаты очередного платежа.

Диссертационная работа Кристины Болтон “Логистические регрессии и их применение в кредитном скоринге”, 2009 г. Разбирается концепция кредитного скоринга применительно к банковскому делу в Южной Африке. Рассматриваются методы построения скоринговой модели с особым акцентом на метод логистической регрессии. Применяется этот метод для создания скоринговой модели.

Диссертационная работа Маттиаса Кремпля “Адаптивные модели и их применение в кредитном скоринге”, 2011. Акцент ставится на изучении методов построения предсказывающих моделей в условиях дрейфа и задержки данных. Представлен новый метод для построения скоринговых моделей, базирующийся на методе дерева принятия решений. Представленный метод применяется для оценки дрейфа в двух наборах реальных финансовых данных.

В приведённых выше работах имеется общая проблема: применение методов к построению скоринговых моделей не обосновано. Отсюда вытекает сомнение в правильности полученных данных. Задача состоит в построении метода, применение которого было бы обосновано. В данной работе представляется метод, решающий эту задачу.

Существует множество подходов к построению скоринговой модели. В главе 1 данной работы описаны методы применяемые в вышеприведённых диссертациях. В главе 2 вводится математическая модель скоринга и разбирается эмпирический Байесовский подход к построению скоринговой модели: подход описывается теоретически, а после применяется к реальным данным банка “Сбербанк России” для построения скоринговой модели. В главе 3 вводится метод, основывающийся на задаче Монжа-Канторовича. Приведено теоретическое обоснование использования данного метода. Затем он применяется для построения скоринговой модели на данных используемых в главе 2.

Глава 1. Методы построения скоринговых моделей

1.1 История появления и развития скоринга

Изначально скоринг разрабатывался с целью автоматизации процесса решения о выдаче кредита. До внедрения скоринга, решение о том, кому выдать кредит в каком размере, принималось кредитным экспертом. Он решал это, опираясь на опыт и собственное мнение, руководствуясь параметрами клиента, влияющими на его кредитоспособность.

В 1940-х годах началось внедрение скоринговых систем. В 1941 Давид Дюран опубликовал первую исследовательскую работу по кредитному скорингу, в которой оценивал роль различных факторов в прогнозирующей системе. После окончания Второй мировой войны, резко вырос спрос на кредитные продукты, и стало ясно, что традиционные методы принятия решения плохо работают в условиях большого числа клиентов. Взрыв спроса на кредиты, отчасти обусловленный введением кредитных карт, мотивировал кредиторов внедрять автоматизированные системы принятия решения о выдаче кредитов. Параллельное развитие вычислительной техники, способствовало этому и давало возможность обрабатывать большие массивы финансовых данных.

В 1956 году была создана компания FICO, занимавшаяся разработками в области потребительских кредитов. В 60-х годах началось внедрение компьютерных технологий в область скоринга. В 1963 году было предложено использование дискриминантного анализа данных для кредитного скоринга. И, наконец, в 1975 с принятием "US Equal Credit Opportunity Act I", скоринг был окончательно признан.

Важным шагом в развитии кредитного скоринга было появление скоринга поведения (behavior scoring) в начале 90-х. Его целью является предсказание выплат уже имеющихся клиентов.

В недавнее время развитие скоринговых систем было обусловлено регулированием со стороны внешней среды. Как часть требований к достаточности капитала, предъявляемых банкам в связи с вступлением в силу второго Базельского соглашения (Basel Committee for Banking Supervision 2001), учреждения должны внимательно следить за рисками, связанными с их кредитными портфелями. Методы кредитного скоринга позволяют это делать.

С момента введения первой скоринговой системы, использовалось множество математических и статистических методов. Среди статистических можно назвать: дискриминантный анализ, линейную регрессию, логистическую регрессию и дерево принятия решений. Другие методы пришли из математики: математическое программирование, нейронные сети, генетические алгоритмы и экспертные системы. Далее мы разберём наиболее распространённые методы и поговорим об их достоинствах и недостатках.

1.2 Линейный дискриминантный анализ и линейная регрессия

Линейный дискриминантный анализ - метод для классификации объектов на заранее определённые категории. Идея в том, чтобы найти такую линейную комбинацию объясняющих переменных, которая наилучшим образом разделила бы объекты на категории. Под разделением наилучшим образом имеется ввиду такое, при котором обеспечивается максимальная дистанция между средними данных категорий. Скоринговый балл рассчитывается как линейная функция от значений атрибутов клиента:

Здесь, - значения атрибутов клиента, - параметры модели, которые максимизируют отношение

где - вектор средних для хороших и плохих клиентов, - общая ковариационная матрица.

Линейный дискриминантный метод предполагает выполнение двух условий. Во-первых, ковариационные матрицы независимых переменных для обеих групп должны совпадать. Во-вторых, независимые переменные должны быть распределены нормально. Часто, в скоринге, независимые переменные дискретные или распределены не нормально. Отсюда, возникают проблемы в применении этого метода. Однако было показано, что даже в случае нарушения нормальности, данный метод широко применим. Его преимуществом можно назвать простоту применения.

Схожий метод линейной регрессии, также используется для формирования скоринговой модели. В случае двух категорий, он эквивалентен методу линейного дискриминантного анализа и выражает зависимость одной переменный (зависимой) от других (независимых). В общем виде представляется так:

Зависимая переменная;

Объясняющие независимые переменные;

Неизвестные коэффициента регрессии, которые находятся методом наименьших квадратов;

Для применения модели линейного скоринга требуется выполнение следующего предположения: связь между зависимой и независимыми переменными должна быть линейной. В противном случае, точность оценки значительно ухудшается. Ошибки же должны быть независимы и распределены нормально.

Как и в случае дискриминантного анализа, в условиях кредитного скоринга, предположения, требуемые для применения линейной регрессии, нередко нарушаются. Линейная регрессия может дать оценку вероятности вне диапазона , что является неприемлемым. К примеру, логистическая регрессия лишена этого недостатка.

1.3 Логистическая регрессия и пробит-регрессия

Данные виды регрессии больше подходят для построения скоринговой модели, так как допускают категорийное представление данных. Модель логистической регрессии задаётся следующим образом:

где - оценка вероятности того, что клиент “плохой”, - вектор неизвестных параметров регрессии, который вычисляется через условие максимизации отношения правдоподобия.

Модель логистической регрессии базируется на функции логарифм. В свою очередь, пробит-регрессия базируется на нормальном распределении и задаётся следующим образом:

где. Вектор находится также как и в модели логистической регрессии.

Так как логистическая регрессия и пробит-регрессия используют схожие по форме распределения, результаты применения данных моделей также схожи. Логистическая регрессия пользуется большим предпочтением, так как вычисления проще, чем в пробит-регрессии и имеется больше инструментов для работы с ней. За счёт своей бинарной природы, логистическая регрессия предпочтительней линейной регрессии в использовании для построения скоринговых моделей. На практике же было выяснено, что разница в точности предсказываемых результатов незначительна. Тем не менее, наблюдается преобладание логистической регрессии в скоринговых системах.

1.4 Нейронные сети

Искусственные нейронные сети являются симуляцией нейронных сетей имеющихся в природе. Возникло это понятие при попытке смоделировать процессы, происходящие в мозге человека.

Нейронные сети, также называемые многослойным перцептроном, особенно подходят для решения задачи классификации. Они широко используются в различных сферах: финансах, компьютерных науках, физике и медицине. Популярность нейронных сетей отчасти обуславливается возможностью моделировать сложные ситуации без особых затрат со стороны использующего этот метод. По своей природе нейронные сети автоматически обнаруживают любую нелинейную ситуацию в данных и подстраиваются под неё. Также многослойные нейронные сети являются универсальными аппроксиматорами, то есть могут аппроксимировать любую функцию сколь угодно точно.

Нейронные сети состоят из слоев которые, в свою очередь, состоят из узлов. Есть 3 типа слоёв в сетях: входной, скрытые, выходной. Входной слой образуют атрибуты клиента, такие как пол, возраст и т.п.

Выход для k-го узла с m входами представляется так:

где - активационная функция, - вектор входных данных, - весовой вектор который обозначает силу связи между узлами.

Основным недостатком является то, что не смотря на возможность добиться высокой точности прогноза, понять причины, по которым было принято то или иное решение, невозможно.

В контексте кредитного скоринга было показано, что нейронные сети работают не хуже традиционных методов.

1.5 CHAID анализ

Данный метод отлично подходит для нахождения связей между данными, особенно если связи нелинейные. Он применяется для построения деревьев принятия решений, и имеет много общего с классическими методами, такими как дискриминантный анализ и линейная регрессия.

Аббревиатура CHAID расшифровывается как Chi-squared Automated Interaction Detector.

Гибкость данного метода делает его привлекательным для использования, но это не означает, что его стоит использовать вместо традиционных методов. В случае, когда встречаются строгие теоретические предположения о распределении, традиционные методы предпочтительней. Как техника исследования или в случае, когда традиционные методы не срабатывают, CHAID анализ является непревзойдённым инструментом.

CHAID строит не бинарные деревья (т.е. деревья у которых может быть более двух ветвей) на основе относительно простого алгоритма, который особенно хорошо подходит для анализа больших массивов данных. Алгоритм основывается на применении теста хи-квадрат.

1.6 Другие методы

Дерево принятия решений.

Метод разделяет данные на подмножества, каждое из которых более однородно в своем поведении, нежели исходное множество данных. Каждое из этих подмножеств делится далее, по такому же алгоритму. Результат деления именуется «листом» это дерева. Имеются и другие методы, работающие по схожему принципу.

Достоинства этого метода - простота и интуитивность. Метод способен работать с отсутствующими наблюдениями. Особенно он применим в случае, когда о данных до их исследования практически ничего неизвестно и нельзя построить какие-либо догадки или гипотезы.

Главный недостаток этого метода - сложность компьютерных расчетов. Вследствие громоздкости получаемых деревьев, процесс изучения модели трудоёмкий. Изменения в ситуации может привести к пересмотру всего дерева решений.

В основном метод используется как вспомогательный. К примеру для определения переменных, которые наиболее сильно объясняют поведение зависимой переменной.

Метод k ближайших соседей. Непараметрический метод классификации объектов. Основывается на метрике, определяющей схожесть между данными.

Первоначально вводятся тренировочные данные, разделенные на классы. Затем вводятся оцениваемые данные и определяется схожесть между введёнными и тренировочными данными. На основе метрики выбирается k ближайших соседей. Новый элемент относят к тому классу, к которому принадлежит большинство его соседей.

Количество соседей k определяется компромиссом между компенсацией и дисперсией. Чем меньше класс, тем меньше выбирается k. При этом необязательно, что при больших k результат будет лучше.

Одно из преимуществ данного метода - легко добавить новые данные, не изменяя при этом модель. Непараметрическая сущность этого метода позволяет работать с иррациональностями в функциях риска на пространстве признаков.

Отсутствие формального метода для выбора k и невозможность вероятностной интерпретации результата, так как результатом являются ожидаемые частоты, являются главными недостатками метода. Данные сложности могут быть решены использованием методом Байесовской аппроксимации.

Данный метод мало используется в скоринге. Одной из причин этого является то, что для классификации одного объекта необходимо иметь базу по всем объектам.

Более новый метод опорных векторов , построенный на машинном обучении, показал себя не хуже традиционных скоринговых методов. Он состоит из двух процессов: первый преобразует входные данные к данным высокой размерности в пространстве признаков; второй классифицирует данные с помощью линейного классификатора. Классификатором может выступать, например, линейный дискриминантный анализ.

1.7 Сравнение различных методов

Был проведён ряд сравнительных исследований для скоринговых методов. Критериями для ранжирования служили процент ошибок при классификации и ROC-кривая. Исследовались 8 наборов данных.

Средняя оценка

Нейронные сети

Опорных векторов

Логистическая регрессия

Линейный дискриминантный анализ

Линейные LS-SVM

Расширенное дерево Байеса

Наивный байесовский классификатор

Радиально базисные функции

k-ближайших соседей (k=100)

Линейный SVM

Квадратичный дискриминантный анализ

Дерево принятия решений

Линейное программирование

Дерево принятия решений

Дерево принятия решений

k-ближайших соседей (k=10)

Дерево принятия решений

Из таблицы видно, что нейронные сети и метод опорных векторов явились наилучшими на исследуемых 8 наборах данных. Кроме того традиционные методы, такие как линейный и дискриминантный анализ показали себя конкурентоспособными. Отсюда следует, что, вероятно, большинство данных для кредитного скоринга лишь немного нелинейны. Вследствие чего линейные методы показали себя на уровне с нелинейными.

Не существует оптимальной скоринговой модели для любой ситуации. Выбор модели зависит от данных и цели, на которую направленно создание модели. Кроме того, метод, оценивающий наилучшим образом, не обязательно будет лучшим в данной ситуации.

Глава 2. Эмпирический Байесовский подход

В данной главе разберём эмпирический Байесовский подход и с помощью него построим скоринговую модель. Построение будем вести исходя из статистики по потребительским кредитам банка “Сбербанк России”.

2.1 Постановка задачи

Предположим, имеется некий банк, занимающийся кредитованием частных лиц. В банк за получением кредита обращаются клиенты. Решение о выдаче кредита банк выносит на основе информации о клиенте.

Информацию о клиенте банк получает из разных источников: от самого клиента, от кредитного бюро и из других источников. Мы будем рассматривать информацию, предоставляемую самим клиентом. Банк получает её через заполненную заемщиком анкету.

В анкете заемщик указывает следующие данные: пол, возраст, семейное положение, наличие детей, ежемесячный доход, наличие недвижимости и прочее.

На основании этих данных разобьём клиентов на группы, в которых они схожи по определённым признакам. Для каждого клиента Байесовским методом найдём рейтинг - эмпирическая вероятность того, что клиент вернёт кредит при условии, что он принадлежит данной группе.

Для применения метода необходимо, чтобы данные удовлетворяли следующим условиям:

· независимость - клиенты не имеют сговора по выплате кредита;

· однородность - данные взяты из одной генеральной совокупности;

· равновероятность - клиенты равновероятно распределяются по группам.

Их выполнение проверяется ниже.

2.2 Построение скоринговой модели

Введем вероятностное пространство. Обозначим в этом пространстве - клиент банка.

Каждый клиент банка имеет набор характеристик согласно заполненной анкете. Например: в браке или нет, уровень дохода, разбитый по категориям, наличие машины и прочие характеристики. Согласно этим характеристикам введём разбиение пространства на множества

Таким образом, множество клиентов разбито на группы.

Введём случайные величины.

Количество клиентов в j-й группе.

Исходя из данных, мы можем построить совместное эмпирическое распределение вероятностей.

где - априорная эмпирическая вероятность события A,

Эмпирическая вероятность события B при условии А,

Эмпирическая вероятность события A при условии B, которую называют апостериорной вероятностью,

Эмпирическая вероятность события B.

Данная формула позволяет переоценить вероятность события A, учитывая тот факт, что произошло событие B.

Из определения условной вероятности можем записать:

Выразив из (1) и подставив в эту формулу выражение для, получим:

2.3 Применение модели к данным

В нашем распоряжении имеются данные о 1977 клиентах банка “Сбербанк России” включаю информацию о том, вернули они кредит или нет.

Для применения Байесовского подхода необходимо убедиться в выполнении 3-х гипотез:

· о независимости - клиенты не имеют сговора по выплате или не выплате кредита;

· об однородности - данные взяты из одной генеральной совокупности;

· о виде распределения - данные распределены равновероятно.

Гипотеза о независимости

Для проверки этой гипотезы воспользуемся ранговым критерием Спирмена. Статистикой данного критерия является коэффициент ранговой корреляции, определяемый следующим образом.

Даны два ряда наблюдений: и. На основании этих наблюдений построим пары рангов. Под рангом понимаем номер места, занимаемого наблюдением в вариационном ряду. Аналогично понимаем ранг. Затем, переставляем пары рангов в порядке возрастания первой компоненты. Получившийся ряд обозначим.

Коэффициент корреляции находится по формуле:

Критическая область критерия. Для нахождения воспользуемся тем, что закон распределения стремится к, при больших n. Отсюда. Здесь - функция распределения стандартного Гауссова закона.

При уровне значимости, =1.959964. Граница критической зоны. Найденный коэффициент корреляции.

Таким образом, статистика критерия не попадает в его критическую область, и мы можем принять гипотезу о независимости при уровне значимости 0.05.

Гипотеза об однородности

Формулируется гипотеза следующим образом. Даны две выборки и из распределений и соответственно, с функциями распределений и. Тогда гипотеза об однородности.

Для проверки данной гипотезы воспользуемся критерием Смирнова.

Статистикой данного критерия является, где - эмпирические функции распределения, построенные по выборкам и. Критическая область задаётся в виде. При больших n и m границу критической области можно принять равной, где. - функция распределения Колмогорова.

Таким образом, гипотеза об однородности отвергается, в случае если. При уровне значимости 0.05 . - граница критической области. Статистика.

Статистика критерия не попадает в критическую область, и мы можем принять гипотезу об однородности при уровне значимости 0.05.

Гипотеза о виде распределения

Сформулируем гипотезу. Нам дана выборка из распределения с функцией распределения, которая неизвестна. Необходимо проверить, что - функция распределения равномерного распределения на отрезке .

Для этого воспользуемся критерием согласия Пирсона.

Статистикой критерия является. Здесь - частота попадания наблюдений в i-й отрезок, - вероятность попадания в i-й отрезок. Если проверяемая гипотеза верна, при больших n статистика подчиняется распределению хи-квадрат с k-1 степенью свободы.

Гипотеза отвергается в случае, если статистика превышает критическое значение.

Значение статистики посчитаем с помощью программного пакета Statistica - =24,19468, k-1=39. Граница критической области при уровне значимости.

Таким образом значение статистики не превышает критического уровня и гипотеза о равномерном распределении клиентов по группам принимается при уровне значимости 0.05.

Итак, данные удовлетворяют всем гипотезам, приведённым выше, и мы можем приступить к нахождению рейтингов.

Имеющиеся данные содержат множество различных характеристик клиентов. Для построения будем использовать 4 из них, наиболее значимых. Взять большее количество элементов нам не позволяет ограниченность нашей выборки (1977 элементов).

Выбранные характеристики: возраст и пол заёмщика, наличие детей, выплаты по кредиту в % от суммарного дохода заёмщика. Характеристика возраст принимает 3 значения - 18-29, 30-45, 46-…; пол заёмщика два значения - мужской и женский; наличие детей два значения - есть дети, и нет детей; выплаты принимают 5 значений - (<5%),(6-10%), (11-16%), (17-22%),(23-55%).

Каждое конкретное значение характеристики назовём свойством заёмщика. Разобьём всех наших клиентов на множества, опираясь на наличие конкретного свойства у данного клиента. К примеру, - множество клиентов у которых нет детей.

Приведём эти обозначения:

Дети, = Нет детей, = Есть дети;

Возраст, =Возр1(18-29), =Возр2(30-45), =Возр3(46-…);

Пол, =Женский, =Мужской;

Выплаты по кредиту в % от суммарного дохода заемщика, =Вып1(<5), =Вып2(6-10), =Вып3(11-16), =Вып4(17-22), =Вып5(23-55).

Образуем новые множества, как комбинацию всех возможных свойств клиента - по всевозможным К примеру, множество состоит из женщин в возрасте 18-29 лет без детей, выплачивающих <5% от своего суммарного дохода. Количество таких множеств равно 60.

Таблица 2.1. Кодировка множеств.

Нет детей

Есть дети

Заметим, что - образуют разбиение всего множества клиентов:

Построим совместное эмпирическое распределение двух дискретных случайных величин - и, где ={0,1}, ={, i=1:60}. Строить его будем как отношение количества клиентов удовлетворяющих паре значений случайных величин (X,Y) к общему количеству клиентов.

Зафиксируем количество клиентов соответствующих каждой возможной паре (X,Y).

Таблица 2.2. Количество клиентов вернувших и не вернувших кредит в каждой группе. 0 - вернули кредит, 1 - не вернули кредит.

Построим совместное эмпирическое распределение вероятностей. Для этого разделим количество клиентов вернувших и не вернувших кредит в каждой из групп на общее количество клиентов.

Таблица 2.3. Совместное эмпирическое распределение вероятностей.

Рисунок 2.1. Эмпирическая функция распределения при X=0.

Рисунок 2.2. Эмпирическая функция распределения при X =1.

Рисунок 2.3. Гистограмма совместного распределения при X=0.

Рисунок 2.4. Гистограмма совместного распределения при X=1.

Найдём эмпирическое распределение вероятностей попадания в каждую из групп. Для этого разделим количество клиентов в каждой группе на общее количество клиентов. Общее количество клиентов.

Таблица 2.4. Эмпирическое распределение вероятностей попадания в каждую группу.

Рисунок 2.5. Гистограмма попадания в группу i.

Исходя из этого, получаем классификацию:

· Клиенты из группы 60 рисковые

· Клиенты из групп 1-5, 7-12, 15, 17, 25, 31, 32, 33, 35-37, 39, 40, 42, 54-56, 58 - среднерисковые

· Клиенты из групп 6, 13, 14, 16, 18-24, 26-30, 34, 38, 41, 43-53, 57, 59 - надежные

Глава 3. Подход, основанный на задаче Монжа-Канторовича

3.1 Задача Монжа-Канторовича

Задача Монжа.

Даны два вероятностных пространства и и неотрицательная измеримая функция на, ...

Подобные документы

    Дискриминантный анализ как раздел многомерного статистического анализа. Дискриминантный анализ при нормальном законе распределения показателей. Применение дискриминантного анализа при наличии двух обучающих выборок. Решение задачи в системе statistika.

    курсовая работа , добавлен 21.01.2011

    Модели дискриминантного анализа. Эффективность классических западных и российских моделей предсказания банкротства. Отраслевая специфика. Описание статей, включающее характеристики выборки, метод, список факторов и прогнозную силу метода анализа.

    реферат , добавлен 24.07.2016

    Основы линейного регрессионного анализа. Особенности использования функции Кобба-Дугласа. Применение множественной линейной регрессии. Сущность метода наименьших квадратов. Пути избегания ложной корреляции. Проверка значимости коэффициентов регрессии.

    реферат , добавлен 31.10.2009

    Экономическая классификация стран, характеристика основных показателей экономического развития. Статистические методы анализа, описание дискриминантного, кластерного, факторного и графического анализа. Параметры исследование экономической безопасности.

    дипломная работа , добавлен 14.10.2013

    История появления функционально-стоимостного анализа, его методика, принципы, задачи и этапы проведения. Использование системного анализа и поэлементной отработки конструкции каждой детали Ю.М. Соболевым. Применение функционально-стоимостного анализа.

    контрольная работа , добавлен 08.04.2012

    Теоретические и методологические основы экономического анализа, его предмет, объект, задачи. Характеристика принципов экономического анализа, подходы и особенности их использования на практике. Определение тенденций развития предприятия на основе анализа.

    курсовая работа , добавлен 20.12.2010

    Сущность и применение метода наименьших квадратов для однофакторной линейной регрессии. Нахождение коэффициента эластичности для указанной модели в заданной точке X и его экономический анализ. Прогноз убыточности на основании линейной регрессии.

    контрольная работа , добавлен 15.06.2009

    Сущность модели Ольсона как одной из наиболее перспективных современных разработок в теории оценки стоимости компании. ЕВО в практической оценке, особенности ее работы в России. Особенности линейной информационной динамики Ольсона и Фельтхама-Ольсона.

    контрольная работа , добавлен 07.04.2011

    Понятие экономической информации, ее сущность и особенности, классификация и разновидности, характеристика и отличительные черты. Сущность, предмет и объекты экономического анализа, цели и задачи. Взаимосвязь анализа с другими науками, его организация.

    шпаргалка , добавлен 05.04.2009

    Методы разработки экономико-математической модели: постановка задачи, система переменных и ограничений. Виды решения экономико-математической модели оптимизации производственной структуры сельскохозяйственного предприятия, анализ двойственных оценок.

Термин «скоринг» в дословном переводе с английского языка означает «подсчет очков». Так называют систему и метод оценки рисков по кредитованию конкретного лица, управления рисками на основе математического прогноза. Банковский скоринг позволяет определить вероятность просрочки выплат, основываясь на информации из кредитной истории и на некоторых других данных. Основным критерием являются баллы, которые раньше начислялись сотрудниками кредитно-финансовых учреждений вручную, а сейчас все чаще рассчитываются специальной программой.

Скоринг эффективно работает в сфере экспресс-кредитования, микрофинансирования, где на рассмотрение заявки у специалиста есть не более часа. В специальную программу заводятся данные потенциального заемщика. Система сравнивает информацию со статистикой. Например, если в базе данных много сведений о том, что люди такого же возраста и/или профессии не возвращали кредиты, то решение может быть отрицательным - банк может отказать без объяснения причин.



Оценка кредитоспособности заемщика − физического лица − в автоматическом режиме основывается на анализе различной информации, среди которой:

  • идентификационные данные . Обрабатываются данные паспорта, фото заявителя. Уже на этом этапе определяются мошенники, лица, имеющие плохую кредитную историю;
  • социальное положение . Учитывается пол, возраст заявителя, его образование и место работы. Принимается во внимание адрес регистрации и проживания, наличие семьи, иждивенцев;
  • финансовое положение . В идеальном варианте необходимо иметь не только достаточный, но и регулярный доход. Некоторые банки учитывают также возможные траты: оплату коммунальных услуг, детского сада и т. д. Многие заявители идут на хитрости, не заявляя об иждивенцах или завышая суммы доходов. При небольших займах это может сработать, но при крупных кредитах банки обычно проверяют данные намного тщательнее;
  • кредитная история . В оценке кредитоспособности физического лица информация по предыдущим займам имеет одно из решающих значений. Определяются непогашенные кредиты, наличие просрочек и время, в течение которого они были выплачены. Если ссуды обслуживались аккуратно, то система выдаст высокую вероятность такого же поведения клиента в будущем, увеличив скоринговый балл. Такой же принцип работает и в обратную сторону;
  • транзакционное поведение . Параметр оценки доступен для заявителей, являющихся клиентами кредитно-финансового учреждения. Держатели пластиковых карт, депозитных счетов, участники зарплатных проектов чаще получают высокую скоринговую оценку. Системой оцениваются суммы, на которые совершаются покупки, категории точек продаж.

Все данные проверяются по отдельности и сравниваются между собой на наличие противоречий. Должна быть связь между доходами и расходами, должностью и местом проживания и т. д.

Непредвзятость . Скоринговая система оценки кредитоспособности оперирует фактами и цифрами, не учитывая личностные особенности человека. Сотрудник офиса, принимающий заявку, не может никаким образом повлиять на алгоритм подсчета. Кредитный эксперт не вправе безосновательно отказать в выдаче ссуды, если программа оценила заемщика как платежеспособное лицо.

Оперативность . Подсчет баллов в ручном режиме выполняется в форме таблицы. В отдельные строки специалист самостоятельно вводит данные и присваивает баллы, ориентируясь только на собственный опыт и знания. Процесс трудоемкий и долгий, заявителям приходится ждать по часу и более. Современные программы подсчитывают скоринговый балл в сотни раз быстрее.

Финансовая выгода . Банки, использующие скоринговую систему оценки кредитоспособности, часто предлагают более выгодные условия предоставления ссуд. Просчет рисков и автоматический отсев возможных неплательщиков значительно снижает долю невозврата, которую обычно закладывают в процентную ставку. Это выгодно и заемщику, и кредитору.

В первую очередь необходимо сформировать хорошую кредитную историю, без просрочек. Если своевременные выплаты невозможны по объективным причинам, необходимо как можно раньше сообщить об этом в банк и доказать временную неплатежеспособность. Большинство кредиторов идут навстречу клиентам, предоставляя отсрочки платежа, делая перерасчет или предлагая другие решения. В этом случае история не будет испорчена отказами выплат. Если негативные строчки в истории уже есть, их можно компенсировать своевременно выплаченными кредитами.

Еще один способ, позволяющий повысить скоринговую оценку кредитоспособности, - наличие депозита. Открытый вклад в банке дает понять, что у клиента есть средства для выплаты. То же самое относится к держателям зарплатных карт, которые обычно имеют высокий балл.

Чтобы повысить оценку, необходимо внимательно отнестись к заполнению заявления. Рекомендуется указывать достоверные контактные данные и предупредить всех, чьи телефоны вы вписываете в анкету. Если сотрудник банка начнет прозвон, он должен дозвониться до всех абонентов. В противном случае информацию могут признать недостоверной и отказать из-за этого в кредитовании.

Если вам отказали в ссуде по причине того, что программа скоринга сочла вас некредитоспособным, не стоит отчаиваться. Возможно, настройки алгоритма неблагоприятны для вас только в этом банке. Чтобы проверить это, попробуйте пройти скоринг в нашего сайта.

Скоринг (от английского score, счет) - это способ оценки кредитоспособности. Вам как заемщику скоринг интересен для самодиагностики: узнать причины отказа в кредитовании или оценить шансы на будущий кредит. В статье расскажем, как узнать свой скоринговый балл и как его увеличить.

Принцип работы скоринга

Для оценки кредитоспособности скорингу нужны данные. Данные могут быть из разных источников: кредитной истории, анкеты заемщика, социальных сетей и т. д. Скоринг обрабатывает данные и выставляет оценку в баллах. Чем выше скоринговый балл, тем выше шансы получить кредит на выгодных условиях.

Скоринговый балл — величина непостоянная. Он меняется в зависимости от действий заемщика. Например, заемщик взял кредит — выросла кредитная нагрузка и скоринговый балл снизился. Просрочил платеж — балл упал еще ниже. Если заемщик аккуратно без просрочек выплатит кредит — балл увеличится.

Виды скоринга

Банки используют заявочные, поведенческие и мошеннические скоринги.

Заявочный скоринг делится на социодемографический и кредитный. Первый анализирует анкету заемщика: возраст и пол, работу, стаж, размер доходов. Второй анализирует кредитную историю: сколько кредитов брал заемщик, как платил, сколько платит сейчас и т. д.

Поведенческий скоринг предсказывает, как заемщик будет выплачивать кредит: равномерно, с опережением или с просрочками. Поведенческий скоринг может провести, например, зарплатный банк — он знает, как заемщик пользуется картой, сколько денег и на что тратит.

Мошеннический скоринг борется с намеренными невыплатами кредитов. Этот скоринг анализирует базы МВД, ФССП, внутренней службы безопасности, а также подозрительные данные в кредитной истории, например, частую смену адресов и телефонов.

Вы как заемщик можете оценить себя двумя видами скоринга: кредитным и социодемографическим.

Кредитный скоринг

Кредитный скоринг используется для оценки заемщиков, которые уже брали кредиты. Скоринговый балл рассчитывается на основе анализа кредитной истории.

Пример отчета кредитного скоринга

Социодемографический скоринг

Социодемографический скоринг предназначен для заемщиков с пустой или отсутствующей кредитной историей. Он анализирует возраст, пол, семейное положение, наличие иждивенцев, образование, профессию, трудовой стаж, доходы и регион проживания.

Соцдем скоринг сверяет данные проверяемого заемщика с предыдущими клиентами банка, чтобы оценить благонадежность. Например, по статистике банка люди старше 30 лет вносят платежи по кредитам стабильнее, чем молодежь. Поэтому заемщики от 30 лет при прочих равных условиях получают более высокий скоринговый балл.


Пример отчета социодемографического скоринга

Расшифровка скоринговых баллов

Кредитный Социодемогр. Расшифровка
690-850 1000-1200 Максимальный результат. Вы относитесь к категории надежных заемщиков. Таким банки охотно одобряют кредиты на лучших условиях
650-690 750-1000 Хороший результат. Высокая вероятность получить кредит на стандартных условиях.
600-650 500-750 Приемлемый результат. Банк потребует дополнительные справки для подтверждения платежеспособности, например, 2-НДФЛ.
500-600 250-500 Слабый результат. С таким баллом вы вряд ли получите кредит в крупных банках. Обратитесь в небольшие региональные банки или кредитные кооперативы.
300-500 0-250 Худший результат. В банках кредит вряд ли одобрят. Обращайтесь в МФО или КПК. Предложите кредитору залог.

Как повысить скоринговый балл

Если у вас низкий кредитный скоринг, вариант его повышения один — улучшать кредитную историю. Для этого:

  • и проверьте, все ли в ней соответствует действительности. Иногда кредитные организации передают данные с большим опозданием, а то и вовсе не передают. Например, вы кредит погасили, а в кредитной истории он числится открытым. Это снижает скоринговый балл.
    Читайте статью
  • Закройте просрочки платежей и необязательные кредиты: кредитные карты, микрозаймы, кредиты на технику. Чем меньше открытых кредитов, тем выше скоринговый балл.
  • Если за последние два года у вас были кредиты с просрочками, нужно восстановить репутацию надежного заемщика. Для этого берите новые кредиты и аккуратно их выплачивайте. Не дают кредит без обеспечения — предоставьте залог, найдите созаемщика. Воспользуйтесь услугой . Через полгода-год скоринговый балл увеличится.

Чтобы увеличить балл социально-демографического скоринга, изучите «факторы» из отчета и постарайтесь их исправить. Например, если вы ИП, трудоустройтесь и проработайте полгода в найме. Найдите созаемщика, съездите за границу, найдите источник дополнительного дохода.

Запомнить

Скоринг помогает заемщикам оценить собственную кредитоспособность и разобраться в причинах банковских отказов.

Скоринги бывают разные: одни анализируют кредитную историю, другие анкету, третьи ищут признаки мошенничества. Вам доступны два вида скоринга — и социодемографический. Первый актуален для заемщиков с опытом кредитования, второй — для тех, кто никогда не брал кредиты.

Скоринговый балл меняется в зависимости от кредитного поведения. Балл можно снизить или повысить.

Исторически скоринг как подход был впервые использован в биологических исследованиях во второй половине 30-х гг. 20 века для сортировки объектов, которые было невозможно рассортировать на основании какого-либо одного признака, а другим способом или сильно затруднено, или даже невозможно. К примеру, так сортировались черепа (по принадлежности одному или другому племени) или луковицы ирисов (по принадлежности тому или иному сорту).

Термин «скоринг » означает математический подход, с помощью которого на основании набора известных (или измеряемых) характеристик объекта прогнозируется определенная искомая характеристика, которую на момент оценки прямо измерить невозможно, при этом намеренно избегается поиск каких-либо причинно-следственных связей.

Кредитный скоринг - это использование скоринговых решений в процессе кредитования, причем как физических лиц, так и юридических (особенно предприятий малого и среднего бизнеса).

Первостепенная задача, которую решают при кредитовании с помощью скоринга, - это управление рисками .

Spiegel - большой американский ритейлер - весьма рано начал использовать кредитный скоринг. Другой такой фирмой стала Household Finance Corp. Уже в 1946 г. ее президент Е.Ф. Вандерлик разработал Credit Guide Score для оценки новых заявителей, однако внедрение шло с трудом (впоследствии менеджеры его филиалов признавались, что они сначала выдавали кредиты, а потом подгоняли баллы, чтобы оправдать принятое решение).

В 1956 г. на американском финансовом рынке произошло событие, которое кардинально изменило ситуацию в сфере кредитного скоринга. Американцы - инженер Бил Файр и математик Эрл Айзек, работавшие в Стэнфордском исследовательском институте, придумали первую кредитную скоринговую модель . Партнеры разработали математический алгоритм, вычисляющий уровень кредитоспособности заемщика в цифровом выражении. Другими словами, алгоритм позволяет просчитывать кредитные риски в виде трехзначного числа, которое является кредитным рейтингом. Они организовали компанию Fair, Isaac and Company (в 2003 г. она была переименована в Fair Isaac Corporation, а в 2009 г. - FICO).

В России массовое использование скорингов в розничном кредитовании также стало уже повсеместной практикой. Российские банки активно используют и внешние скоринги FICO, и собственные скоринговые карты, разработанные в том числе и с помощью американских консультантов.

В семидесятые годы прошлого века, с одной стороны, началось бурное развитие средств вычислительной техники, а с другой - бум кредитования. И тогда скоринговые системы начало внедрять у себя большинство банков. Более того, некоторые из них разработали собственные системы, не прибегая к помощи сторонних компаний.

Когда в середине девяностых годов в России началось постепенное внедрение скоринговых систем, то отечественные банки столкнулись с дилеммой: разрабатывать их самостоятельно или покупать у западных производителей. Спустя 15 лет появился и третий вариант: отдать скоринг на аутсорсинг.

С 29 июля 2013 г. Сбербанк при выдаче розничных кредитов использует интегральную оценку заемщика, которая основана на Скоринг Бюро 3 поколения (сервис предоставляется Объединенным Кредитным Бюро (ОКБ)) и системе внутреннего скоринга самой кредитной организации.

Тестирование сервиса показало, что совместное использование двух скоринговых моделей дает дополнительный эффект, повышая качество интегральной модели банка более чем на 10%.

С появлением в конце 60-х гг. кредитных карт и банки, и другие эмитенты поняли полезность кредитного скоринга. Большое количество клиентов, подающих заявки на кредитные карты каждый день, сделало невозможным - ни экономически, ни с точки зрения трудозатрат - никакое другое решение, кроме как автоматизация принятия решения о кредитовании. При использовании кредитного скоринга эти организации быстро обнаружили, что эта методика является существенно более надежным прогнозом, нежели экспертные оценки (процент дефолтов снизился на 50% и более).

Виды кредитного скоринга

Как правило, выделяют минимум три области применения кредитного скоринга:

  1. скоринг заявлений (application scoring);
  2. поведенческий скоринг (behaviour scoring);
  3. скоринг по взысканию (collection scoring).

Скоринг заявлений - это определение кредитоспособности (уровня риска дефолта) заявителя при принятии решения о предоставлении кредита на основании данных, доступных в момент подачи заявления, - информации собственно из заявления, собственных данных кредитной организации, данных из кредитного бюро, а также других доступных баз данных (например, по утерянным паспортам).

При этом принимается не только решение о предоставлении кредита, но и о размере и условиях кредитования.

После того как кредит выдан, необходимо отслеживать его использование и возврат. И если в случае кредитов с фиксированными условиями, т.е. ключевым является определение кредитоспособности клиента на момент выдачи кредита, то для кредитной линии - в том числе револьверной кредитной карты - ситуация отличается коренным образом. Неизвестно, как клиент будет пользоваться кредитом - сразу выберет весь кредитный лимит или только его часть, как будет возвращать - сразу все или только минимальный установленный платеж, и не изменится ли его кредитоспособность через шесть месяцев или через год. И это - область поведенческого скоринга , где под этим названием на самом деле скрывается целый набор решаемых задач.

В первую очередь это оценка риска просрочки платежа и/или невозврата и определение тех действий, которые необходимо предпринять, - в этом поведенческий скоринг переходит в скоринг по взысканию (collection scoring).

Следующей задачей, решаемой в рамках поведенческого скоринга, является определение доходности/убыточности клиента для кредитной организации. Для этого отслеживается история его транзакций на протяжении определенного отрезка времени (например, шести месяцев) и согласно установленным критериям определяется его «ценность», а потом на основании уже известных клиентских историй и профилей клиентов прогнозируется будущая «доходность» клиентов, находящихся в кредитном портфеле в данный момент.

В этом же классе определение таких важных параметров клиентов, как вероятность их ухода (attrition), склонность их к использованию данного или других продуктов (propensity), а также к увеличению объемов использования (up-sale) или приобретения других продуктов (cross-sell).

Следует сделать два крайне важных замечания:

1) данные по транзакциям используются для выявления и предотвращения мошенничества (и это тоже относят к поведенческому скорингу);

2) для поведенческого скоринга все в большей степени используются данные не только по конкретному счету (продукту), а весь комплекс данных по клиенту, т.е. как именно он пользуется всем набором используемых продуктов.

Прагматический подход, т.е. отказ от поиска причинно-следственных связей между параметрами и использование выявленных зависимостей между параметрами для прогнозирования поведения клиента (вероятности дефолта по кредиту), вызывает у многих довольно сильное отторжение и приводит к определенным законодательным ограничениям в этой области в некоторых странах.

Основы разработки рейтинговой таблицы, ее проверки и настройки

Несмотря на то что, у каждого банка своя «система ценностей», ни один банк не обходится без типичных скоринговых вопросов.

1. Личные данные . Пол, возраст, семейное положение, наличие или отсутствие иждивенцев, образование.

Пол . Система с большей симпатией относится к женщинам, так как по статистике слабый пол более ответственно подходит к погашению своих обязательств.

Возраст . Наиболее привлекательным для банка является клиент в возрасте от 25 до 45 лет. Чем дальше человек находится от этого возрастного диапазона, тем меньше его балл.

Семейное положение . Как правило, наличие семьи, даже в том случае, если отношения не узаконены формально, является плюсом. Стабильные отношения, планирование бюджета, с точки зрения банка, дисциплинируют потенциального заемщика.

Иждивенцы . Если у потенциального заемщика всего один ребенок, это, как правило, не лишает балла, однако чем больше детей, тем ниже балл.

Образование . Человек со средним образованием воспринимается как недостаточно успешный и стабильный, потенциально способный пренебречь своими обязательствами по кредиту, в отличие от человека, получившего высшее образование.

2. Финансовые показатели . Общий трудовой стаж, общий стаж на последнем или последних двух-трех местах работы, профессия, уровень заработной платы и общих расходов.

Чем стабильнее человек в плане своего трудоустройства , тем выше его балл. Частая смена мест работы, непродолжительность работы на каждом из них говорят о нестабильности потенциального заемщика и, как следствие, его дохода.

Тип профессии . Наиболее привлекательными для банка являются специалисты, рабочие, госслужащие, руководители среднего звена (постоянная работа по найму). Недолюбливают банкиры руководителей компаний, финансовых директоров, нотариусов (занимающихся частной практикой), а также владельцев и совладельцев бизнеса. Важно понимать, что в отличие от наемных сотрудников собственник своего дела не имеет ежемесячного фиксированного дохода. То же можно сказать об индивидуальных предпринимателях - таким заемщикам лучше подавать документы как физическим лицам.

Несомненно, банк обратит внимание на соотношение расходов и доходов . С одной стороны, система анализирует, насколько сопоставимы расходы на оплату кредита с финансовыми возможностями клиента и не будет ли обременительным для него дополнительный кредитный договор. С другой стороны, если заемщик заявляет о высоких доходах, но при этом запрашивается незначительная сумма, это вызывает как минимум настороженность. Для чего человеку с доходом в 50 тыс. руб. кредит в 6 тыс.?

Очень внимательно банки относятся к наличию ранее взятых и непогашенных кредитов . Если у заемщика уже имеются ежемесячные выплаты по кредитному договору, то банк спрогнозирует платежеспособность человека с очень большим (для себя) запасом.

3. Сопутствующая информация .

Дополнительный источник дохода (дополнительное место работы, доход созаемщика), наличие автомобиля, гаража, дачи, земельного участка в личной собственности, несомненно, добавят баллов. Примерно также обстоят дела с уже имеющимися погашенными кредитами: отсутствие былых просрочек, своевременное погашение своих обязательств перед кредитной организацией, отсутствие текущих просрочек воспринимаются положительно. Чем больше баллов заемщик набрал, тем больше он нравится банку.

В настоящее время кредитный скоринг основывается на методах статистических исследований или исследований операций (operational research). Статистические подходы включают в себя дискриминационный анализ, в основе которого лежат линейная регрессия и более эффективная логарифмическая регрессия и классификационные деревья (classification trees), иногда называемые алгоритмами рекурсивного разделения. Методы исследования операций включают в себя определенные варианты линейного программирования. Большинство разработчиков скоринговых моделей применяют один или несколько вышеуказанных методов, часто в комбинации. Кроме того, в разработке скоринговых моделей используется ряд методов непараметрической статистики и подходы моделирования с помощью «искусственного интеллекта». Так, в последние десятилетия испытывались подходы нейронных сетей, экспертных систем, генетических алгоритмов и методы «ближайших соседей». Весьма интересно, что к одной и той же классификационной проблеме применяются столь разнообразные методы. Отчасти это обусловлено исключительно прагматическим подходом к проблеме снижения риска при выдаче кредитов: если работает - надо использовать! Цель - спрогнозировать, кто не справится с возвратом, а не дать объяснение, почему не справится, или подтвердить ту или иную гипотезу о связи между невыплатой и определенными экономическими или социальными параметрами (что отчасти и спровоцировало бурные обсуждения и принятие акта ECOA).

Построение скоринговых моделей

Для построения скоринговых моделей (причем независимо от выбранного математического подхода) берется репрезентативная выборка из предыдущих заявителей (от нескольких тысяч до сотен тысяч - что не проблема для отрасли, обслуживающей десятки миллионов клиентов). Для каждого заявителя из выборки извлекается полная информация из анкеты-заявления и информация из его кредитной истории за фиксированный период времени (обычно 12, 18 или 24 мес.). Затем принимается экспертное решение, какую историю считать приемлемой, т.е. является ли клиент «хорошим» или «плохим».

Эмпирические требования к базе данных, используемых для построения скоринговой модели:

  • размер выборки - не менее 1500 всего, не менее 500 плохих;
  • четкое определение критерия «плохой/хороший»;
  • четкое определение временного отрезка - периода жизни продукта (зависит от самого продукта и может меняться от месяца - мобильный телефон до десятилетий - ипотека);
  • стабильность состава клиентской группы - демография, миграции, сохранение привычек потребления;
  • неявное, но обязательное требование: стабильность экономических, политических, социальных и прочих условий.

При построении кредитных моделей существенным является выбор временного горизонта - отрезка времени между подачей заявления (выдачей кредита) и классификацией «плохой/хороший». Анализ показывает, что процент дефолта как функция длительности нахождения клиента с организацией поначалу растет и только через 12 месяцев (кредитные карты) и даже более (разовые займы) начинает стабилизироваться. Таким образом, меньший временной горизонт приводит к недооценке и не учитывает полностью всех характеристик, предсказывающих дефолт. С другой стороны, временной горизонт более двух лет оставляет модель подверженной к сдвигам в составе клиентской группы в течение этого времени, т.к. как состав клиентов в выборке в начале временного горизонта может оказаться существенно отличным от состава клиентов, приходящих в настоящее время. Фактически используются два единовременных среза (в начале и в конце временного горизонта) для создания модели, которая стабильна по времени (за пределами начального временного отрезка). Это и диктует выбор длины временного отрезка - временного горизонта при моделировании.

Далее построение скоринговой модели превращается в классификационную проблему, где входными характеристиками (или параметрами) являются ответы на вопросы анкеты-заявления и параметры (или данные), получаемые в результате проверок из различных организаций (например, полиции, судов, местных советов, кредитных бюро и т.д.), а выходными характеристиками (ответом) - искомым результатом - является разделение клиентов на «хороших и плохих» согласно имеющимся кредитным историям, сопоставленным по этим входным характеристикам.

Собственно рейтинговая таблица (scorecard) - это система придания численных баллов (счета) характеристикам (или параметрам) заемщика для получения искомого числового значения, которое отражает, с какой вероятностью у заемщика по отношению к другим заемщикам произойдет некое событие или он совершит определенное действие (аспект «по отношению» в определении очень важен).

Кредитная рейтинговая таблица , например, не показывает, какой уровень риска следует ожидать (скажем, какой процент кредитов данного типа, вероятно, не будет возвращен); вместо этого она показывает, как данный заем, скорее всего, будет вести себя по отношению к другим займам. Например, ожидается ли, что процент невозвратов или дефолтов для кредитов с данным набором атрибутов будет больше или меньше, чем у кредитов с другим набором.

Большинство рейтинговых таблиц построены с помощью расчета регрессионной модели - статистической модели, которая проверяет, как отдельный параметр (характеристика) влияет на другой параметр или (чаще всего) на целый набор других параметров.

Регрессионная модель дает в результате своего применения набор коэффициентов (factors), называемых регрессионными, которые можно интерпретировать как корреляцию между искомыми параметрами (которые необходимо определить) и объясняющими параметрами, сохраняя неизменными все остальные воздействия на искомые параметры. Эти коэффициенты превращаются в веса баллов (point weights) в рейтинговой таблице.

Следует отметить, что качество скоринговых моделей следует постоянно проверять и мониторинг является обязательной процедурой в процессе эксплуатации. Со временем могут меняться как экономические условия, так и поведенческие особенности заемщиков, и только своевременная подстройка или даже замена скоринговых моделей обеспечат эффективное управление кредитными рисками.