Построение предиктивной модели для прогнозирования цен недвижимости на основе сформированной базы данных

Обложка

Цитировать

Полный текст

Аннотация

Представлено решение актуальной задачи прогнозирования цен на недвижимость с помощью построения предиктивной модели на основе сформированной базы данных по недвижимости в Москве, размещенной на веб-сайте «Move Недвижимость». Рассмотрены существующие методы машинного обучения для решения задачи прогнозирования и применен один из них - множественная линейная регрессия. Проведен регрессионный анализ полученных результатов решения задачи прогнозирования. В качестве управляющих параметров рассматриваются 11 независимых переменных. Исследовано влияние учитываемых при построении модели переменных на результаты решения задачи прогнозирования цен на недвижимость. Определено, какие из независимых переменных оказывают наибольшее влияние на результаты работы модели. Для улучшения качества модели была осуществлена предобработка и стандартизация признаков, а также идентификация выбросов и пропусков значений при формировании базы данных. Коэффициенты модели множественной линейной регрессии определялись с помощью метода наименьших квадратов. Для оценки качества модели проводился анализ следующих параметров модели: R-квадрат, скорректированный R-квадрат, р-значение. Результатом построения предиктивной модели является полученное уравнение регрессии. Применение полученного уравнения может быть использовано для последующего учета конкретных характеристик при решении задачи прогнозирования цен на недвижимость. Показаны преимущества использования данного метода и перспективы применения полученного результата.

Полный текст

Машинным обучением называют совокупность методов и алгоритмов, направленных на автоматическое обучение системы, основываясь на определенных данных [1]. Методы и подходы машинного обучения часто применя- и прикладных задач, в частности для решения задач прогнозирования изменения цен на недвижимость [2-7], поведения клиентов [8-11], динамики рынка ценных бумаг [12-14] и пр. Методы, которые применяются для решения вышеупомянутых задач, относятся к методам машинного обучения и интеллектуального анализа данных, активное развитие и применение которых мы наблюдаем в последнее время [15-16]. В литературе можно встретить работы по прогнозированию цен на московском рынке с точки зрения микро- и макроэкономических показателей [17-18]. Целью данной работы является решение актуальной задачи по построению математической модели на основе методов машинного обучения, для решения задачи прогнозирования динамики цен на недвижимость в Москве на основе данных с сайта о недвижимости. В области машинного обучения широко используется регрессионный анализ [19], одним из наиболее распространенных методов в прогнозировании цен на недвижимость является множественная линейная регрессия [20]. Для использования этого метода необходимо провести анализ нескольких переменных, которые могут повлиять на цену недвижимости. Это позволяет определить, какие из независимых переменных оказывают наи- большее влияние на цену недвижимости. Полученная в результате моделирования модель, построенная на основе реальных данных, позволит предсказать цену недвижимости на основании наиболее значимых факторов, влияющих на ее динамику. На основе сформированной базы данных по объявлениям недвижимости, размещенным на веб-сайте «Move Недвижимость»[9] и обработанным параметрам будет построена предиктивная модель и выведено уравнение регрессии. Для предсказания цены, а также значения и оценки связи между одной зависимой переменной (ценой) и 11 независимыми переменными (количество комнат, площадь, этаж квар- тиры, этаж дома, год постройки, расстояние до метро, тип транспорта до метро, тип продажи, тип квартиры, время до центра города, время до метро) будет использоваться статистический метод - множественная линейная регрессия, которую можно представить в виде следующего уравнения: y= β0 + β1 1x +β2x2 + +βk xk +ε, (1) где y - зависимая переменная, x x1, 2, xk - независимые переменные, β , β ,β ,0 1 2 βk - коэффициенты, а ε - случайная ошибка. Коэффициенты модели множественной линейной регрессии находятся с помощью метода наименьших квадратов[10]. Метод наименьших квадратов (МНК) - это метод оценки параметров линейной регрессии, используемый для минимизации суммы квадратов разностей между наблюдаемыми значениями и значениями, расчет которых производится по модели. Построим первую модель МНК[11], не производя предварительную обработки данных (рис. 1). В результате получается следующее уравнение регрессии: y = 148916981.57767546 + 9426604.6819443*Number rooms + + 18.550068520072813*Square + + 239260.53265802326*Floor sq. + + 73329.76103038796*Floors + (-47231.61525882067*Year) + + 24804.15186899586*Distance metro km + + (-1487711.8963242061*Type transport to metro) + (2) + (-13554120.797380297*Sale type) + + (-41923145.71242697*Flat type) + + (-406837.02772176114*Time to the center (from metro)) + + 61407.48561820931*Time to metro in minutes. Далее будут просмотрены параметры полученной модели, но перед этим определим, что такое R-квадрат (R-squared), скорректиро- ванный R-квадрат (Adj. R-squared), р-значение (P для коэффициентов и Prob (F-statistic) для всей модели)[12]. R-квадрат является статистической мерой, которая оценивает, насколько хорошо выбран- ная модель подходит для наблюдаемых данных и определяется следующей математической формулой: SSres R2 = - = -1 ˆˆ22 1 SSntot = -1 SSSSrestot , (3) y OLS Regression Results ============================================================================== Dep. Variable: Price R-squared: 0.096 Model: OLS Adj. R-squared: 0.096 Method: Least Squares F-statistic: 391.0 Date: Sun, 30 Apr 2023 Prob (F-statistic): 0.253 Time: 13:15:23 Log-Likelihood: -7.6250e+05 No. Observations: 40597 AIC: 1.525e+06 Df Residuals: 40585 BIC: 1.525e+06 Df Model: 11 ============================================================================== coef std err t P>|t| [0.025 0.975] ------------------------------------------------------------------------------ const 1.489e+08 2.15e+07 6.924 0.000 1.07e+08 1.91e+08 x1 9.427e+06 2.21e+05 42.586 0.000 8.99e+06 9.86e+06 x2 18.5501 18.074 1.026 0.305 -16.874 53.975 x3 2.393e+05 3.36e+04 7.120 0.021 1.73e+05 3.05e+05 x4 7.333e+04 2.45e+04 2.988 0.003 2.52e+04 1.21e+05 x5 -4.723e+04 1.06e+04 -4.472 0.000 -6.79e+04 -2.65e+04 x6 2.48e+04 8.06e+04 0.308 0.758 -1.33e+05 1.83e+05 x7 -1.488e+06 5.29e+05 -2.810 0.005 -2.53e+06 -4.5e+05 x8 -1.355e+07 5.22e+05 -25.947 0.214 -1.46e+07 -1.25e+07 x9 -4.192e+07 2.89e+06 -14.481 0.030 -4.76e+07 -3.62e+07 x10 -4.068e+05 1.56e+04 -26.058 0.000 -4.37e+05 -3.76e+05 x11 6.141e+04 1.93e+04 3.185 0.401 2.36e+04 9.92e+04 n 2 где SSres = in=1 ei2 = in=1 (y yi - ˆi ) - сумма квадратов остатков регрессии; y yi , ˆi - фактические и расчетные значения объясняемой пеn ременной; SStot = (yi -yi )2 =n ˆ 2y - общая i=1 1 n сумма квадратов; y= yi . В случае линейной n i=1 регрессии с константой: SStot =SSreg +SSres , n где SSreg = (yˆi -yi )2- объясненная сумма i=1 квадратов. Отсюда возможно получить упрощенное определение R-квадрата как доли объясненной суммы квадратов в общей[13]: SS R2 = reg . (4) SStot R-квадрат может принимать значения от 0 до 1. Значение 0 означает, что выбранная модель не объясняет никакой изменчивости наблюдаемых данных, а значение 1 указывает на идеальное соответствие выбранной модели и наблюдаемых данных. Скорректированный R-квадрат, или скорректированный коэффициент детерминации, является статистической мерой, которая учитывает количество регрессоров (независимых переменных) в модели, и представляет собой измененный коэффициент детерминации R-квадрат, исправленный с учетом числа независимых переменных в модели: 2 1 (1 R2) n-1 , (5) Rскорр = - - n k- -1 где R2 - коэффициент детерминации, n - количество наблюдений (то есть размер выборки), k - количество независимых переменных в модели. С помощью скорректированного R-квадрата можно оценить, насколько хорошо модель соответствует данным, учитывая количество регрессоров. Чем ближе значение скорректированного R-квадрата к 1, тем лучше соответствие модели данным. P-значение - это вероятность получения результата, не менее экстремального, чем наблюдаемый результат, при условии, что нулевая гипотеза верна. Если P-значение меньше предварительно определенного уровня значимости (менее 0,05), то нулевая гипотеза отвергается, что означает, что существует статистически значимая разница между группами или переменными. В противном случае (P более 0,05) нулевая гипотеза не отвергается, что означает, что недостаточно данных, чтобы вынести окончательный вывод. Проверим значимость коэффициентов регрессии βk. Для этого выведем гипотезы[14] для β k для k = 0;11: H0: βk = 0 - коэффициент незначим; H1: βk 0 - коэффициент значим; α = 0,05, Р-значение у коэффициентов βk = (0,000; 0,000; 0,021; 0,003; 0,000; 0,005; 0,030; 0,000) < < α = 0,05, поэтому принимаем гипотезу H1 (коэффициент βk значим с вероятностью 95 % для k = 0, 1, 3, 4, 5, 7, 9, 10). Р-значение у коэффициентов βk = (0,305; 0,758; 0,214; 0,401) > α = 0,05, поэтому принимаем гипотезу H0 (коэффициент βk незначим с вероятностью 95 % для k = 2, 6, 8, 11). Значения параметров, полученные для всей модели: R-squared = 0,096; Adj. R-squared = 0,096; Prob (F-statistic) = 0,253. Вывод: уравнение незначимо при уровне значимости α = 0,05 (0,253 > 0,05), при этом 9,6 % (и 9,6 % по скорректированному R-квадрату) - вариация целевой переменной y = price объясняется вариацией факторов. На следующем этапе после построения первой модели и получения результатов параметров необходимо сделать обработку данных. При проверке данных возможно столкнуться с выбросами[15] (рис. 2) - аномальными значениями, которые необходимо убрать. После предобработки данных (рис. 3) будут построены гистограммы без аномальных значений. Работу с выбросами необходимо проделать со всеми параметрами из базы данных. После обработки построим вторую модель МНК (рис. 4). В результате получается следующее уравнение регрессии: OLS Regression Results ============================================================================== Dep. Variable: Price R-squared: 0.864 Model: OLS Adj. R-squared: 0.857 Method: Least Squares F-statistic: 5496. Date: Sun, 30 Apr 2023 Prob (F-statistic): 0.000 Time: 13:16:04 Log-Likelihood: -4.9302e+05 No. Observations: 38568 AIC: 9.861e+05 Df Residuals: 38568 BIC: 9.862e+05 Df Model: 11 ============================================================================== coef std err t P>|t| [0.025 0.975] ------------------------------------------------------------------------------ Price const -1.314e+07 1.58e+06 -8.321 0.000 -1.62e+07 -1e+07 x1 1.746e+06 3.05e+04 57.188 0.000 1.69e+06 1.81e+06 x2 4.198e+04 1349.681 31.105 0.007 3.93e+04 4.46e+04 x3 4.642e+04 3190.887 14.548 0.000 4.02e+04 5.27e+04 x4 7.913e+04 2324.085 34.049 0.000 7.46e+04 8.37e+04 x5 1.224e+04 766.854 15.957 0.000 1.07e+04 1.37e+04 x6 -1.534e+05 6963.841 -22.030 0.000 -1.67e+05 -1.4e+05 x7 -5.727e+04 4.51e+04 -1.269 0.014 -1.46e+05 3.12e+04 x8 -5.412e+06 4.33e+04 -124.965 0.000 -5.5e+06 -5.33e+06 x9 -2.622e+06 2.97e+05 -8.840 0.000 -3.2e+06 -2.04e+06 x10 -6.022e+04 1289.406 -46.707 0.000 -6.28e+04 -5.77e+04 x11 1.673e+04 2779.242 6.020 0.005 1.13e+04 2.22e+04 y = -13143953.557547348 + + 1746037.573731812*Number rooms + 41982.3071491594*Square + 46420.9958310878*Floor sq. + + 79133.40581343621*Floors + 12236.46452122052*Year + + (-153413.0293165489*Distance metro km) + + (-57272.23972169444*Type transport to metro) + (6) + (-5411948.059501247*Sale type) + + (-2621892.3884117184*Flat type) + + (-60224.83508604619*Time to the center (from metro)) + + (16731.62320475588*Time to metro in minutes). Аналогично проверим значимость коэффициентов регрессии βk. Р-значение у коэффициентов βk = (0,000; 0,000; 0,007; 0,000; 0,000; 0,000; 0,000; 0,014; 0,000; 0,000; 0,000; 0,005) < < α = 0,05, поэтому принимаем гипотезу H1 (коэффициент βk значим с вероятностью 95 % для
×

Об авторах

Полина Александровна Коняева

Российский университет дружбы народов

Email: 1032212116@pfur.ru
магистрант инженерной академии Москва, Россия

Ольга Александровна Салтыкова

Российский университет дружбы народов

Автор, ответственный за переписку.
Email: saltykova-oa@rudn.ru
ORCID iD: 0000-0002-3880-6662
SPIN-код: 3969-6701

кандидат физико-математических наук, доцент департамента механики и процессов управления, инженерная академия

Москва, Россия

Сергей Алексеевич Купреев

Российский университет дружбы народов

Email: kupreev-sa@rudn.ru
ORCID iD: 0000-0002-8657-2282
SPIN-код: 2287-2902

доктор технических наук, профессор департамента механики и процессов управления инженерной академии

Москва, Россия

Список литературы

  1. Алексеев Г. Введение в машинное обучение // Хабр. 2019. URL: https://habr.com/ru/articles/448892/ (дата обращения: 27.03.2023).
  2. Лейфер Л.А., Чёрная Е.В. Массовая оценка объектов недвижимости на основе технологий машинного обучения. Анализ точности различных методов на примере определения рыночной стоимости квартир // Имущественные отношения в Российской Федерации. 2020. №. 3 (222). С. 32-42. EDN: BQRFXJ
  3. Kok N., Koponen E.-L., Martinez-Barbosa C.A. (2017). Big Data in Real Estate From Manual Appraisal to Automated Valuation» // The Journal of Portfolio Management. 2017. Vol. 43. No. 6. P. 202-211. https://doi.org/10.3905/jpm.2017.43.6.202
  4. Ясницкий В.Л. Нейросетевое моделирование в задаче массовой оценки жилой недвижимости города Перми // Фундаментальные исследования. 2015. № 10-3. С. 650-653. EDN: UNXWSX
  5. Сурков Ф.А., Петкова Н.В., Суховский С.Ф. Нейросетевые методы анализа данных в оценке недвижимости» // Известия вузов. Северо-Кавказский регион. Технические науки. 2016. № 3. C. 38-45. https://doi.org/10.17213/0321-2653-2016-3-38-45
  6. Арефьева Е.А., Костяев Д.С. Использование нейронных сетей для оценки рыночной стоимости недвижимости // Известия Тульского государственного университета. Технические науки. 2017. № 10. С. 177-184. EDN: ZVLGJH
  7. 7. Выходцев Н.А. Использование искусственного интеллекта для оценки стоимости недвижимого имущества // Доклады Томского государственного университета систем управления и радиоэлектроники. 2021. Т. 24. № 1. С. 68-72. https://doi.org/10.21293/1818-04422021-24-1-68-72
  8. Арзамасцев С.А., Бгатов М.В., Картышева Е.Н., Деркунский В.А., Семенчиков Д.Н. Предсказание оттока абонентов: сравнение методов машинного обучения // Компьютерные инструменты в образовании. 2018. № 5. С. 5-23. https://doi.org/10.32603/2071-2340-20185-5-23
  9. Радчук М. А., Копытина Е.А. Разработка программного средства для предсказания оттока клиентов с помощью методов машинного обучения // Сборник студенческих научных работ факультета компьютерных наук ВГУ. 2019. С. 190-196. EDN: PSWAXM
  10. Lalwani P., Mishra M.K., Chadha J.S., Sethi P. Customer churn prediction system: a machine learning approach // Computing. 2022. Vol. 104. No. 2. P. 271-294. https://doi.org/10.1007/s00607-021-00908-y
  11. Khodabandehlou S., Zivari Rahman M. Comparison of supervised machine learning techniques for customer churn prediction based on analysis of customer behavior // Journal of Systems and Information Technology. 2017. Vol. 19. Iss. 1/2. P. 65-93. https://doi.org/10.1108/JSIT-10-2016-0061
  12. Андрианова Е.Г., Новикова О.А. Роль методов интеллектуального анализа текста в автоматизации прогнозирования рынка ценных бумаг // Cloud of science. 2018. Т. 5. № 1. С. 196-211. EDN: YUTIIN
  13. Коваленко И.А. Использование искусственного интеллекта на биржевом и внебиржевом рынке ценных бумаг // Вестник науки. 2023. Т. 3. № 6 (63). С. 75-80. URL: https://www.xn----8sbempclcwd3bmt.xn-p1ai/article/8956 (дата обращения: 28.02.2023).
  14. Henrique B.M., Sobreiro V.A., Kimura H. Literature review: Machine learning techniques applied to financial market prediction // Expert Systems with Applications. 2019. Vol. 124. P. 226-251. https://doi.org/10.1016/j.eswa.2019.01.012
  15. Kumbure M.M., Lohrmann C., Luukka P., Porras J. Machine learning techniques and data for stock market forecasting: A literature review // Expert Systems with Applications. 2022. Vol. 197. https://doi.org/10.1016/j.eswa.2022.116659
  16. Mahesh B. Machine learning algorithms-a review // International Journal of Science and Research. 2020. Vol. 9. Iss. 1. P. 381-386. https://doi.org/10.21275/ART 20203995
  17. Сальников В.А., Михеева О.М. Модели прогнозирования цен на московском рынке жилой недвижимости // Проблемы прогнозирования. 2018. № 1 (166). С. 129-139. EDN: YLXJZZ
  18. Cтерник Г.М., Печенкина А.В. Прогноз цен предложения квартир на московском рынке жилья (макроэкономический подход) // Имущественные отношения в Российской Федерации. 2007. № 10. С. 11-18. EDN: JXADIB
  19. Назаров А. Регрессионный анализ в Data Science. Простая линейная регрессия. Библиотека statsmodels // Хабр. 2022. URL: https://habr.com/ru/articles/690414/ (дата обращения: 30.03.2023).
  20. Дронов В. Линейная регрессия с помощью Scikit-Learn в Python // Обучение Python. 2021. URL: https://tonais.ru/library/lineynaya-regressiya-s-pomoschyu-scikit-learn-v-python (дата обращения: 05.04.2023).
  21. Айлин А. Нормализация против стандартизации в линейной регрессии // Машинное обучение. 2023. URL: https://www.baeldung.com/cs/normalizationvs-standardization (дата обращения: 15.04.2023).

© Коняева П.А., Салтыкова О.А., Купреев С.А., 2024

Ссылка на описание лицензии: https://creativecommons.org/licenses/by-nc/4.0/legalcode

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах