Building a Predictive Model for Predicting Real Estate Prices Based on the Generated Database

Abstract

The work is devoted to solving the current problem of forecasting real estate prices by building a predictive model based on the generated database of real estate in Moscow, posted on the Move Real Estate website. Existing machine learning methods for solving the forecasting problem are considered and one of them is applied - multiple linear regression. A regression analysis of the obtained results of solving the forecasting problem was carried out. Eleven independent variables are considered as control parameters. The influence of the variables taken into account when constructing the model on the results of solving the problem of forecasting real estate prices was studied. It was determined which of the independent variables have the greatest impact on the results of the model. To improve the quality of the model, preprocessing and standardization of features were carried out. Identification of outliers and omissions of values was carried out during the formation of the database. The coefficients of the multiple linear regression model were determined using the least squares method. To assess the quality of the model, the following model parameters are analyzed: R-squared, adjusted R-squared, p-value. The result of constructing a predictive model is the resulting regression equation. The application of the resulting equation can be used to subsequently take into account specific characteristics when solving the problem of forecasting real estate prices. The work shows the advantages of using this method and the prospects for applying the obtained result.

Full Text

Машинным обучением называют совокупность методов и алгоритмов, направленных на автоматическое обучение системы, основываясь на определенных данных [1]. Методы и подходы машинного обучения часто применя- и прикладных задач, в частности для решения задач прогнозирования изменения цен на недвижимость [2-7], поведения клиентов [8-11], динамики рынка ценных бумаг [12-14] и пр. Методы, которые применяются для решения вышеупомянутых задач, относятся к методам машинного обучения и интеллектуального анализа данных, активное развитие и применение которых мы наблюдаем в последнее время [15-16]. В литературе можно встретить работы по прогнозированию цен на московском рынке с точки зрения микро- и макроэкономических показателей [17-18]. Целью данной работы является решение актуальной задачи по построению математической модели на основе методов машинного обучения, для решения задачи прогнозирования динамики цен на недвижимость в Москве на основе данных с сайта о недвижимости. В области машинного обучения широко используется регрессионный анализ [19], одним из наиболее распространенных методов в прогнозировании цен на недвижимость является множественная линейная регрессия [20]. Для использования этого метода необходимо провести анализ нескольких переменных, которые могут повлиять на цену недвижимости. Это позволяет определить, какие из независимых переменных оказывают наи- большее влияние на цену недвижимости. Полученная в результате моделирования модель, построенная на основе реальных данных, позволит предсказать цену недвижимости на основании наиболее значимых факторов, влияющих на ее динамику. На основе сформированной базы данных по объявлениям недвижимости, размещенным на веб-сайте «Move Недвижимость»[9] и обработанным параметрам будет построена предиктивная модель и выведено уравнение регрессии. Для предсказания цены, а также значения и оценки связи между одной зависимой переменной (ценой) и 11 независимыми переменными (количество комнат, площадь, этаж квар- тиры, этаж дома, год постройки, расстояние до метро, тип транспорта до метро, тип продажи, тип квартиры, время до центра города, время до метро) будет использоваться статистический метод - множественная линейная регрессия, которую можно представить в виде следующего уравнения: y= β0 + β1 1x +β2x2 + +βk xk +ε, (1) где y - зависимая переменная, x x1, 2, xk - независимые переменные, β , β ,β ,0 1 2 βk - коэффициенты, а ε - случайная ошибка. Коэффициенты модели множественной линейной регрессии находятся с помощью метода наименьших квадратов[10]. Метод наименьших квадратов (МНК) - это метод оценки параметров линейной регрессии, используемый для минимизации суммы квадратов разностей между наблюдаемыми значениями и значениями, расчет которых производится по модели. Построим первую модель МНК[11], не производя предварительную обработки данных (рис. 1). В результате получается следующее уравнение регрессии: y = 148916981.57767546 + 9426604.6819443*Number rooms + + 18.550068520072813*Square + + 239260.53265802326*Floor sq. + + 73329.76103038796*Floors + (-47231.61525882067*Year) + + 24804.15186899586*Distance metro km + + (-1487711.8963242061*Type transport to metro) + (2) + (-13554120.797380297*Sale type) + + (-41923145.71242697*Flat type) + + (-406837.02772176114*Time to the center (from metro)) + + 61407.48561820931*Time to metro in minutes. Далее будут просмотрены параметры полученной модели, но перед этим определим, что такое R-квадрат (R-squared), скорректиро- ванный R-квадрат (Adj. R-squared), р-значение (P для коэффициентов и Prob (F-statistic) для всей модели)[12]. R-квадрат является статистической мерой, которая оценивает, насколько хорошо выбран- ная модель подходит для наблюдаемых данных и определяется следующей математической формулой: SSres R2 = - = -1 ˆˆ22 1 SSntot = -1 SSSSrestot , (3) y OLS Regression Results ============================================================================== Dep. Variable: Price R-squared: 0.096 Model: OLS Adj. R-squared: 0.096 Method: Least Squares F-statistic: 391.0 Date: Sun, 30 Apr 2023 Prob (F-statistic): 0.253 Time: 13:15:23 Log-Likelihood: -7.6250e+05 No. Observations: 40597 AIC: 1.525e+06 Df Residuals: 40585 BIC: 1.525e+06 Df Model: 11 ============================================================================== coef std err t P>|t| [0.025 0.975] ------------------------------------------------------------------------------ const 1.489e+08 2.15e+07 6.924 0.000 1.07e+08 1.91e+08 x1 9.427e+06 2.21e+05 42.586 0.000 8.99e+06 9.86e+06 x2 18.5501 18.074 1.026 0.305 -16.874 53.975 x3 2.393e+05 3.36e+04 7.120 0.021 1.73e+05 3.05e+05 x4 7.333e+04 2.45e+04 2.988 0.003 2.52e+04 1.21e+05 x5 -4.723e+04 1.06e+04 -4.472 0.000 -6.79e+04 -2.65e+04 x6 2.48e+04 8.06e+04 0.308 0.758 -1.33e+05 1.83e+05 x7 -1.488e+06 5.29e+05 -2.810 0.005 -2.53e+06 -4.5e+05 x8 -1.355e+07 5.22e+05 -25.947 0.214 -1.46e+07 -1.25e+07 x9 -4.192e+07 2.89e+06 -14.481 0.030 -4.76e+07 -3.62e+07 x10 -4.068e+05 1.56e+04 -26.058 0.000 -4.37e+05 -3.76e+05 x11 6.141e+04 1.93e+04 3.185 0.401 2.36e+04 9.92e+04 n 2 где SSres = in=1 ei2 = in=1 (y yi - ˆi ) - сумма квадратов остатков регрессии; y yi , ˆi - фактические и расчетные значения объясняемой пеn ременной; SStot = (yi -yi )2 =n ˆ 2y - общая i=1 1 n сумма квадратов; y= yi . В случае линейной n i=1 регрессии с константой: SStot =SSreg +SSres , n где SSreg = (yˆi -yi )2- объясненная сумма i=1 квадратов. Отсюда возможно получить упрощенное определение R-квадрата как доли объясненной суммы квадратов в общей[13]: SS R2 = reg . (4) SStot R-квадрат может принимать значения от 0 до 1. Значение 0 означает, что выбранная модель не объясняет никакой изменчивости наблюдаемых данных, а значение 1 указывает на идеальное соответствие выбранной модели и наблюдаемых данных. Скорректированный R-квадрат, или скорректированный коэффициент детерминации, является статистической мерой, которая учитывает количество регрессоров (независимых переменных) в модели, и представляет собой измененный коэффициент детерминации R-квадрат, исправленный с учетом числа независимых переменных в модели: 2 1 (1 R2) n-1 , (5) Rскорр = - - n k- -1 где R2 - коэффициент детерминации, n - количество наблюдений (то есть размер выборки), k - количество независимых переменных в модели. С помощью скорректированного R-квадрата можно оценить, насколько хорошо модель соответствует данным, учитывая количество регрессоров. Чем ближе значение скорректированного R-квадрата к 1, тем лучше соответствие модели данным. P-значение - это вероятность получения результата, не менее экстремального, чем наблюдаемый результат, при условии, что нулевая гипотеза верна. Если P-значение меньше предварительно определенного уровня значимости (менее 0,05), то нулевая гипотеза отвергается, что означает, что существует статистически значимая разница между группами или переменными. В противном случае (P более 0,05) нулевая гипотеза не отвергается, что означает, что недостаточно данных, чтобы вынести окончательный вывод. Проверим значимость коэффициентов регрессии βk. Для этого выведем гипотезы[14] для β k для k = 0;11: H0: βk = 0 - коэффициент незначим; H1: βk 0 - коэффициент значим; α = 0,05, Р-значение у коэффициентов βk = (0,000; 0,000; 0,021; 0,003; 0,000; 0,005; 0,030; 0,000) < < α = 0,05, поэтому принимаем гипотезу H1 (коэффициент βk значим с вероятностью 95 % для k = 0, 1, 3, 4, 5, 7, 9, 10). Р-значение у коэффициентов βk = (0,305; 0,758; 0,214; 0,401) > α = 0,05, поэтому принимаем гипотезу H0 (коэффициент βk незначим с вероятностью 95 % для k = 2, 6, 8, 11). Значения параметров, полученные для всей модели: R-squared = 0,096; Adj. R-squared = 0,096; Prob (F-statistic) = 0,253. Вывод: уравнение незначимо при уровне значимости α = 0,05 (0,253 > 0,05), при этом 9,6 % (и 9,6 % по скорректированному R-квадрату) - вариация целевой переменной y = price объясняется вариацией факторов. На следующем этапе после построения первой модели и получения результатов параметров необходимо сделать обработку данных. При проверке данных возможно столкнуться с выбросами[15] (рис. 2) - аномальными значениями, которые необходимо убрать. После предобработки данных (рис. 3) будут построены гистограммы без аномальных значений. Работу с выбросами необходимо проделать со всеми параметрами из базы данных. После обработки построим вторую модель МНК (рис. 4). В результате получается следующее уравнение регрессии: OLS Regression Results ============================================================================== Dep. Variable: Price R-squared: 0.864 Model: OLS Adj. R-squared: 0.857 Method: Least Squares F-statistic: 5496. Date: Sun, 30 Apr 2023 Prob (F-statistic): 0.000 Time: 13:16:04 Log-Likelihood: -4.9302e+05 No. Observations: 38568 AIC: 9.861e+05 Df Residuals: 38568 BIC: 9.862e+05 Df Model: 11 ============================================================================== coef std err t P>|t| [0.025 0.975] ------------------------------------------------------------------------------ Price const -1.314e+07 1.58e+06 -8.321 0.000 -1.62e+07 -1e+07 x1 1.746e+06 3.05e+04 57.188 0.000 1.69e+06 1.81e+06 x2 4.198e+04 1349.681 31.105 0.007 3.93e+04 4.46e+04 x3 4.642e+04 3190.887 14.548 0.000 4.02e+04 5.27e+04 x4 7.913e+04 2324.085 34.049 0.000 7.46e+04 8.37e+04 x5 1.224e+04 766.854 15.957 0.000 1.07e+04 1.37e+04 x6 -1.534e+05 6963.841 -22.030 0.000 -1.67e+05 -1.4e+05 x7 -5.727e+04 4.51e+04 -1.269 0.014 -1.46e+05 3.12e+04 x8 -5.412e+06 4.33e+04 -124.965 0.000 -5.5e+06 -5.33e+06 x9 -2.622e+06 2.97e+05 -8.840 0.000 -3.2e+06 -2.04e+06 x10 -6.022e+04 1289.406 -46.707 0.000 -6.28e+04 -5.77e+04 x11 1.673e+04 2779.242 6.020 0.005 1.13e+04 2.22e+04 y = -13143953.557547348 + + 1746037.573731812*Number rooms + 41982.3071491594*Square + 46420.9958310878*Floor sq. + + 79133.40581343621*Floors + 12236.46452122052*Year + + (-153413.0293165489*Distance metro km) + + (-57272.23972169444*Type transport to metro) + (6) + (-5411948.059501247*Sale type) + + (-2621892.3884117184*Flat type) + + (-60224.83508604619*Time to the center (from metro)) + + (16731.62320475588*Time to metro in minutes). Аналогично проверим значимость коэффициентов регрессии βk. Р-значение у коэффициентов βk = (0,000; 0,000; 0,007; 0,000; 0,000; 0,000; 0,000; 0,014; 0,000; 0,000; 0,000; 0,005) < < α = 0,05, поэтому принимаем гипотезу H1 (коэффициент βk значим с вероятностью 95 % для
×

About the authors

Polina A. Konyaeva

RUDN University

Email: 1032212116@pfur.ru
Master’s student, Academy of Engineering Moscow, Russia

Olga A. Saltykova

RUDN University

Author for correspondence.
Email: saltykova-oa@rudn.ru
ORCID iD: 0000-0002-3880-6662
SPIN-code: 3969-6701

Doctor of Sciences (Techn.), Associate Professor of the Department of Mechanics and Control Processes, Academy of Engineering

Moscow, Russia

Sergei A. Kupreev

RUDN University

Email: kupreev-sa@rudn.ru
ORCID iD: 0000-0002-8657-2282
SPIN-code: 2287-2902

Doctor of Sciences (Techn.), Professor of the Department of Mechanics and Control Processes, Academy of Engineering

Moscow, Russia

References

  1. Alekseev G. Introduction to machine learning. Habr. 2019. (In Russ.) Available from: https://habr.com/ru/articles/448892 / (accessed: 03.27.2023).
  2. Leifer LA, Chernaya EV. Machine learning techniques for real estate mass valuation. Analysis of accuracy for various methods on the example of the appraisal of apartments. Property relations in the Russian Federation. 2020;3:32–42. (In Russ.) EDN: BQRFXJ
  3. Kok N, Koponen E-L, Martinez-Barbosa CA. Big Data in Real Estate From Manual Appraisal to Automated Valuation». The Journal of Portfolio Management. 2017; 43(6):202–211. https://doi.org/10.3905/jpm.2017.43.6.202
  4. Yasnitskiy VL. Using a neural network to solve the problem of mass real estate appraisal of city Perm. Fundamental Research. 2015;10–3:650–653. (In Russ.) EDN: UNXWSX
  5. Surkov FA, Petkova NV, Sukhovskiy SF. Neural network data analysis methods in real estate valuation. News of universities. North Caucasus region. Technical science. 2016;3:38–45. (In Russ.) https://doi.org/10.17213/0321-2653-2016-3-38-45
  6. Arefieva E.A, Kostyaev D S. Using neural NETWORKS for evaluation of market cost of real estate. News of the Tula State University. Technical science. 2017; 10:177–184. (In Russ.) EDN: ZVLGJH
  7. Vykhodtsev NA. Artificial intelligence in price estimation of real estate. Proceedings of the TUSUR University. 2021;24(1):68–72. (In Russ.) https://doi.org/10.21293/1818-0442-2021-24-1-68-72
  8. Arzamastsev SA, Bgatov MV, Kartysheva EN, Derkunsky VA, Semenchikov DN. Predicting subscriber churn: comparison of machine learning methods. Computer tools in education. 2018;5:5–23. (In Russ.) https://doi.org/10.32603/2071-2340-2018-5-5-23
  9. Radchuk MA, Kopytina EA. Development of a software tool for predicting customer churn using machine learning methods. Collection of student scientific works of the Faculty of Computer Science of VSU. 2019. p. 190–196. (In Russ.) EDN: PSWAXM
  10. Lalwani P, Mishra MK, Chadha JS, Sethi P. Customer churn prediction system: a machine learning approach. Computing. 2022;104(2):271–294. https://doi.org/10.1007/s00607-021-00908-y
  11. Khodabandehlou S, Zivari Rahman M. Comparison of supervised machine learning techniques for customer churn prediction based on analysis of customer behavior. Journal of Systems and Information Technology. 2017;19(1/2):65–93. https://doi.org/10.1108/JSIT-102016-0061
  12. Andrianova EG, Novikova OA. The role of text mining methods in automating stock market forecasting. Cloud of science. 2018;5(1):196–211. (In Russ.) EDN: YUTIIN
  13. Kovalenko IA. Use of artificial intelligence in the exchange and over-the-counter securities markets. Bulletin of Science. 2023;3(6):75–80. (In Russ.) Available from: https://www.xn----8sbempclcwd3bmt.xn--p1ai/article/ 8956 (accessed: 30.03.2023).
  14. Henrique BM, Sobreiro VA, Kimura H. Literature review: Machine learning techniques applied to financial market prediction. Expert Systems with Applications. 2019; 124:226–251. https://doi.org/10.1016/j.eswa.2019.01.012
  15. Kumbure MM, Lohrmann C, Luukka P, Porras J. Machine learning techniques and data for stock market forecasting: A literature review. Expert Systems with Applications. 2022;197:116659.
  16. Mahesh B. Machine learning algorithms-a review. International Journal of Science and Research. 2020; 9(1):381–386. https://doi.org/10.21275/ART20203995
  17. Salnikov VA, Mikheeva OM. Models for forecasting prices on the Moscow residential real estate market. Problems of forecasting. 2018;1(166):129–139. (In Russ.) EDN: YLXJZZ
  18. Sternik GM, Pechenkina AV. Forecast of supply prices for apartments on the Moscow housing market (macroeconomic approach). Property relations in the Russian Federation. 2007;10:11–18. (In Russ.) EDN: JXADIB
  19. Nazarov A. Regression analysis in DataScience. Simple linear regression. statsmodels library. Habr. 2022. (In Russ.) Available from: https://habr.com/ru/articles690414/ (accessed: 30.03.2023).
  20. Dronov V. Linear regression using Scikit-Learn in Python. Learning Python. 2021. (In Russ.) Available from: https://tonais.ru/library/lineynaya-regressiya-s-pomo schyu-scikit-learn-v-python (accessed: 05.04.2023).
  21. Aylin А. Normalization vs. standardization in linear regression. Machine learning. 2023. Available from: https://www.baeldung.com/cs/normalization-vs-standardization (accessed: 15.04.2023).

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2024 Konyaeva P.A., Saltykova O.A., Kupreev S.A.

License URL: https://creativecommons.org/licenses/by-nc/4.0/legalcode