BazEkon - The Main Library of the Cracow University of Economics

BazEkon home page

Main menu

Author
Śmigielski Janusz (Medical University in Łódź), Majdzińska Anna (University of Lodz, Poland), Śmigielski Witold (University of Lodz, Poland)
Title
Using ROC Curves to Find the Cut-Off Point in Logistic Regression with Unbalanced Samples
Source
Statistics in Transition, 2010, vol. 11, nr 2, s. 381-402, rys., tab., aneks, bibliogr. s. 401-402
Keyword
Ekonometria, Modele regresji, Metody ekonometryczne, Regresja logistyczna
Econometrics, Regression models, Econometric methodology, Logistic regression
Abstract
Logistic regression is widely used in many fields of science, e.g. medicine, psychology and anthropology. It was introduced in the 19th c. and its graphic form was developed by P. F. Verhulst and R. F. Pearl, who were the first to use the logistic model in practice to model population increase. The full model of logistic regression was used by Finney in 1972 [Stanisz, 2000, p. 205]. Logistic regression is used in models with a dichotomous endogenous variable, i.e. one taking only values 0 and 1 (e.g. healthy persons 7=0, sick persons 7=1). The probability of variable Yi taking value 0 or 1 can be estimated by means of maximum likelihood method (see section 2). As far as the dichotomous variable is concerned, a frequently occurring problem is unbalanced sample, i.e. having the number of the values 7=0 considerably different from the number of values 7=1, for example, the number of healthy persons is usually much larger than of the sick ones. The classical method to find the cut-off point for the estimated probability P(Yi=1) (in order to transform this probability into values 0 or 1 of the endogenous variable), may turn out quite ineffective. Therefore, the optimal cut-off value should be sought with methods other than the classical ones. In the paper we propose using the concept of the receiver operator characteristic (ROC) curves in order to find an optimal cut-off point in logit models based on unbalanced samples. The proposed method will be compared with some other popular methods discussed in the literature. (fragment of text)
Accessibility
The Main Library of the Cracow University of Economics
The Library of Warsaw School of Economics
The Library of University of Economics in Katowice
The Main Library of Poznań University of Economics and Business
The Main Library of the Wroclaw University of Economics
Full text
Show
Bibliography
Show
  1. CRAMER J. S. (1999). Predictive performance of the binary logit model in unbalanced samples, [in]: Journal of the Royal Statistical Society. Series D (The Statistician), Vol. 48, No. 1, pp. 85-94, Blackwell Publishing, Oxford.
  2. DOMAŃSKI CZ. (ed) (2001) Metody statystyczne. Teoria i zadania, Wydawnictwo Uniwersytetu Łódzkiego, Łódź.
  3. DUDEK H., DYBCIAK M. (2006) Zastosowanie modelu logitowego do analizy wyników egzaminu [in]: Zeszyty Naukowe Szkoły Głównej Gospodarstwa Wiejskiego w Warszawie, Ekonomika i Organizacja Gospodarki Żywnościowej, nr 60, Wydawnictwo SGGW, Warsaw.
  4. GRUSZCZYŃSKI M. (2001) Modele i prognozy zmiennych jakościowych w finansach i  bankowości, Monografie i opracowania, no. 490, Szkoła Główka Handlowa, Warsaw.
  5. GRUSZCZYŃSKI M., KUSZEWSKI T. AND PODGÓRKSA M. (2009) Ekonometria i badania operacyjne. Podręcznik dla studiów licencjackich, PWN, Warsaw.
  6. JEZIORSKA-PĄPKA M. (2007) Zastosowanie modeli dwumianowych do opisu asymetrii informacji na rynku ubezpieczeń na przykładzie polis komunikacyjnych OC [in]: Dynamiczne Modele Ekonometryczne, Wydawnictwo Uniwersytetu Mikołaja Kopernika, Toruń.
  7. KRZANOWSKI W., HAND D. (2009) ROC curves for continuous data, Monographs on statistics and applied probability, 111, CRC Press, New York.
  8. MADDALA G. S. (1992) Introduction to Econometrics - 2nd ed., Macmillan Publishing Company, New York.
  9. MAJDZIŃSKA A., ŚMIGIELSKI W. (2009) Wpływ religijności na decyzje dotyczące planowania życia rodzinnego studentów Uniwersytetu Łódzkiego, [in:] (ed.) J. T. Kowaleski, A. Rossa, Przyszłość demograficzna Polski, Folia Oeconomica 231, Wydawnictwo Uniwersytetu Łódzkiego, Łódź.
  10. MORRISON D. G. (1972) Upper Bounds for Correlation Between Binary Outcomes and Probabilistic Predictions, JASA, vol. 67, no. 337.
  11. PRUSKA K. (2001) Modele probitowe i logitowe w programach nauczania studiów ekonomicznych [in:] Metody analizy cech jakościowych w procesie podejmowania decyzji (conference proceedings), Wydawnictwo Uniwersytetu Łódzkiego, Łódź.
  12. ROSSA A. (2007) Asymptotic tests for receiver operating characteristic curves [in]: Statistics in Transition - new series, vol. 8, no. 3, GUS, Warsaw.
  13. STANISZ A. (2000) Przystępny kurs statystyki z wykorzystaniem programu STATISTICA PL na przykładach z medycyny, vol. II, Kraków.
  14. WELFE A. (2003) Ekonometria. Metody i  zastosowanie, PWE, Warsaw.
  15. WELFE A., BRZESZCZYŃSKI J. AND MAJSTEREK M. (2002) Angielsko-polski, polsko-angielski słownik terminów metod ilościowych, Polskie Wydawnictwo Ekonomoiczne, Warsaw.
Cited by
Show
ISSN
1234-7655
Language
eng
Share on Facebook Share on Twitter Share on Google+ Share on Pinterest Share on LinkedIn Wyślij znajomemu