- Autor
- Śmigielski Janusz (Medical University in Łódź), Majdzińska Anna (University of Lodz, Poland), Śmigielski Witold (University of Lodz, Poland)
- Tytuł
- Using ROC Curves to Find the Cut-Off Point in Logistic Regression with Unbalanced Samples
- Źródło
- Statistics in Transition, 2010, vol. 11, nr 2, s. 381-402, rys., tab., aneks, bibliogr. s. 401-402
- Słowa kluczowe
- Ekonometria, Modele regresji, Metody ekonometryczne, Regresja logistyczna
Econometrics, Regression models, Econometric methodology, Logistic regression - Abstrakt
- Logistic regression is widely used in many fields of science, e.g. medicine, psychology and anthropology. It was introduced in the 19th c. and its graphic form was developed by P. F. Verhulst and R. F. Pearl, who were the first to use the logistic model in practice to model population increase. The full model of logistic regression was used by Finney in 1972 [Stanisz, 2000, p. 205]. Logistic regression is used in models with a dichotomous endogenous variable, i.e. one taking only values 0 and 1 (e.g. healthy persons 7=0, sick persons 7=1). The probability of variable Yi taking value 0 or 1 can be estimated by means of maximum likelihood method (see section 2). As far as the dichotomous variable is concerned, a frequently occurring problem is unbalanced sample, i.e. having the number of the values 7=0 considerably different from the number of values 7=1, for example, the number of healthy persons is usually much larger than of the sick ones. The classical method to find the cut-off point for the estimated probability P(Yi=1) (in order to transform this probability into values 0 or 1 of the endogenous variable), may turn out quite ineffective. Therefore, the optimal cut-off value should be sought with methods other than the classical ones. In the paper we propose using the concept of the receiver operator characteristic (ROC) curves in order to find an optimal cut-off point in logit models based on unbalanced samples. The proposed method will be compared with some other popular methods discussed in the literature. (fragment of text)
- Dostępne w
- Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie
Biblioteka SGH im. Profesora Andrzeja Grodka
Biblioteka Główna Uniwersytetu Ekonomicznego w Katowicach
Biblioteka Główna Uniwersytetu Ekonomicznego w Poznaniu
Biblioteka Główna Uniwersytetu Ekonomicznego we Wrocławiu - Pełny tekst
- Pokaż
- Bibliografia
- CRAMER J. S. (1999). Predictive performance of the binary logit model in unbalanced samples, [in]: Journal of the Royal Statistical Society. Series D (The Statistician), Vol. 48, No. 1, pp. 85-94, Blackwell Publishing, Oxford.
- DOMAŃSKI CZ. (ed) (2001) Metody statystyczne. Teoria i zadania, Wydawnictwo Uniwersytetu Łódzkiego, Łódź.
- DUDEK H., DYBCIAK M. (2006) Zastosowanie modelu logitowego do analizy wyników egzaminu [in]: Zeszyty Naukowe Szkoły Głównej Gospodarstwa Wiejskiego w Warszawie, Ekonomika i Organizacja Gospodarki Żywnościowej, nr 60, Wydawnictwo SGGW, Warsaw.
- GRUSZCZYŃSKI M. (2001) Modele i prognozy zmiennych jakościowych w finansach i bankowości, Monografie i opracowania, no. 490, Szkoła Główka Handlowa, Warsaw.
- GRUSZCZYŃSKI M., KUSZEWSKI T. AND PODGÓRKSA M. (2009) Ekonometria i badania operacyjne. Podręcznik dla studiów licencjackich, PWN, Warsaw.
- JEZIORSKA-PĄPKA M. (2007) Zastosowanie modeli dwumianowych do opisu asymetrii informacji na rynku ubezpieczeń na przykładzie polis komunikacyjnych OC [in]: Dynamiczne Modele Ekonometryczne, Wydawnictwo Uniwersytetu Mikołaja Kopernika, Toruń.
- KRZANOWSKI W., HAND D. (2009) ROC curves for continuous data, Monographs on statistics and applied probability, 111, CRC Press, New York.
- MADDALA G. S. (1992) Introduction to Econometrics - 2nd ed., Macmillan Publishing Company, New York.
- MAJDZIŃSKA A., ŚMIGIELSKI W. (2009) Wpływ religijności na decyzje dotyczące planowania życia rodzinnego studentów Uniwersytetu Łódzkiego, [in:] (ed.) J. T. Kowaleski, A. Rossa, Przyszłość demograficzna Polski, Folia Oeconomica 231, Wydawnictwo Uniwersytetu Łódzkiego, Łódź.
- MORRISON D. G. (1972) Upper Bounds for Correlation Between Binary Outcomes and Probabilistic Predictions, JASA, vol. 67, no. 337.
- PRUSKA K. (2001) Modele probitowe i logitowe w programach nauczania studiów ekonomicznych [in:] Metody analizy cech jakościowych w procesie podejmowania decyzji (conference proceedings), Wydawnictwo Uniwersytetu Łódzkiego, Łódź.
- ROSSA A. (2007) Asymptotic tests for receiver operating characteristic curves [in]: Statistics in Transition - new series, vol. 8, no. 3, GUS, Warsaw.
- STANISZ A. (2000) Przystępny kurs statystyki z wykorzystaniem programu STATISTICA PL na przykładach z medycyny, vol. II, Kraków.
- WELFE A. (2003) Ekonometria. Metody i zastosowanie, PWE, Warsaw.
- WELFE A., BRZESZCZYŃSKI J. AND MAJSTEREK M. (2002) Angielsko-polski, polsko-angielski słownik terminów metod ilościowych, Polskie Wydawnictwo Ekonomoiczne, Warsaw.
- Cytowane przez
- ISSN
- 1234-7655
- Język
- eng