kouprianov (kouprianov) wrote,
kouprianov
kouprianov

Categories:

Pseudo R-Squared при фите логистической кривой

Столкнулся с проблемой. Есть ряд данных, который должен изображать логистический рост (сначала растем медленно, потом быстро, потом снова замедляемся, выходя на плато). Надо было сделать фит логистической кривой и понять, насколько хорошо она это делает. Задача стандартная, но я ее решать не умею, потому решал, как мог.

# Посчитал
# 372 -- это максимальное значение зависимой переменной DV, 
# IdV -- независимая переменная

glm.out = glm(cbind(data$DV, 372-data$DV) ~ data$IdV,
+ family=binomial(logit))

# Нарисовал
plot(data$DV/372 ~ data$IdV,
+ xlab="Независимая переменная",
+ ylab="Доля от накопленного к концу периода (N=372)",
points(glm.out$fitted~data$IdV, type="l", col="red")

# Попросил подробностей
summary(glm.out)

Call:
glm(formula = cbind(data$DV, 372 - data$DV) ~ data$IdV,
    family = binomial(logit))

Deviance Residuals:
    Min       1Q   Median       3Q      Max
-3.7632  -1.0666   0.7528   1.7338   5.2451

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept) -4.505e+02  8.095e+00  -55.66   <2e-16 ***
data$IDV     2.334e-01  4.194e-03   55.66   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 5765.37  on 28  degrees of freedom
Residual deviance:  176.81  on 27  degrees of freedom
AIC: 333.79

Задумался. Посоветовался с коллегами. Коллеги сказали, что скачок хи-квадрат (а это он) с 5765.37 при 28 df на 176.81 при 27 df это хорошо. Вместе с тем, все, кто публиковался, зачем-то приводили не остаточную девиацию (то, что у меня 176.81), а R-squared, которого я непосредственно в результатах не обнаружил. Покурив еще немного, я набрел на разъяснения по поводу того, что при логистической регрессии может быть посчитан псевдо-R-squared, и что их бывает несколько типов.

Посчитал Efron's псевдо-R-squared, поскольку он больше всего напоминал мне R-squared, знакомый по линейной регрессии. Единственное, что у меня, понятное дело, содержательно в числителе речь идет не о предсказанных вероятностях, а о предсказанных долях от максимума, накопленных к определенному моменту времени, а в знаменателе -- о наблюдаемых накопленных долях. Получилось примерно 0.985.

С другой стороны, поскольку у меня, по сути, не логистическая регрессия с бинарной зависимой переменной, а фит лоигистической функцией кумуляты (которая, как понятно, не бинарная, а такая же честно-количественная, как и временной ряд), может быть, содержательно это вовсе и не псевдо-R-squared?

Короче говоря, я запутался. Поскольку в эпсилон-окрестности есть несколько человек, которые, в отличие от меня, знают, как делать фиты, может быть, кто-то из них сжалится и скажет что-то, что выведет меня из тьмы невежества?



This entry was originally posted at http://kouprianov.dreamwidth.org/239617.html Comment wherever you wish.
Tags: r, помощь зала
Subscribe

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 9 comments