<!doctype html public "-//W3C//DTD W3 HTML//EN">
<html><head><style type="text/css"><!--
blockquote, dl, ul, ol, li { padding-top: 0 ; padding-bottom: 0 }
 --></style><title>RE: [Rasch] Fan: &gt; Is replicating Fan's research
worthwhil</title></head><body>
<div><font face="Geneva" size="-2" color="#000000">I don't know that
any other critique of Fan's Rasch work exists; so here's our two bits'
worth</font></div>
<div><font face="Geneva" size="-2" color="#000000">Bond &amp; Fox 2nd
(@007) pp266-267</font></div>
<div><font face="Geneva" size="-2" color="#000000"><br></font></div>
<div><font face="Geneva" size="-2" color="#000000">Another pervasive
view is that traditional</font></div>
<div><font face="Geneva" size="-2" color="#000000">statistical
approaches in the social sciences provide all the techniques<br>
sufficient for understanding data quantitatively. In other words, the
Rasch model<br>
is nothing special and anything outside the scope of traditional
statistics produces</font></div>
<div><font face="Geneva" size="-2" color="#000000">little or no extra
for all the extra work involved: special software, Rasch
work-</font></div>
<div><font face="Geneva" size="-2" color="#000000">shops, and books
such as this one. In a large scale empirical comparison of IRT<br>
(including Rasch) and CTT item and person statistics in mandated
achievement<br>
testing, Fan (1988) concluded that the intercorrelations between
person indicators<br>
and between item indicators across Rasch, 2PL, 3PL IRT and CTT models
were<br>
so high as not to warrant the extra effort of latent trait
modeling.<br>
Because the IRT Rasch model (one parameter IRT model) assumes fixed
item<br>
discrimination and no guessing for all items, the model only provides
estimates<br>
for item parameter of difficulty. Because item difficulty parameter
estimates<br>
of the Rasch model were almost perfectly related to CTT-based item<br>
difficulty indexes (both original and normalized), it appears that the
one-parameter<br>
model provides almost the same information as CTT with regard to<br>
item difficulty but at the cost of considerable model complexity.
Unless Rasch<br>
model estimates could show superior performance in terms of
invariance<br>
across different samples over that of CTT item difficulty indexes, the
results<br>
here would suggest that the Rasch model might not offer any empirical
advantage<br>
over the much simpler CTT framework. (Fan, 1998, p. 371)<br>
Novices to Rasch measurement might ask, "How could that possibly be
the<br>
case?" The explanation is really quite simple but goes to the very
heart of the distinction<br>
canvassed in this volume between Rasch measurement on the one hand<br>
and general IRT- and CTT- based analyses on the other. Fan revealed,
"As the<br>
tabled results indicate, for the IRT Rasch model (i.e., the one
parameter IRT<br>
model), the relationship between CTT- and IRT- based item difficulty
estimates is<br>
almost perfect" (p. 371). Of course, for both CTT and the Rasch
model, N (number<br>
correct) is the sufficient statistic for the estimation of both item
difficulty and<br>
person ability. However, for the Rasch model there is a crucial
caveat: To the<br>
extent that the data fit the Rasch model's specifications for
measurement, then N<br>
is the sufficient statistic. In light of the attention paid to the
issues raised about<br>
Rasch model fit and unidimensionality in chapter 11, it is not so easy
then to<br>
glide over the telling result of Fan's analyses: "Even with the
powerful statistical<br>
test, only one or two items are identified as misfitting the two- and
three-parameter<br>
IRT model. The results indicate that the data fit the two- and
three-parameter<br>
IRT models exceptionally well" (Fan, 1988, p. 368). Or, should that
be, the<br>
2PL and 3PL models that were developed accounted for these data very
well? Fan<br>
went on to report, "The fit of the data for the one-parameter model,
however, is<br>
obviously very questionable, with about 30 percent of the items
identified as misfitting<br>
the IRT model for either test." (Fan, 1988, p. 368). Then, according
to our<br>
approach to the fit caveat, only about 70% of the items might be used
to produce<br>
a Rasch measurement scale in which N correct would be the sufficient
statistic.<br>
Fan continued, "Because there is obvious misfit between the data and
the one<br>
parameter IRT model, and because the consequences of such misfit are
not<br>
entirely clear (Hambleton et al., 1991), the results related to the
one-parameter<br>
IRT model presented in later sections should be viewed with extreme
caution"</font></div>
<div><font face="Geneva" size="-2" color="#000000">(Fan, 1988, p.
368). From our perspective, "[V]iewed with extreme
caution"</font></div>
<div><font face="Geneva" size="-2" color="#000000">would be better
written as "dismissed as irrelevant to evaluating the value of
the<br>
Rasch model."<br>
Given that the second and third item parameters (slope and guessing)
are<br>
introduced into the 2PL and 3PL IRT models expressly for the purpose
of reducing<br>
the variance not accounted for by the item difficulty parameter alone,
we reasonably<br>
could expect (but do not always get) better fit of the 2PL and 3PL
IRT<br>
models to the data. Let us not be equivocal about how proponents of
the Rasch<br>
model, rather than the authority cited by Fan, above, regard the role
of fit statistics<br>
in quality control of the measurement process: "Rasch models are the
only<br>
laws of quantification that define objective measurement, determine
what is measurable,<br>
decide which data are useful, and exposes which data are not"
(Wright,<br>
1999, p. 80). In other words, by this view, the results showing
failure to fit the<br>
Rasch model should not merely be viewed with extreme caution, they
should be<br>
dismissed out-of-hand for failing to meet the minimal standards
required for measurement.<br>
Readers might wish to judge for themselves the extent to which Fan<br>
actually treated the Rasch results with extreme caution--but at
the very minimum,<br>
unless the data for 30% of misfitting items are removed from the data
analysis<br>
adopting the Rasch model the resultant Rasch versus IRT versus CTT
comparisons<br>
remain misleading, invidious, or both.<br>
And would you like an invariant interval level
measurement</font></div>
<x-sigsep><pre>-- 
</pre></x-sigsep>
<div><font face="Times New Roman" color="#000000">Trevor G BOND Ph
D<br>
Professor and Head of Dept<br>
Educational Psychology, Counselling &amp; Learning Needs</font></div>
<div><font face="Times New Roman" color="#0000FF">D2-2F-01A EPCL
Dept.<br>
Hong Kong Institute of Education<br>
10 Lo Ping Rd, Tai Po<br>
New Territories HONG KONG<br>
<br>
Voice: (852) 2948 8473<br>
Fax:&nbsp; (852) 2948 7983</font></div>
<div><font face="Times New Roman" color="#0000FF">Mob:</font></div>
</body>
</html>