<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:st1="urn:schemas-microsoft-com:office:smarttags" xmlns="http://www.w3.org/TR/REC-html40">

<head>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=us-ascii">
<meta name=Generator content="Microsoft Word 11 (filtered medium)">
<!--[if !mso]>
<style>
v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style>
<![endif]--><o:SmartTagType
 namespaceuri="urn:schemas-microsoft-com:office:smarttags" name="City"
 downloadurl="http://www.5iamas-microsoft-com:office:smarttags"/>
<o:SmartTagType namespaceuri="urn:schemas-microsoft-com:office:smarttags"
 name="place" downloadurl="http://www.5iantlavalamp.com/"/>
<!--[if !mso]>
<style>
st1\:*{behavior:url(#default#ieooui) }
</style>
<![endif]-->
<style>
<!--
 /* Font Definitions */
 @font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman";}
a:link, span.MsoHyperlink
        {color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {color:purple;
        text-decoration:underline;}
p.Heading1, li.Heading1, div.Heading1
        {margin:0in;
        margin-bottom:.0001pt;
        text-align:center;
        font-size:12.0pt;
        font-family:"Times New Roman";}
span.EmailStyle18
        {mso-style-type:personal-reply;
        font-family:Arial;
        color:blue;
        font-weight:normal;
        font-style:normal;
        text-decoration:none none;}
@page Section1
        {size:8.5in 11.0in;
        margin:1.0in 1.25in 1.0in 1.25in;}
div.Section1
        {page:Section1;}
-->
</style>
<!--[if gte mso 9]><xml>
 <o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
 <o:shapelayout v:ext="edit">
  <o:idmap v:ext="edit" data="1" />
 </o:shapelayout></xml><![endif]-->
</head>

<body lang=EN-US link=blue vlink=purple>

<div class=Section1>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'>Here is a discussion I wrote up for a study of effects of translation
and culture on an instrument called the Goal Instability Scale (GIS).&nbsp; It
addresses many issues including the role of DIF. &nbsp;It leads to statements of hypotheses
tied directly to Rasch statistics.&nbsp; This discussion was just a section of the
paper, prior to the methods section.&nbsp; The complete study is:<o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'><o:p>&nbsp;</o:p></span></font></p>

<p class=MsoNormal><font size=2 face="Times New Roman"><span style='font-size:
11.0pt'>Casillas, A., Schulz, E. M., Robbins, S, <st1:place w:st="on"><st1:City
 w:st="on">Santos</st1:City></st1:place>, P. J., &amp;&nbsp; Lee,R. (2006).&nbsp;
Exploring the meaning of motivation across cultures: IRT analysis of the goal
instability scale. <i><span style='font-style:italic'>Journal of Career
Assessment</span></i>. <i><span style='font-style:italic'>14 </span></i>(2),
1-18.<o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'><o:p>&nbsp;</o:p></span></font></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'>---------------------------------------------------------<o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'><o:p>&nbsp;</o:p></span></font></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; The purpose of this study is to further compare the internal
meaning of English and Portuguese versions of the GIS.&nbsp; Comparisons of internal
meaning are generally based on criteria for measurement invariance in the
literature.&nbsp; Measurement invariance means that items function the same way
across groups or cultures.&nbsp; Criteria for measurement invariance were first
formulated from the perspective of exploratory factor analysis (Hui &amp;
Triandis, 1985).&nbsp; Later, criteria were formulated within the framework of structural
equation modeling (Steenkamp &amp; Baumgartner, 1998).&nbsp; More recently, criteria
within the frameworks of item response theory (Reise, Widaman, &amp; Pugh,
1993; Raju, Laffitte, &amp; Byrne, 2002; Gerber et al., 2000) and latent class
analysis (Eid, Langeheine, &amp; Diener, 2003) have been put forward.&nbsp; It is
beyond the scope of this study to compare and contrast the criteria and
relative strengths of these various frameworks.&nbsp; Articles by Reise, et al.,
(1993), Raju, et al., (2002), and Eid, et al., (2003) include comparisons of
approaches.&nbsp; There seems to be general agreement in this field that the forms
and stringency of measurement invariance with which one needs to be concerned
depend on practice and the goals of the study (e.g., Steenkamp &amp;
Baumgertner, 1998).&nbsp; <o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; The following section presents the criteria for measurement
invariance used in this study.&nbsp;&nbsp;&nbsp; However, before presenting these criteria, it
is important to note how certain assumptions led us to use an IRT framework and
a particular IRT model for this comparison.&nbsp; We believe it is important to use
a framework that represents key assumptions in the scoring and intended use of
the GIS, and to use a model that allows the assumptions to be evaluated.&nbsp;
First, the practice of obtaining only one measure from the GIS&#8211;goal
instability&#8211;suggests the assumption of undimensionality.&nbsp; It is therefore
reasonable to use a unidimensional model to evaluate measure invariance.&nbsp;
Specifically, we are interested in the fit of the GIS data to a unidimensional
model because that is how the GIS data are treated. <o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Second, we assume that differences among the GIS items, in terms
of their endorsability by students, define a progression, or descent, into goal
instability that is shared by most persons.&nbsp;&nbsp; This assumption leads first to
the use of an item response theory (IRT) model, and second to the use of
&quot;person fit&quot; statistics that indicate whether a given person's
responses to the GIS items are consistent with the progression evidenced by the
arrangement of items on the latent IRT scale.&nbsp; IRT models generally locate
items on a latent scale that also represents measures of the trait.&nbsp; The
production of person-fit statistics is associated primarily with a subset of
measurement theory and applications within IRT where the arrangement of items
on the latent scale is assumed to have meaning for most, if not all,
individuals.&nbsp; For example, items located at one end of the goal instability
scale may show how any person begins the descent into goal instability.&nbsp; Items
located at the other end of the scale may show the final or most advanced
stages of goal instability in any person.&nbsp; These kinds of interpretations have
implications for how goal instability can be addressed through counseling or
more general preventative interventions.&nbsp; <o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Third, we assume that the GIS items contribute equally to the
measurement of goal instability.&nbsp; This assumption is implicit in the fact that
the unweighted total score across GIS items is taken as the measure of goal
instability.&nbsp; With this assumption, it is important to use an IRT model that
explicitly incorporates the assumption of equal weighting and to evaluate the
fit of the data to this model.&nbsp; In a structural modeling framework, one would
evaluate the fit of a model in which equal weights were specified for the
items.&nbsp; In an IRT framework, one evaluates the fit of a model in which the
slope parameter in the model is assumed to be a constant (e.g., 1.0) for all
items.&nbsp; It will be seen in the following section that the use of a model with
constant slope (e.g., with no slope parameter) has certain advantages for
assessing other facets of measure invariance as well.<o:p></o:p></span></font></p>

<p class=MsoNormal><i><font size=3 face="Times New Roman"><span
style='font-size:12.0pt;font-style:italic'>The Rating Scale Model and Criteria
for Measurement Invariance</span></font></i><o:p></o:p></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; The Rating Scale Model (Andrich, 1978) is a unidimensional item
response theory model for data where all items share a common set of ordered
response categories, such as exists with a Likert scale.&nbsp; A formulation of the
model and an interpretation of its parameters with respect to GIS data, where
items are scored 1 (for strongly agree) to 6 (for strongly disagree) is: <o:p></o:p></span></font></p>

<p class=MsoNormal align=right style='text-align:right'><font size=3
face="Times New Roman"><span style='font-size:12.0pt'><span style='position:
relative;top:17.0pt;mso-text-raise:-17.0pt'><!--[if gte vml 1]><v:shapetype 
 id="_x0000_t75" coordsize="21600,21600" o:spt="75" o:preferrelative="t" 
 path="m@4@5l@4@11@9@11@9@5xe" filled="f" stroked="f">
 <v:stroke joinstyle="miter" />
 <v:formulas>
  <v:f eqn="if lineDrawn pixelLineWidth 0" />
  <v:f eqn="sum @0 1 0" />
  <v:f eqn="sum 0 0 @1" />
  <v:f eqn="prod @2 1 2" />
  <v:f eqn="prod @3 21600 pixelWidth" />
  <v:f eqn="prod @3 21600 pixelHeight" />
  <v:f eqn="sum @0 0 1" />
  <v:f eqn="prod @6 1 2" />
  <v:f eqn="prod @7 21600 pixelWidth" />
  <v:f eqn="sum @8 21600 0" />
  <v:f eqn="prod @7 21600 pixelHeight" />
  <v:f eqn="sum @10 21600 0" />
 </v:formulas>
 <v:path o:extrusionok="f" gradientshapeok="t" o:connecttype="rect" />
 <o:lock v:ext="edit" aspectratio="t" />
</v:shapetype><v:shape id="_x0000_i1026" type="#_x0000_t75" style='width:131.25pt;
 height:39.75pt' o:ole="" fillcolor="window">
 <v:imagedata src="cid:image001.wmz@01C97721.BE89AE50" o:althref="cid:image002.pcz@01C97721.BE89AE50" 
  o:title="" />
</v:shape><![endif]--><![if !vml]><img width=175 height=53
src="cid:image003.gif@01C97721.BE89AE50" v:shapes="_x0000_i1026"><![endif]></span><!--[if gte mso 9]><xml>
 <o:OLEObject Type="Embed" ProgID="Equation.3" ShapeID="_x0000_i1026" 
  DrawAspect="Content" ObjectID="_1293536737">
 </o:OLEObject>
</xml><![endif]-->&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <i><span style='background:yellow;
font-style:italic'>j</span></i><span style='background:yellow'>=1,2,&#8230;,4</span>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
 (</span></font>1) <o:p></o:p></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'>where<o:p></o:p></span></font></p>

<p class=MsoNormal style='margin-left:.5in;text-indent:-.25in'><font size=3
face=Symbol><span style='font-size:12.0pt;font-family:Symbol'>t</span></font><i><sub><span
style='font-style:italic'>j</span></sub></i>&nbsp; is a category threshold
parameter.&nbsp; A threshold parameter represents the relative difficulty of
choosing category <i><span style='font-style:italic'>j</span></i> rather than
category <i><span style='font-style:italic'>j</span></i>-1 in response to any
item,&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <o:p></o:p></p>

<p class=MsoNormal><i><font size=3 face="Times New Roman"><span
style='font-size:12.0pt;font-style:italic'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; P<sub>nij</sub></span></font></i> 
is the probability that person <i><span style='font-style:italic'>n</span></i>
surmounts exactly <i><span style='font-style:italic'>j</span></i> thresholds on
statement <i><span style='font-style:italic'>i</span></i>,<o:p></o:p></p>

<p class=MsoNormal><i><font size=3 face="Times New Roman"><span
style='font-size:12.0pt;font-style:italic'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; P<sub>nij-1</sub> </span></font></i>is
the probability that person <i><span style='font-style:italic'>n</span></i>
surmounts exactly <i><span style='font-style:italic'>j</span></i>-1 thresholds
on statement <i><span style='font-style:italic'>i</span></i>,<o:p></o:p></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></font><i><font face=Symbol><span style='font-family:Symbol;
font-style:italic'>b</span></font><sub>n</sub></i>  is the goal instability of
person <i><span style='font-style:italic'>n</span></i>, and<sub><o:p></o:p></sub></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></font><i><font face=Symbol><span style='font-family:Symbol;
font-style:italic'>d</span></font><sub>i</sub></i> &nbsp; is the location, or
calibration, of item <i><span style='font-style:italic'>i</span></i> on the
measurement scale. <o:p></o:p></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; An important feature of the Rating Scale Model in the present
context is that it does not include a slope parameter.&nbsp; This is an important
difference from the graded response model (Samajima, 1969), which is often
applied to Likert data, and many other IRT models.&nbsp; The slope parameter is so
named because it allows the slope of the item characteristic curve (ICC) to
vary across items.&nbsp; The ICC is the trace line of the expected score on an item
as a function of the trait value, or </span></font><font face=Symbol><span
style='font-family:Symbol'>b</span></font>.&nbsp; The slope parameter essentially
multiplies the additive combination of other parameters in the model.&nbsp; For
example, <i><font face=Symbol><span style='font-family:Symbol;font-style:italic'>a</span></font><sub>i</sub></i>(<i><font
face=Symbol><span style='font-family:Symbol;font-style:italic'>b</span></font><sub>n</sub></i>
- (<i><font face=Symbol><span style='font-family:Symbol;font-style:italic'>d</span></font><sub>i</sub></i><sub>
</sub>+<i><font face=Symbol><span style='font-family:Symbol;font-style:italic'>t</span></font><sub>j</sub></i>))
represents the addition of a slope parameter, <i><font face=Symbol><span
style='font-family:Symbol;font-style:italic'>a</span></font><sub>i</sub></i><sub>,</sub>
to the Rating Scale Model.&nbsp;&nbsp; Models with slope parameters tend to fit data
better, and may be useful in exploratory work, but they do not correspond to
practice when the unweighted total score across items is used to estimate the
underlying trait.&nbsp; <o:p></o:p></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Measure invariance in IRT ultimately implies equivalence of item
parameters across groups (Reise, et al., 1993, Raju, et al., 2002).&nbsp; Parameters
in IRT models typically represent distinct, substantive issues with regard to
measure invariance, so it would be useful to compare model parameters directly
across groups.&nbsp; For example, differences in the Rating Scale Model threshold
parameters, </span></font><i><font face=Symbol><span style='font-family:Symbol;
font-style:italic'>t</span></font><sub>j</sub></i>, across groups reflect group
differences in how categories of the Likert scale are interpreted and used, as
opposed to differences in how the items are interpreted and used.&nbsp; Group
differences in how items are interpreted and used are represented by
differences between paired item parameters, <i><font face=Symbol><span
style='font-family:Symbol;font-style:italic'>d</span></font><sub>i</sub></i>,
across groups.&nbsp; Thus, in the Rating Scale Model, the meaning of differences in
the <i><font face=Symbol><span style='font-family:Symbol;font-style:italic'>t</span></font><sub>j</sub></i>
and <i><font face=Symbol><span style='font-family:Symbol;font-style:italic'>d</span></font><sub>i</sub></i>
across groups is separate and clear.&nbsp; This is a consequence of the additive
combination of all model parameters on the right side of the model formulation
(1).&nbsp; <o:p></o:p></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; More generally, measure invariance in IRT is not assessed by
directly comparing item parameters.&nbsp; See Raju, et. al., (2002) for a
description of measure invariance with regard to more general class of IRT
models.&nbsp; IRT models frequently include parameters, such as a slope or a
pseudo-guessing parameter, such that the combination of parameters in the model
is not completely linear, or additive.&nbsp; Without additivity, the meaning of
model parameters is not separate and clear.&nbsp; For example, differences in item
location parameters (e.g., </span></font><i><font face=Symbol><span
style='font-family:Symbol;font-style:italic'>d</span></font><sub>i</sub></i>)
across groups cannot be evaluated independently of differences in a slope parameter.&nbsp;
<o:p></o:p></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; It is interesting to note that IRT-based studies of measure
invariance generally use the same methods employed in the study of differential
item functioning, or DIF (Reise, et al., 1993; Raju, et al., 2002).&nbsp;&nbsp; One of
the most popular and powerful methods of assessing DIF, the Mantel-Haenzel
method, is not directly based on IRT, but is mathematically equivalent to
comparing item difficulty parameters in the one item-parameter (a location or
difficulty parameter) Rasch model for dichotomously scored (0 or 1) data under
certain conditions, including the fit of data to the model (Holland &amp;
Thayer, 1988).&nbsp; The Rating Scale Model is a member of the Rasch family of
measurement models (Rasch, 1960; Wright and Masters, 1982).&nbsp; <o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Fit statistics commonly used in conjunction with the Rating Scale
Model include a weighted and unweighted mean squared residual, which are
referred to as infit and outfit, respectively (Wright &amp; Masters, 1982).&nbsp;
The fit statistics are computed for each person and item (Wright &amp; Masters,
1982).&nbsp; Only the outfit statistic will be used in this study.&nbsp; The outfit
statistic is comparable to a chi square statistic divided by its degrees of
freedom.&nbsp; It has an expected value of 1.00 under the hypothesis that data fit
the model.&nbsp; Fit statistics greater than 1.0 indicate response patterns having
more noise than expected according to the probabilities specified by the model
(e.g., Equation 1).&nbsp; Fit statistics outside the range of 0.6 to 1.5 may
indicate practically significant overfit (less than 0.6) or underfit (greater
than 1.5).&nbsp; <o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; For some practical purposes, such as counseling, only cases of
underfit may be of concern.&nbsp; The responses of overfitting persons conform
unusually well to the arrangement of items on the GIS scale.&nbsp; The assumptions
of a counselor or intervention program about how goal instability progresses,
as inferred from the order of items on the GIS scale, would not be invalid for
overfitting persons.&nbsp; Likewise, overfitting items tend to be associated with a
higher-than-average&nbsp; correlation between the item score and person measure.&nbsp;
This relationship extends to the weight or slope the item would have in
structural equation models or IRT models that allow weights, or slopes, to
vary.&nbsp; Overfitting items tend to be associated with greater slope or weight
values.&nbsp; These kinds of items are not generally viewed as problem items in
instrument development.<o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; In terms of the Rating Scale Model and associated fit statistics,
the following criteria for measurement invariance are explored in this study.&nbsp;
The term &quot;groups&quot; refers to the English and Portuguese samples taking
their respective language versions of the GIS.<o:p></o:p></span></font></p>

<p class=MsoNormal style='margin-left:.5in;text-indent:-.25in'><font size=3
face="Times New Roman"><span style='font-size:12.0pt'>1)&nbsp; The proportion of
person fit statistics less than 1.5 should be reasonably large and comparable
across groups.&nbsp; This criterion will be evaluated informally and readers may
judge for themselves what is large and comparable.&nbsp; The larger the proportion,
the more the arrangement of items on the IRT scale can be used to understand
the dynamics of goal instability within a given student and to deliver
effective intervention and counseling at the individual student level.&nbsp; If the
proportion is comparable across language versions, the GIS can be said to have
similar potential for counseling in both populations.&nbsp; If the order and arrangement
of items on the scale differ in the two populations, individual counseling and
intervention strategies would differ by population. <o:p></o:p></span></font></p>

<p class=MsoNormal style='margin-left:.5in;text-indent:-.25in'><font size=3
face="Times New Roman"><span style='font-size:12.0pt'>2) Item calibrations (</span></font><i><font
face=Symbol><span style='font-family:Symbol;font-style:italic'>d</span></font><sub>i</sub></i>)
will be the same across groups.&nbsp; To meet this criterion, the difference between
paired item calibrations should differ by no more than 0.3 logits (the scale
unit in a Rating Scale Model Analysis).&nbsp; This standard is commonly applied in
evaluating measure invariance in educational testing <span style='background:
yellow'>(insert refs.)</span>. The failure of an item to meet this criterion
may be due to non-equivalence in translation or to more fundamental differences
between populations in how the item defines goal instability.&nbsp; If the GIS
measure is invariant in this respect, individual counseling and intervention
strategies would not differ by population.<o:p></o:p></p>

<p class=MsoNormal style='margin-left:.5in;text-indent:-.25in'><font size=3
face="Times New Roman"><span style='font-size:12.0pt'>3) Step calibrations (</span></font><i><font
face=Symbol><span style='font-family:Symbol;font-style:italic'>t</span></font><sub>j</sub></i>)
will be the same across groups.&nbsp; To meet this criterion, the same 0.3 standard
described above will be used.&nbsp; Failure of a step calibration to meet this
criterion would call the translation of category labels into question or
suggest more fundamental cultural differences in how persons use the
Likert-type scale categories. <o:p></o:p></p>

<p class=MsoNormal style='margin-left:.5in;text-indent:-.25in'><font size=3
face="Times New Roman"><span style='font-size:12.0pt'>4) Item fit statistics
will be comparable across groups.&nbsp; In addition to their use in detecting
technical flaws in individual items, such as scoring errors or ambiguous
language that may be interpreted differently by different persons, item fit
statistics can indicate a variety of substantively meaningful patterns in the
data such as dependencies among related items (which leads to overfit), or
areas of performance or cognition that are not as strongly related to the
central trait as others (which leads to underfit).&nbsp; These substantive patterns,
as well as any superficial characteristics of the item which may cause misfit,
are part of the meaning of the variable, and should be the same across groups.&nbsp;
Due to the approximate relations between item fit statistics, SEM item weights,
and IRT item slope parameters, a comparison of item fit statistics across
groups is about as productive and meaningful with regard to measure invariance
as comparing SEM item weights or IRT item slope parameter estimates across
groups. <o:p></o:p></span></font></p>

<p class=MsoNormal><font size=2 color=blue face=Arial><span style='font-size:
11.0pt;font-family:Arial;color:blue'><o:p>&nbsp;</o:p></span></font></p>

<p class=MsoNormal><font size=2 color=blue face=Arial><span style='font-size:
11.0pt;font-family:Arial;color:blue'><o:p>&nbsp;</o:p></span></font></p>

<div class=MsoNormal align=center style='text-align:center'><font size=3
face="Times New Roman"><span style='font-size:12.0pt'>

<hr size=2 width="100%" align=center tabindex=-1>

</span></font></div>

<p class=MsoNormal><b><font size=2 face=Tahoma><span style='font-size:10.0pt;
font-family:Tahoma;font-weight:bold'>From:</span></font></b><font size=2
face=Tahoma><span style='font-size:10.0pt;font-family:Tahoma'> rasch-bounces@acer.edu.au
[mailto:rasch-bounces@acer.edu.au] <b><span style='font-weight:bold'>On Behalf
Of </span></b>Anthony James<br>
<b><span style='font-weight:bold'>Sent:</span></b> Thursday, January 15, 2009
1:22 PM<br>
<b><span style='font-weight:bold'>To:</span></b> rasch@acer.edu.au<br>
<b><span style='font-weight:bold'>Subject:</span></b> [Rasch] Test Translation
&amp; DIF</span></font><o:p></o:p></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'><o:p>&nbsp;</o:p></span></font></p>

<table class=MsoNormalTable border=0 cellspacing=0 cellpadding=0>
 <tr>
  <td valign=top style='padding:0in 0in 0in 0in'>
  <div>
  <p class=MsoNormal><font size=3 face="Times New Roman"><span
  style='font-size:12.0pt'>Dear all,<o:p></o:p></span></font></p>
  </div>
  <p class=MsoNormal><font size=3 face="Times New Roman"><span
  style='font-size:12.0pt'>I want to study DIF in the context of test
  translation. That is, whether items exhibits different levels of difficulty
  in the original version and the translated version of a test. How should one
  go about doing this in Winsteps?<o:p></o:p></span></font></p>
  <p class=MsoNormal><font size=3 face="Times New Roman"><span
  style='font-size:12.0pt'>Two different linguistic groups have taken the
  original version of a test and its translation.<o:p></o:p></span></font></p>
  <p class=MsoNormal><font size=3 face="Times New Roman"><span
  style='font-size:12.0pt'>Do I need some bilingual test-takers to take both
  versions to establish a link to run DIF?<o:p></o:p></span></font></p>
  <p class=MsoNormal><font size=3 face="Times New Roman"><span
  style='font-size:12.0pt'>What else can be done, within classical test theory
  and Rasch measurement, to investigate translation equivalence and the
  validity of the translated version of a test?<o:p></o:p></span></font></p>
  <p class=MsoNormal><font size=3 face="Times New Roman"><span
  style='font-size:12.0pt'>Cheers<o:p></o:p></span></font></p>
  <p class=MsoNormal><font size=3 face="Times New Roman"><span
  style='font-size:12.0pt'>Anthony<o:p></o:p></span></font></p>
  <p class=MsoNormal><font size=3 face="Times New Roman"><span
  style='font-size:12.0pt'><o:p>&nbsp;</o:p></span></font></p>
  <div>
  <p class=MsoNormal><font size=3 face="Times New Roman"><span
  style='font-size:12.0pt'>&nbsp;<o:p></o:p></span></font></p>
  </div>
  </td>
 </tr>
</table>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'><o:p>&nbsp;</o:p></span></font></p>

</div>

</body>

</html>