Abstract | α coefficient stands as the widely adopted measure of internal consistency within the Classical Test Theory, yet concerns regarding its limitations persist among researchers. While numerous alternative coefficients have been presented, there is no consensus about which coefficient would be a more appropriate choice than α for practical reliability estimation. Due to theoretical differences and restrictive assumptions in the underlying analytical theory for some coefficients, the appropriateness of these coefficients in empirical conditions remains uncertain. The gaps in the existing knowledge in the field of reliability make the selection of the most appropriate coefficient for particular conditions even more difficult, especially because numerous factors affect reliability estimation simultaneously. Monte Carlo simulation is the most suitable method for coefficient comparison in conditions that mimic the complexity of empirical conditions. However, there is evidence that the adherence to the recommended methodological rigor they require is generally not typical, and no similar review has been conducted in the field of reliability. Therefore, this thesis aims to investigate the empirical performance of a diverse set of coefficients using Monte Carlo simulation studies with a rigorous methodological approach, based on the insights from a review of the existing research. The research within this thesis consists of three studies. The first study is a systematized review of published Monte Carlo simulation studies in the field of reliability. It was conducted to determine the limitations and gaps in the research of specific coefficients and the factors that affect reliability estimation, as well as to identify the shortcomings in the adherence to the recommended methodological rigor that reviewed Monte Carlo simulation studies involve. The following two studies are influenced by the findings from the first study. The second study is a Monte Carlo simulation that compares the performance of α to various other coefficients in conditions that represent typically encountered empirical conditions using a more complex design compared to previous research. The third study is a Monte Carlo simulation that compares the performance of α to various other coefficients while varying aspects of the latent structure. Numerous insights about the appropriateness of coefficients in specific conditions and factors that affect reliability estimation were obtained. The findings have implications for coefficient use, reporting on reliability, Monte Carlo simulation study method in the field of reliability, and psychometric curricula. In conclusion, no single coefficient is a universally more appropriate alternative to α. The coefficients were shown to vary in their appropriateness for various conditions. Due to differences in performance, it appears that multiple coefficients should be used in making decisions about score reliability. Still, even the coefficients that are considered the most appropriate for particular conditions involve a degree of biasedness. α mostly demonstrated the worst performance and it was shown as never the most appropriate choice, even in conditions in which all the coefficients perform nearly identically. Furthermore, none of the coefficients can be deemed accurate in conditions with small sample sizes, extremely asymmetrical score distribution, low loading magnitudes, and combinations of these. Therefore, new coefficients might be based on robustness theory, optimization theory, and Bayes theorem to be more appropriate for the complexity of empirical conditions. |
Abstract (croatian) | α koeficijent široko je prihvaćen kao mjera unutarnje konzistencije u okviru Klasične Teorije Testova. Međutim, istraživači i dalje iskazuju skepticizam u vezi ograničenja α koeficijenta. Prema analitičkoj teoriji, α koeficijent je smatran donjom granicom pouzdanosti u slučaju unidimenzionalnosti i τ-ekvivalentnosti te jednak pouzdanosti ako su i reziduali nekorelirani. Prema brojnim istraživačima, α je zbog navedene teorijske podloge koristan isključivo u ograničenim uvjetima i stoga bi prilikom procjene pouzdanosti prednost trebalo dati drugim koeficijentima. Iako su predstavljeni brojni alternativni koeficijenti, ne postoji suglasnost o tome koji bi alternativni koeficijent bio prikladniji izbor za procjenu pouzdanosti od α koeficijenta. Zbog teorijskih razlika i ograničenja u analitičkoj teoriji u slučaju nekih koeficijenata, prikladnost tih koeficijenata za pojedine empirijske uvjete ostaje nepoznata. Praznine u postojećem znanju u području pouzdanosti otežavaju odabir najprikladnijeg koeficijenta za pojedine empirijske uvjete, osobito jer je procjena pouzdanosti pod utjecajem istovremenog utjecaja velikog broja faktora. Monte Carlo simulacijske studije najprikladnija su metoda za usporedbu koeficijenata u uvjetima koji oponašaju kompleksnost empirijskih uvjeta. Međutim, postoje dokazi da je pridržavanje preporučene metodološke rigoroznosti koju zahtijevaju Monte Carlo simulacijske studije neuobičajeno u istraživačkoj praksi. Osim toga, u području pouzdanosti nije proveden osvrt na objavljene radove koji uključuju Monte Carlo simulacijske studije. Takvim bi osvrtom bile utvrđene praznine vezane uz istraženost pojedinih koeficijenata i faktora koji utječu na procjenu pouzdanosti, kao i dobiveni uvidi o pridržavanju preporučene metodološke rigoroznosti. Stoga je svrha ove doktorske disertacije istražiti empirijsku izvedbu različitih koeficijenata koristeći Monte Carlo simulacijske studije uz rigorozan metodološki pristup, temeljene na uvidima iz osvrta na postojeća istraživanja u području pouzdanosti. Istraživanje u okviru ove disertacije sastoji se od tri studije. Prva je studija sistematizirani osvrt na objavljene Monte Carlo simulacijske studije u području pouzdanosti. Osvrt je proveden u svrhu utvrđivanja ograničenja i praznina u istraživanju određenih koeficijenata i faktora koji utječu na procjenu pouzdanosti, kao i u svrhu identifikacije nedostataka u pridržavanju preporučene metodološke rigoroznosti koju zahtijevaju Monte Carlo simulacijske studije. Osim prevalencije pojedinih koeficijenata i faktora koji utječu na procjenu pouzdanosti, evaluirani su sljedeći metodološki aspekti objavljenih Monte Carlo simulacijskih studija iz područja pouzdanosti: postupak generiranja podataka, broj replikacija, specifikacija uvjeta u nacrta, korištenje standarda za usporedbu i korištenje mjera izvedbe. Utvrđeno je da su nedostaci u pridržavanju preporučene metodološke rigoroznosti koju zahtijevaju Monte Carlo simulacijske studije slični kao u prijašnjim istraživanjima u drugim područjima. Točnije, u većini su objavljenih istraživanja utvrđeni nedostaci u barem jednom od evaluiranih metodoloških aspekata. Nadalje, utvrđeno je da su neke potencijalne alternative za α koeficijent nedovoljno istražene, dok su druge potpuno neistražene. Uz to je utvrđeno da je u velikom broju objavljenih istraživanja uspoređen relativno malen broj koeficijenata, što ograničava zaključke i praktičnu primjenjivost nalaza. Što se tiče faktora koji utječu na pouzdanost, utvrđeno je da su korišteni relativno jednostavni nacrti vezani uz empirijske uvjete i da su uvjeti uglavnom specificirani bez uzimanja tipičnih vrijednosti iz empirijskih uvjeta u obzir. Osim toga, utvrđeno je da su određeni faktori vezani uz latentnu strukturu, poput broja faktora i koreliranosti reziduala, relativno niske prevalencije. Sljedeće dvije studije su usmjerene navedenim uvidima iz prve studije. Druga je studija Monte Carlo simulacija koja uspoređuje izvedbu α koeficijenta s različitim drugim koeficijentima u uvjetima koji predstavljaju uobičajene empirijske uvjete, koristeći složeniji dizajn u usporedbi s prethodnim istraživanjima. Treća je studija Monte Carlo simulacija koja uspoređuje izvedbu α koeficijenta s nekim drugim koeficijentima varirajući aspekte latentne strukture, poput faktorskih saturacija, broja faktora i koreliranosti reziduala. Dobiveni su brojni uvidi o prikladnosti koeficijenata za specifične empirijske uvjete i o faktorima koji utječu na procjenu pouzdanosti. Utvrđeno je da su svi koeficijenti imali superiornu izvedbu u odnosu na α koeficijent u većini uvjeta i utvrđeno je koji su koeficijenti najprikladniji za pojedine istražene uvjete. Međutim, utvrđeno je da u pojedinim uvjetima nijedan koeficijent nije prikladan. Točnije, nijedan koeficijent nije prikladan u uvjetima s malim uzorcima, ekstremno asimetričnim distribucijama rezultata, niskim faktorskim saturacijama i kombinacijama navedenih. Utvrđeni su i uvjeti u kojima svi uspoređeni koeficijenti imaju podjednaku izvedbu, a to su unidimenzionalni uvjeti s τ-ekvivalentnim saturacijama barem .6, velikim uzorkom i normalno distribuiranim rezultatima. Nadalje, utvrđeno je da su najutjecajniji faktori koji utječu na procjenu pouzdanosti faktorske saturacije i distribucija rezultata te da interakcije višeg reda imaju trivijalan utjecaj na procjene pouzdanosti. Također, nalazi imaju implikacije za primjenu koeficijenata i izvještavanje o pouzdanosti u praktičnim istraživačkim situacijama, metodologiju Monte Carlo simulacija u području pouzdanosti i psihometrijske kurikule. Međutim, potrebno je uzeti u obzir i nedostatke provedenih studija u okviru ove disertacije, kao što je moguć utjecaj pristranosti u objavljivanju radova na prvu studiju te opću ograničenost zaključaka Monte Carlo simulacijskih studija. Zaključno, nijedan koeficijent nije univerzalno prikladnija alternativa za α koeficijent. Koeficijenti se razlikuju u svojoj prikladnosti za različite uvjete. Rezultati sugeriraju da zbog razlika u izvedbi koeficijenata u različitim empirijskim uvjetima, preporučljivo je uzimanje u obzir više od jednog koeficijenta prilikom donošenja odluka o pouzdanosti rezultata i izvještavanje o procjenama dobivenim pomoću različitih koeficijenata, ovisno o empirijskim uvjetima. U svrhu poboljšanja prakse, potrebno je educirati istraživače o postojanju alternativa za α koeficijent, što čini implementaciju novih uvida o izvedbi koeficijenata u psihometrijske kurikule poželjnom. Ipak, postoji određena pristranost i kod koeficijenata koji su smatrani najprikladnijima za određene uvjete. Pokazalo se da α koeficijent nikad nije najprikladniji koeficijent, osim u uvjetima u kojima svi koeficijenti rezultiraju gotovo identičnim vrijednostima, i većinom je imao najslabiju izvedbu. Nadalje, budući da nijedan od koeficijenata nije prikladan za uvjete koji uključuju male uzorke, ekstremno asimetričnu distribuciju rezultata, niske faktorske saturacije i kombinacije navedenih faktora, novi bi koeficijenti mogli biti temeljeni na teoriji robusnosti, teoriji optimizacije i Bayesovom teoremu kako bi bili prilagođeniji kompleksnosti empirijskih uvjeta i rezultirali manje pristranim procjenama pouzdanosti. |