Estimering av gjennomsnitt og 95-persentil i datasett med verdier under rapporterings-grensen og i avkortede datasett

Av Åse Dalseth Austigard og Hans Thore Smedbold. Oppdatert: 24.11.2019

Å bygge kunnskap om eksponering er en stegvis prosess, via små kartlegginger eller større prosjekter. Begge prosessene har ofte til felles at mye av arbeidet gjøres i små, avgrensede kartlegginger, gjort under ulike forhold og på forskjellige lokasjoner, og hvor det er behov for å samle resultatene i etterkant for å kunne se det større bilde.

Vi har begge erfart, fra hvert vårt hold, at slik samling er mer komplisert enn vi tidligere har vært klar over, enten arbeidet har vært gjort i et større yrkeshygienisk forskningsprosjekt, ved samling av eksponeringsdata i en eksponeringsdatabase eller ved bruk av ulike resultater til utarbeidelse av en jobb-eksponeringsmatrise til bruk i epidemiologi.

Samling og analyse av datasett gjør at vi må ta stilling til en rekke ting, slik som:

hvor representative målingene er og hva de er representative for,
hvordan vi skal håndtere resultater over eller under måle- / analyseinstrumentets måleområde (sensorering),
hva er ikke kartlagt (avkorting), og
om datasettene tilfredsstiller de underliggende statistiske forutsetningene for at de skal kunne samles (likhet i eksponeringsprofil og standardavvik m.m.).

Hvordan vi håndterer verdiene i ytterkant av datasettene våre påvirker i stor grad våre resultater. I «Estimering av gjennomsnitt og 95-persentil i datasett med verdier under rapporteringsgrensen og i avkortede datasett» (Austigard & Smedbold, 2018) har vi sett nærmere på to kilder til feil som i stor grad påvirker disse ytterkantene, nemlig verdier under eller over rapporteringsgrensen(e), kalt sensorering, og på effekter av avkorting i datasett.

Det er etter hvert konsensus om at bruk av enkle substitusjonsmetoder som eksklusjon, eller substitusjon med «0», rapporteringsgrensen eller en fraksjon av denne, i hovedsak ikke er å anbefale. Unntaket er små datasett (n<3), hvor statistiske metoder ikke kan anvendes. Ganser og Hewett (Ganser & Hewett, 2010) har utviklet en ny metode som de har kalt β-substitusjon, som de anbefaler fremfor de enkle substitusjonsmetodene og andre statistiske metodene som MLE, LPR og KM (Hewett, 2014). Huynh et al (Huynh et al., 2014) har gjort en simuleringsstudie og kommet til samme konklusjon. Senere Huynh et al (Huynh et al., 2016) har utviklet en Bayesiansk metode, som avhengig av godheten på forhåndsinformasjon, vil kunne være bedre enn β-substitusjonsmetoden. Denne metoden gir i tillegg mulighet for å estimere usikkerheten i estimatene. Dette kan være svært viktig spesielt i større epidemiologiske studier.

Basert på våre gjennomgang av litteratur kan det synes som det er behov for å se nærmere på metoder for analyse av normale, reelle yrkeshygieniske måledata. Disse vil ofte være mer komplekse og sammensatte, enn det som kan fanges av en enkel log-normal fordeling. De vil ofte være flermodale, ha høy spredning, og ha verdier utenfor rapporteringsgrensene. Representative målinger vil i tillegg ofte inneholde reell “null”-eksponering, som ikke kan håndteres med den normale antagelsen av log-normal fordelte måledata. De studiene vi har gått gjennom synes ikke i tilstrekkelig grad å ha reflektert denne bredden i variasjonen i de yrkeshygieniske måledataene.

Referanser

Austigard, A. D., & Smedbold, H. T. (2018). Estimering av gjennomsnitt og 95-persentil i datasett med verdier under rapporteringsgrensen og i avkortede datasett. Hentet fra https://www.yrkeshygiene.no

Ganser, G. H., & Hewett, P. (2010). An accurate substitution method for analyzing censored data. J Occup Environ Hyg., 7(4), 44. doi:https://doi.org/10.1080/15459621003609713

Hewett, P. (2014). A Strategy for Estimating the Mean from Small Datasets Containing Non-detects. Hentet fra

www.easinc.co

Huynh, T., Quick, H., Ramachandran, G., Banerjee, S., Stenzel, M., Sandler, D. P., . . . Stewart, P. A. (2016). A Comparison of the beta-Substitution Method and a Bayesian Method for Analyzing Left-Censored Data. Ann Occup Hyg, 60(1), 56-73. doi:10.1093/annhyg/mev049

Huynh, T., Ramachandran, G., Banerjee, S., Monteiro, J., Stenzel, M., Sandler, D. P., . . . Stewart, P. A. (2014). Comparison of methods for analyzing left-censored occupational exposure data. Ann Occup Hyg, 58(9), 1126-1142. doi:10.1093/annhyg/meu067