Ο κατάλογος αυτός θα βοηθήσει τους μη επιστήμονες για να εξετάσουν επιστημονικά άρθρα και να κατανοήσουν τους περιορισμούς των αποδεικτικών στοιχείων.
ΠΗΓΗ: Nature 503, 335?337(21 November 2013) doi:10.1038/503335a
Απόδοση στην ελληνική γλώσσα Κώστας Τάνης
Οι διαφορές και η τύχη είναι αιτίες μεταβολών.
Ο πραγματικός κόσμος μεταβάλλεται απρόβλεπτα. Επιστήμη είναι ως επί το πλείστον η ανακάλυψη του τι προκαλεί τα πρότυπα που βλέπουμε. Γιατί είναι θερμότερη αυτή η δεκαετία από την προηγούμενη; Γιατί υπάρχουν περισσότερα πουλιά σε ορισμένες περιοχές από ό, τι σε άλλες;
Υπάρχουν πολλές εξηγήσεις για τις τάσεις αυτές, έτσι ώστε η κύρια πρόκληση της έρευνας είναι να ξεχωρίζουμε την σημαντικότητα της διαδικασίας που επιλέγεται (για παράδειγμα, η επίδραση της κλιματικής αλλαγής στους πληθυσμούς των πτηνών) από τις αναρίθμητες άλλες πηγές μεταβλητότητας (από εκτεταμένες αλλαγές όπως η εντατικοποίηση της γεωργίας και η εξάπλωση των χωροκατακτητικών ειδών, ή από διαδικασίες τοπικής κλίμακας, όπως είναι τα τυχαία γεγονότα που καθορίζουν τις γεννήσεις και τους θανάτους πουλιών).
Καμιά μέτρηση δεν είναι ακριβής.
Σχεδόν όλες οι μετρήσεις έχουν κάποιο λάθος. Εάν η διαδικασία μέτρησης επαναλαμβάνονταν, θα μπορούσε κανείς να καταγράψει ένα διαφορετικό αποτέλεσμα. Σε ορισμένες περιπτώσεις, το σφάλμα της μέτρησης μπορεί να είναι μεγάλο σε σύγκριση με τις πραγματικές διαφορές. Έτσι, αν έχει ειπωθεί ότι η οικονομία αυξήθηκε κατά 0,13% τον περασμένο μήνα, υπάρχει μια καλή πιθανότητα στην πραγματικότητα να έχει συρρικνωθεί. Τα αποτελέσματα θα πρέπει να παρουσιάζονται με ακρίβεια που να υπολογίζει το σχετικό σφάλμα, για να αποφευχθεί κάτι που θα συνεπάγονταν αδικαιολόγητο βαθμό ανακρίβειας.
Η προκατάληψη είναι διαδεδομένη.
Ο πειραματικός σχεδιασμός ή οι συσκευές μέτρησης μπορούν να παράγουν αποτελέσματα προς μια δεδομένη κατεύθυνση. Για παράδειγμα, ο προσδιορισμός της συμπεριφοράς ψήφου, ζητώντας από ανθρώπους στο δρόμο, στο σπίτι ή μέσω του διαδικτύου να απαντήσουν, θα δώσει δείγματα με διαφορετική αναλογία, και μπορεί όλα τα δείγματα να δώσουν διαφορετικά αποτελέσματα. Επειδή στις μελέτες που αναφέρονται ως «στατιστικά σημαντικές» τα αποτελέσματα είναι πιο πιθανό να γραφτούν και να δημοσιευθούν, η επιστημονική βιβλιογραφία τείνει να δίνει υπερβολική εικόνα για το μέγεθος των προβλημάτων ή την αποτελεσματικότητα των προτεινόμενων λύσεων. Να ένα πείραμα που θα μπορούσε να ωθείται από τις προσδοκίες: οι συμμετέχοντες σε μια θεραπεία θα μπορούσαν να υποθέσουν ότι θα βιώσουν μια διαφορά και έτσι θα μπορούσαν να συμπεριφέρονται διαφορετικά ή να αναφέρουν κάποιο αποτέλεσμα. Οι ερευνητές που συλλέγουν τα αποτελέσματα μπορεί να επηρεαστούν από τη γνώση του ποιοί έλαβαν θεραπεία. Το ιδανικό πείραμα είναι διπλά-τυφλό: ούτε οι συμμετέχοντες ούτε εκείνοι που συλλέγουν τα δεδομένα να ξέρουν ποιος έλαβε τι. Αυτό θα μπορούσε να είναι απλό σε δοκιμές φαρμάκων, αλλά είναι αδύνατο για πολλές κοινωνικές μελέτες. Επιβεβαίωση προκατάληψης προκύπτει και όταν οι επιστήμονες βρίσκουν αποδείξεις για μία δημοφιλή θεωρία και στη συνέχεια δεν γίνονται αρκετά κριτικοί στα δικά τους αποτελέσματα, ή παύουν να ψάχνουν για αποδείξεις περί του αντιθέτου.
Όσο μεγαλύτερο είναι το μέγεθος του δείγματος, συνήθως τόσο καλύτερα.
Ο μέσος όρος που λαμβάνεται από ένα μεγάλο αριθμό παρατηρήσεων συνήθως θα είναι πιο κατατοπιστικός από τον μέσο όρο που λαμβάνεται από ένα μικρότερο αριθμό παρατηρήσεων. Δηλαδή, καθώς συσσωρεύονται ενδείξεις, βελτιώνεται η γνώση μας. Αυτό είναι ιδιαίτερα σημαντικό όταν οι μελέτες θολώνουν από σημαντική φυσική διακύμανση και σφάλματα της μέτρησης. Έτσι, η αποτελεσματικότητα μιάς θεραπείας φαρμάκου θα ποικίλει φυσικά μεταξύ των υποκειμένων. Αυτός ο μέσος όρος της αποτελεσματικότητάς της θα είναι πιο αξιόπιστος και η εκτίμηση πιο ακριβής, από μια δοκιμή με δεκάδες χιλιάδες συμμετέχοντες παρά από μία με εκατοντάδες .
Η συσχέτιση δεν συνεπάγεται την αιτιώδη συνάφεια
Είναι δελεαστικό να υποθέσουμε ότι ένα σχέδιο (pattern) προκαλεί κάποιο άλλο. Ωστόσο, η συσχέτιση μπορεί να είναι συμπτωματική, ή θα μπορούσε το αποτέλεσμα και των δύο σχεδίων να προκλήθηκε από τρίτο παράγοντα - μια μεταβλητή «σύγχυσης» ή μία «λανθάνουσα». Για παράδειγμα, οι οικολόγοι κάποτε θεωρούσαν ότι τα δηλητηριώδη φύκια σκότωναν τα ψάρια σε εκβολές ποταμών. Αποδείχθηκε ότι η άλγη μεγάλωνε, εκεί όπου τα ψάρια πέθαιναν. Δεν ήταν η άλγη που προκαλούσε τους θανάτους.
Η παλινδρόμηση στη μέση τιμή μπορεί να παραπλανήσει.
Ακραία μοτίβα (patterns) στα δεδομένα είναι πιθανό να είναι, τουλάχιστον εν μέρει, ανωμαλίες που οφείλονται στην τύχη ή σε λάθος. Η επόμενη μέτρηση είναι πιθανό να είναι λιγότερο ακραία. Για παράδειγμα, αν τοποθετηθούν κάμερες ταχύτητας σε μέρη όπου έχει υπάρξει μια έξαρση των ατυχημάτων, οποιαδήποτε μείωση του ποσοστού ατυχημάτων δεν μπορεί να αποδοθεί στην κάμερα. Μια μείωση κατά πάσα πιθανότητα θα συμβεί ούτως ή άλλως.
Η επέκταση των δεδομένων είναι επικίνδυνη.
Πρότυπα (patterns) που βρίσκονται μέσα σε ένα συγκεκριμένο εύρος, δεν ισχύουν αναγκαστικά και εκτός αυτού του εύρους. Έτσι, είναι πολύ δύσκολο να προβλεφθεί η αντίδραση των οικολογικών συστημάτων στην κλιματική αλλαγή, όταν ο ρυθμός της αλλαγής είναι ταχύτερος από ό, τι έχει βιωθεί στην εξελικτική ιστορία των υπαρχόντων ειδών, και όταν οι ακραίες καιρικές συνθήκες μπορεί να είναι εντελώς πρωτόγνωρες.
Προσοχή στην πλάνη της βασικής τιμής.
Η ικανότητα ενός ατελούς ελέγχου για τον εντοπισμό μιας πάθησης εξαρτάται από την πιθανότητα της κατάστασης που εξετάζεται (τη βασική τιμή). Για παράδειγμα, ένα άτομο μπορεί να κάνει μια εξέταση αίματος που είναι «99% ακριβής»για μια σπάνια ασθένεια και να προκύπτει θετικό αποτέλεσμα, ακόμη κι αν είναι απίθανο να έχει την ασθένεια. Αν 10.001 άνθρωποι κάνουν το τεστ, εκ των οποίων μόνο ένα έχει την ασθένεια, το πρόσωπο αυτό θα έχει σχεδόν σίγουρα θετικό αποτέλεσμα, αλλά το ίδιο θα έχουν επιπλέον 100 άτομα (1%), ακόμη και αν δεν έχουν την ασθένεια. Αυτός ο τύπος υπολογισμού είναι πολύτιμος κατά την εξέταση οποιασδήποτε διαδικασίας ελέγχου, όπως για τρομοκράτες στα αεροδρόμια.
Οι έλεγχοι είναι σημαντικοί
Μια ομάδα ελέγχου αντιμετωπίζεται με τον ίδιο ακριβώς τρόπο όπως και η πειραματική ομάδα, εκτός από το ότι η θεραπεία δεν εφαρμόζεται. Χωρίς έλεγχο, είναι δύσκολο να προσδιοριστεί αν μια δεδομένη θεραπεία είχε πραγματικά επίδραση. Ο έλεγχος βοηθά τους ερευνητές να είναι βέβαιοι με βάση τη λογική ότι δεν υπάρχουν παράγοντες που επηρεάζουν τα αποτελέσματα. Μερικές φορές οι άνθρωποι σε δοκιμές αναφέρουν θετικά αποτελέσματα εξαιτίας του πλαισίου ή του προσώπου που παρέχει τη θεραπεία, ή ακόμα και το χρώμα ενός tablet. Αυτό υπογραμμίζει τη σημασία της σύγκρισης των αποτελεσμάτων με τα αποτελέσματα μιας ομάδας ελέγχου, όπως με χρήση ενός δισκίου χωρίς δραστικό συστατικό (α placebo).
Με την τυχαιοποίηση αποφεύγεται η προκατάληψη
Τα πειράματα θα πρέπει, όπου είναι δυνατό, να κατανέμουν τα άτομα ή τις ομάδες για τις μετρήσεις με τρόπο τυχαίο. Συγκρίνοντας το εκπαιδευτικό επίτευγμα των παιδιών των οποίων οι γονείς υιοθέτησαν ένα πρόγραμμα για την υγεία με αυτή των παιδιών με γονείς που δεν το έκαναν, είναι πιθανό να υπάρχει επηρεασμός από προκατάληψη (για παράδειγμα, πιο μορφωμένες οικογένειες μπορεί να είναι πιο πιθανό να ενταχθούν στο πρόγραμμα). Ένα καλά σχεδιασμένο πείραμα θα επιλέξει τυχαία κάποιους γονείς να συμμετάσχουν στο πρόγραμμα, ενώ άλλους πάλι τυχαία θα τους αποκλείσει.
Επιδιώξτε την αντιγραφή όχι την ψευδοαντιγραφή
Αποτελέσματα που παρουσιάζουν συνέπεια απέναντι σε πολλές μελέτες, όταν αναπαραχθούν σε ανεξάρτητους πληθυσμούς, είναι πιο πιθανό να την παρουσιάσουν και σ? αυτούς. Τα αποτελέσματα αρκετών τέτοιων πειραμάτων μπορούν να συνδυαστούν σε μία συστηματική ανασκόπηση ή μια μετα-ανάλυση για να παράσχουν μία γενική άποψη του θέματος με δυνητικά πολύ μεγαλύτερη στατιστική δύναμη από οποιαδήποτε από τις μεμονωμένες μελέτες. Η εφαρμογή μιας πειραματικής παρέμβασης σε πολλά άτομα σε μια ομάδα- ας πούμε σε μια τάξη παιδιών- μπορεί να είναι παραπλανητική, διότι τα παιδιά θα έχουν πολλά κοινά χαρακτηριστικά, πέρα από την παρέμβαση. Οι ερευνητές θα μπορούσαν να κάνουν το λάθος να «ψευδοαντιγράψουν» αν γενικεύσουν από αυτά τα παιδιά σε ένα ευρύτερο πληθυσμό που δεν μοιράζεται τις ίδιες κοινοτυπίες. Η ψευδοαντιγραφή οδηγεί σε αδικαιολόγητη πίστη σε αποτελέσματα. Ψευδοαντιγραφή των μελετών σχετικά με την αφθονία του μπακαλιάρου στην περιοχή Grand Banks στη Νέα Γη, στον Καναδά, για παράδειγμα, συνέβαλε στην κατάρρευση αυτού που ήταν κάποτε η μεγαλύτερη αλιεία μπακαλιάρου στον κόσμο.
Οι επιστήμονες είναι άνθρωποι
Οι επιστήμονες έχουν έννομο συμφέρον στην προώθηση του έργου τους, συχνά για το κύρος και την περαιτέρω χρηματοδότηση της έρευνας, αν και μερικές φορές για άμεσο οικονομικό όφελος. Αυτό μπορεί να οδηγήσει σε επιλεκτική αναφορά των αποτελεσμάτων και περιστασιακά σε υπερβολή. Η αξιολόγηση από ομότιμους δεν είναι αλάνθαστη: οι εκδότες των περιοδικών θα μπορούσε να δείξουν εύνοια στα θετικά αποτελέσματα και εκείνα που παρουσιάζουν ειδησεογραφική αξία. Πολλαπλές, ανεξάρτητες πηγές αποδεικτικών στοιχείων και αντιγραφής πείθουν πολύ περισσότερο.
Η σημαντικότητα έχει σημασία
Εκφρασμένη ως Ρ, η στατιστική σημαντικότητα είναι ένα μέτρο του πόσο πιθανό είναι ένα αποτέλεσμα να συμβεί κατά τύχη. Έτσι, P = 0,01 σημαίνει ότι υπάρχει μια πιθανότητα σε εκατό ότι αυτό που μοιάζει σαν αποτέλεσμα της θεραπείας θα μπορούσαν να έχει συμβεί τυχαία, και στην πραγματικότητα δεν υπήρξε καμία επίδραση πουθενά. Συνήθως, οι επιστήμονες αναφέρουν τα αποτελέσματα ως σημαντικά όταν η P-τιμή του ελέγχου είναι μικρότερη από 0,05 (1 στους 20).
Ξεχωρίστε την έλλειψη αποτελέσματος από την έλλειψη σημαντικότητας
Η έλλειψη στατιστικά σημαντικού αποτελέσματος (ας πούμε ένα P-value> 0.05) δεν σημαίνει ότι δεν υπήρξε κανένα αξιόλογο αποτέλεσμα: αυτό σημαίνει ότι δεν ανιχνεύθηκε αποτέλεσμα. Μια μικρή μελέτη δεν μπορεί να έχει την δύναμη να εντοπίσει μια πραγματική διαφορά. Για παράδειγμα, οι δοκιμές σε καλλιέργειες βαμβακιού και πατάτας που είχαν τροποποιηθεί γενετικά ώστε να παράγουν μια τοξίνη για να προστατευθούν από τα βλαβερά έντομα φάνηκε ότι δεν δημιουργούν αρνητικές επιπτώσεις στα ωφέλιμα έντομα όπως οι επικονιαστές. Ωστόσο, κανένα από τα πειράματα δεν είχαν αρκετά μεγάλα μεγέθη δείγματος για να ανιχνεύσουν αν υπήρξαν κάποιες επιπτώσεις στα ωφέλιμα είδη .
Ζήτημα μεγέθους αποτελέσματος.
Μικρές ανταποκρίσεις είναι λιγότερο πιθανό να ανιχνευθούν. Είναι πιο εύκολο να εντοπίσει κανείς μία μικρή επίδραση, όταν εξετάζει τα αποτελέσματα ενός μεγάλου δείγματος. Μια μελέτη με πολλές επαναλήψεις μπορεί να οδηγήσει σε στατιστικά σημαντικό αποτέλεσμα, αλλά να έχει μικρό μέγεθος αποτελέσματος (και έτσι, ίσως, να είναι ασήμαντη). Η σημασία του μεγέθους αποτελέσματος είναι ένα βιολογικό, φυσικό ή κοινωνικό ζήτημα, και όχι μία στατιστική. Στη δεκαετία του 1990, ο εκδότης του περιοδικού Επιδημιολογίας των ΗΠΑ ζήτησε από τους συγγραφείς να σταματήσουν να χρησιμοποιούν τη στατιστική σημαντικότητα στα χειρόγραφα που υποβάλλονται, διότι οι συγγραφείς συστηματικά παρερμηνεύουν την έννοια των δοκιμών σημασίας, με αποτέλεσμα τις αναποτελεσματικές ή λανθασμένες συστάσεις για Πολιτική δημόσιας υγείας.
Η συνάφεια της μελέτης περιορίζει τις γενικεύσεις.
Η σημασία της μελέτης εξαρτάται από το πόσο οι συνθήκες υπό τις οποίες γίνεται μοιάζουν με τις συνθήκες του υπό εξέταση θέματος. Για παράδειγμα, υπάρχουν όρια στις γενικεύσεις που μπορεί κανείς να κάνει στα πειράματα που πραγματοποιούνται σε ζώα ή εργαστήρια, για τον άνθρωπο.
Τα συναισθήματα επηρεάζουν την αντίληψη του κινδύνου.
Σε γενικές γραμμές, ο κίνδυνος μπορεί να θεωρηθεί ως η πιθανότητα για να συμβεί ένα γεγονός σε κάποιο χρονικό διάστημα, πολλαπλασιασμένη με τις συνέπειες που θα επιφέρει το συμβάν. Το αίσθημα του κινδύνου που αντιλαμβάνονται οι άνθρωποι επηρεάζεται δυσανάλογα από πολλά πράγματα, συμπεριλαμβανομένης της σπανιότητας του γεγονότος, πόσο έλεγχο πιστεύουν ότι έχουν στα πράγματα, η έλλειψη κατηγορηματικότητας των αποτελεσμάτων, και αν ο κίνδυνος είναι εκούσιος ή όχι. Για παράδειγμα, οι άνθρωποι στις Ηνωμένες Πολιτείες υποτιμούν κατά 100 φορές τους κινδύνους που συνδέονται με την κατοχή ενός όπλου στο σπίτι, και υπερεκτιμούν κατά 10 φορές τους κινδύνους για όσους ζουν κοντά σε έναν πυρηνικό αντιδραστήρα.
Οι εξαρτήσεις αλλάζουν τους κινδύνους.
Είναι δυνατόν να υπολογιστούν οι συνέπειες των ανεξάρτητων συμβάντων, όπως μια ακραία παλίρροια, οι έντονες βροχοπτώσεις και αν βασικοί εργαζόμενοι είναι απόντες. Ωστόσο, αν τα γεγονότα είναι αλληλένδετα, (για παράδειγμα, μια θύελλα προκαλεί υψηλή παλίρροια, ή η δυνατή βροχή εμποδίζει τους εργαζομένους να έχουν πρόσβαση στην τοποθεσία), τότε η πιθανότητα της συνύπαρξης των συμβάντων είναι πολύ υψηλότερη από ό, τι θα μπορούσε να αναμένεται. Η διαβεβαίωση από τους οργανισμούς αξιολόγησης πιστοληπτικής ικανότητας, ότι ομάδες στεγαστικών δανείων χαμηλής διασφάλισης είχαν εξαιρετικά χαμηλό κίνδυνο αθέτησης όλες μαζί , ήταν ένα σημαντικό στοιχείο στην κατάρρευση των πιστωτικών αγορών το 2008.
Τα δεδομένα μπορούν να αντληθούν σωρηδόν ή να διαλεχθούν με επιμέλεια.
Για να υποστηριχθεί μία άποψη μπορούν να οργανωθούν τεκμήρια. Για να ερμηνευθεί μία προφανής συσχέτιση μεταξύ της κατανάλωσης γιαουρτιού κατά τη διάρκεια της εγκυμοσύνης και το μετέπειτα άσθμα στους απογόνους, κάποιος θα πρέπει να γνωρίζει αν οι συγγραφείς έθεσαν ως στόχο να εξετάσουν αυτή τη μοναδική υπόθεση, ή αν το εύρημα προέκυψε μέσα από ένα τεράστιο σύνολο δεδομένων. Αντίθετα, οι ενδείξεις για το μποζόνιο Higgs υπογράμμιζαν ιδιαίτερα το πόσο σκληρά οι ερευνητές έπρεπε να ψάξουν γι? αυτό - το «Ψάξε-αλλού αποτέλεσμα». Το ερώτημα που τίθεται είναι: «Τι δεν μου ελέχθη»;
Ακραίες μετρήσεις μπορεί να παραπλανούν.
Κάθε παραβολή των μετρήσεων (η αποτελεσματικότητα ενός συγκεκριμένου σχολείου, ας πούμε) θα εμφανίσει μεταβλητότητα λόγω των διαφορών στην ενδογενή ικανότητα (καταλληλότητα των εκπαιδευτικών), τη δειγματοληψία (μπορεί κατά τύχη τα επιλεχθέντα παιδιά να είναι ένα άτυπο περίπλοκο δείγμα), την προκατάληψη (το σχολείο μπορεί να είναι σε μια περιοχή όπου οι άνθρωποι είναι ασυνήθιστα φιλάσθενοι), καθώς και το σφάλμα της μέτρησης (αποτελέσματα μπορεί να προκύψουν με διαφορετικούς τρόπους μέτρησης για διαφορετικά σχολεία). Ωστόσο, η προκύπτουσα μεταβολή συνήθως ερμηνεύεται μόνο ως διαφορά στην ενδογενή ικανότητα, αγνοώντας τις άλλες πηγές. Αυτό γίνεται προβληματικό με τις δημοσιεύσεις που περιγράφουν μια ακραία έκβαση («το ποσοστό επιτυχίας διπλασιάζεται») ή τη σύγκριση του μεγέθους του άκρου με το μέσο όρο («το ποσοστό επιτυχίας στο σχολείο x είναι τρεις φορές ο εθνικός μέσος όρος») ή το εύρος («υπάρχει μια διαφορά ψ-φορές μεταξύ της υψηλότερης και χαμηλότερης επίδοσης από τα σχολεία που εξετάζονται»). Σαν πιο συγκεκριμένο παράδειγμα, οι Πίνακες Βαθμολογίας, σπάνια είναι αξιόπιστες περιλήψεις των επιδόσεων.
ΠΗΓΗ: Nature 503, 335?337(21 November 2013) doi:10.1038/503335a
Απόδοση στην ελληνική γλώσσα Κώστας Τάνης