Alamak! Tiada ‘Krisis Kebolehulangan’ dalam Sains Psikologi

Apabila anda mempunyai projek penyelidikan - Open Science Collaboration (OSC) - yang merangkumi 270 saintis yang mengusahakan sains terobosan, anda berharap mereka akan mendapat beberapa asas yang betul. Seperti merancang kajian secara rawak yang tepat secara metodologi dan dapat diteliti oleh rakan sebaya mereka.

Tetapi artikel terbaru yang diterbitkan pada bulan Ogos 2015 oleh 44 penyelidik, "Menganggarkan kebolehulangan sains psikologi" (Nosek et al., 2015) nampaknya mempunyai beberapa kekurangan yang signifikan. Artikel baru menunjukkan bahawa sebenarnya tidak ada 'krisis kebolehulangan' dalam psikologi.

Empat penyelidik dari Universiti Harvard dan Universiti Virginia (Gilbert et al., 2016) menerbitkan penemuan mereka di Sains (laman web replikasi psikologi mereka menghoskan semua data dan bahan). Mereka percaya bahawa mereka menemui tiga kesalahan statistik utama dalam kajian asal yang mempersoalkan penemuannya dengan serius. Penyelidik baru mendakwa, "Sesungguhnya, bukti itu selaras dengan kesimpulan yang bertentangan - bahawa kebolehulangan sains psikologi cukup tinggi dan, pada kenyataannya, tidak dapat dibezakan secara statistik dari 100%."

Alamak.

Kajian asal (Nosek et al., 2015) cuba menghasilkan semula penemuan dari 100 eksperimen yang dilaporkan dalam makalah yang diterbitkan pada tahun 2008 dalam tiga jurnal psikologi peringkat tinggi. Kritikan pertama kajian adalah bahawa ini bukan pemilihan kajian psikologi secara rawak. Sebaliknya, kumpulan Nosek mengehadkan pemilihan kajiannya kepada hanya tiga jurnal yang mewakili dua disiplin psikologi, meninggalkan bidang utama seperti psikologi perkembangan dan klinikal. Kemudian Nosek et al. menggunakan sekumpulan peraturan dan kriteria sewenang-wenang yang benar-benar mendiskualifikasi lebih daripada 77 peratus kajian dari tiga jurnal yang mereka kaji.

Penyelidikan yang dimulakan dengan sampel berat sebelah pasti menghadapi masalah. Dengan tidak memulakan dengan sampel secara rawak, para penyelidik telah membantu menentukan tahap penemuan mereka yang mengecewakan.

Mari (Secara Penting) Ubah Kajian yang Kita Gandakan

Lebih buruk daripada memulakan dengan sampel yang tidak rawak dan berat sebelah adalah bagaimana penyelidik benar-benar melakukan ulangan. Pertama, penyelidik mengundang "pasukan tertentu untuk meniru kajian tertentu atau mereka membenarkan pasukan memilih kajian yang ingin mereka ulangi." Daripada menyerahkan penyelidik secara rawak kepada kajian yang akan ditiru, mereka membiarkan para penyelidik memilih - membawa kecenderungan setiap penyelidik, mungkin memilih kajian yang mereka anggap paling mungkin untuk ditiru.

Kajian baru kadang kala berbeza dengan kajian lama yang cuba mereka ulangi. Berikut adalah satu (sekurang-kurangnya selusin) contoh bagaimana kajian ulangan tersebut memperkenalkan komplikasi yang ketara:

Dalam kajian lain, pelajar kulit putih di Universiti Stanford menonton video empat pelajar Stanford lain yang membincangkan dasar kemasukan di universiti mereka (Crosby, Monin, & Richardson, 2008). Tiga daripada pembahasnya adalah Putih dan satu adalah Hitam. Semasa perbincangan itu, salah seorang pelajar Putih membuat komen yang menyinggung perasaan mengenai tindakan afirmatif, dan para penyelidik mendapati bahawa pemerhati memandang lebih lama pada pelajar Hitam ketika mereka percaya dia dapat mendengar komen orang lain daripada ketika dia tidak dapat. Walaupun peserta dalam kajian replikasi itu adalah pelajar di University of Amsterdam, mereka menonton video yang sama tentang pelajar Stanford bercakap (dalam bahasa Inggeris!) Mengenai dasar kemasukan Stanford.

Mungkinkah pelajar di universiti Amsterdam benar-benar memahami apa tindakan afirmatif di Amerika, memandangkan perbezaan budaya yang ketara antara masyarakat Amerika dan Amsterdam? Yang mengejutkan, para penyelidik yang melakukan replikasi mengatakan bahawa kajian itu "hampir sama" (dan secara semula jadi, mereka cenderung untuk mengatakannya, kerana mereka belajar). Namun para penyelidik asal, yang menyedari perbezaan budaya yang signifikan dalam kedua populasi, tidak menyokong kajian replikasi baru.

Gilbert dan rakan-rakannya menemui masalah seperti ini bukan hanya pada satu, tetapi juga banyak kajian replikasi. Nampaknya ganjil bahawa Nosek et al. merasa seperti ketidakkonsistenan semacam ini tidak akan mempengaruhi kualiti kajian (atau "kesetiaan," seperti yang disebut oleh penyelidik). Namun jelas ini adalah perbezaan kualitatif yang signifikan yang akan mempengaruhi pengulangan kajian.

Kami Memerlukan Lebih Kuasa!

Satu kajian boleh bertahan atau tidak sesuai dengan reka bentuknya. Dan bahagian penting dalam reka bentuk kajian penyelidikan adalah reka bentuknya kuasa. Kajian replikasi menggunakan reka bentuk yang kemungkinan akan gagal sejak awal. Reka bentuk berkuasa rendah tidak dapat mengambil ukuran kesan yang dapat dilakukan oleh kajian berkuasa tinggi. Dengan memilih untuk menggunakan reka bentuk kuasa rendah, Nosek dan rakan sekerja memastikan penemuan negatif mereka sebelum mereka mengumpulkan satu titik data.

Nosek dan rakan sekerja mengemukakan beberapa argumen untuk pilihan dalam reka bentuk, yang Gilbert et al. ditembak satu persatu dalam jawapan mereka. Kesimpulan Gilbert dan rakannya?

Ringkasnya, tidak ada argumen yang dibuat [oleh penyelidik replikasi] yang membantah fakta bahawa pengarang [kajian baru] menggunakan reka bentuk berkuasa rendah, dan bahawa (seperti yang ditunjukkan oleh analisis data ML2014 kami) ini mungkin menyebabkan meremehkan kadar replikasi sebenar dalam data mereka.

Penyelidik psikologi lain menjalankan eksperimen replikasi serupa pada tahun 2014 (Klein et al., 2014). Dengan menggunakan reka bentuk bertenaga tinggi, mereka mendapati bahawa kebanyakan kajian psikologi yang mereka kaji sama-sama berulang - 11 daripada 13 eksperimen dijalankan semula. Untuk menguji kesan reka bentuk berkuasa rendah Nosek et al., Gilbert et al. menganggarkan kadar replikasi kajian 2014 akan turun dari 85 peratus menjadi 34 peratus. Perbezaan yang ketara dan ketara.

Oleh itu, Apa Yang Kita Ketahui Sebenarnya mengenai Reproduktiviti Sains Psikologi?

Lebih daripada yang kita sangka. Memandangkan kritikan Gilbert et al. Dan tindak balas mawkish dari penyelidik asal, nampaknya Nosek et al. kajian cacat.

Nampaknya sains psikologi lebih banyak dihasilkan daripada yang kita sangka - berita baik untuk sains dan psikologi.

Rujukan

Gilbert, D., King, G., Pettigrew, S. & Wilson, T. (2016). Komen mengenai 'Menganggarkan kebolehulangan sains psikologi'. Sains, 351, 1037a-1037b.

Gilbert et al. (2016). Tindak balas terhadap balasan komen teknikal kami mengenai 'Menganggarkan kebolehulangan sains psikologi'.

Klein, RA, Ratliff, M Vianello, RB Adams Jr, Š Bahník, MJ Bernstein, et al. (2014). Menyelidiki Variasi Kebolehulangan: Projek Replikasi "Banyak Makmal". Psikologi Sosial, 45, 142-152

Nosek et al. & Kerjasama Ilmu Terbuka. (2015). Menganggarkan kebolehulangan sains psikologi. Sains, 349. DOI: 10.1126 / science.aac4716

Nosek et al. (2016). Tanggapan untuk mengulas mengenai 'Menganggarkan kebolehulangan sains psikologi'. Sains, 351, 1037. DOI: 10.1126 / science.aad9163

!-- GDPR -->