Penyelidikan Buruk: Istilah Carian Seks Popular

Orang suka seks. Mereka sangat menyukai seks, mereka menghabiskan banyak masa untuk mencarinya dalam talian. Pergi angka. (Anda dapat memberitahu bahawa saya akan mempelajari perkara yang sangat hebat dan hebat di sini ...)

Penyelidik Ogi Ogas dan Sai Gaddam baru-baru ini menerbitkan sebuah buku, Sejuta Pemikiran Jahat, memperincikan analisis mereka terhadap 400 juta carian yang mereka kumpulkan dari mesin carian Dogpile. Dari 400 juta carian tersebut, 13 peratus (55 juta) adalah untuk kandungan erotik.

Bagaimana 55 juta carian itu dihancurkan? Mari kita cari ... tetapi mari kita lihat juga metodologi penyelidik ini untuk melihat apakah penemuan mereka bernilai dari kertas yang dicetak. (Sekiranya anda tidak berfikir, anda mungkin betul.)

Jadi inilah yang dicari oleh orang-orang di Dogpile berkaitan dengan minat seksual. Perhatikan bahawa istilah di bawah adalah kategori umum untuk mencari minat itu, yang merangkumi pelbagai jenis istilah. Permutasi ini (seperti "tetek" untuk payudara) tidak disenaraikan di bawah; gunakan imaginasi anda.

  1. Belia - 13.5 peratus
  2. Gay - 4.7 peratus
  3. MILFs (Ibu Saya Mahu F ***) - 4.3 peratus
  4. Payudara - 4.0 peratus
  5. Isteri curang - 3.4 peratus
  6. Faraj - 2.8 peratus
  7. Zakar - 2.4 peratus

Sampah Masuk, Sampah Keluar

Terdapat pepatah lama dalam pengaturcaraan komputer - GIGO: Garbage In, Garbage Out. Ini berlaku dengan baik untuk setiap usaha ilmiah, yang hanya sebaik data yang anda pilih untuk dianalisis. Sekiranya anda memulakan dengan set data yang boleh dipertanyakan atau nilai umum, anda mungkin membuat kesimpulan yang tidak mempunyai kaitan dengan kenyataan.

Dalam hal ini, terdapat masalah besar dengan data kajian yang dikumpulkan oleh penyelidik ini. Mereka tidak datang dari Google atau bahkan Bing. Mereka berasal dari mesin carian yang tidak dikenali yang disebut "Dogpile" yang bahkan bukan mesin carian. Apa itu Dogpile hanyalah mesin penggabungan hasil carian dari Google, Yahoo dan Bing (kerana Bing kini menyediakan data carian mereka kepada Yahoo, saya tidak pasti mengapa masih ada perbezaan ini).

Ini tidak sama dengan carian yang dilakukan di Google melalui Google.com, atau carian yang dilakukan di Bing melalui Bing.com. Anda sebenarnya harus pergi ke laman web Dogpile untuk mendapatkan hasil ini - hasil yang membentuk set data untuk penyelidik semasa. Sekiranya anda melakukan carian di Google.com, carian anda tidak akan dianalisis oleh penyelidik ini (yang masuk akal, kerana Google dan Bing tidak menjadikan data yang dikumpulkannya pada carian tersedia untuk para penyelidik).

Apa yang mungkin membuat Dogpile tidak banyak digunakan adalah kenyataan bahawa ia menggabungkan iklan carian yang ditaja dengan hasil carian organik dengan hampir tidak ada petunjuk visual yang dilakukannya. Cetakan kecil di akhir setiap hasil carian memberi tahu anda sama ada hasil "ditaja" atau tidak - mis., Iklan. Dalam carian untuk "kemurungan" di Dogpile, 14 dari 20 hasil carian pertama adalah iklan - bukan sesuatu yang sering ditanggung oleh orang biasa.

Orang yang mencari kandungan dalam talian telah lama memutuskan untuk meninggalkan penggunaan mesin pencari yang mencuba dan mencampurkan iklan dengan hasil sebenar. Sebabnya mudah - orang akan mengklik iklan apabila mereka berminat dengan produk atau perkhidmatan yang ditawarkan. Mereka tidak suka tertipu untuk mengklik apa yang mereka anggap sebagai hasil carian, hanya untuk mengetahui bahawa iklan itu menyamar.

Jadi siapa yang menggunakan Dogpile? Siapa tahu, tetapi pastinya bukan pengguna Internet arus perdana. Walaupun lebih dari 150 juta orang menggunakan Google dan 90 juta menggunakan Bing.com, Dogpile sedikit sebanyak 2-3 juta orang sebulan dibandingkan dan jauh lebih rendah daripada 0,05 persen dari keseluruhan pasaran mesin pencari.

Bolehkah anda melakukan tinjauan pada set data yang begitu kecil dan mencuba dan menggunakan asap dan cermin untuk membuatnya seolah-olah anda benar-benar melakukan penyelidikan yang sama seperti yang dilakukan Institut Kinsey pada tahun 1950-an dan 1960-an? Anda pasti boleh.

Sebagai contoh, Ogi Ogas dan Sai Gaddam mengatakan mereka menganalisis 400 juta carian Internet. Tetapi bandingkan angka ini dengan 3 bilion carian yang dilakukan setiap hari, menurut Hitwise, sebuah syarikat analisis dalam talian. Tiba-tiba 400 juta - walaupun kelihatannya jumlah yang mengagumkan dalam kekosongan - kelihatan jauh lebih hebat apabila dimasukkan ke dalam semacam konteks data. 400 juta carian adalah setara dengan apa yang dilakukan dalam kira-kira 3 jam. Dalam satu hari.

Tentu saja, konteksnya adalah segala yang berkaitan dengan set data, terutama ketika set data tersebut cenderung berat sebelah dengan cara yang tidak pernah anda ganggu untuk menyiasatnya. Dalam contoh ini, kumpulan data dipengaruhi oleh penggunaan mesin carian Dogpile - mesin carian kecil dan khusus yang lebih cenderung daripada tidak digunakan oleh subset populasi tertentu yang berbeza dari populasi yang lain.

Oleh itu, ambil senarai ini dengan sebutir garam. Ia menarik, tetapi saya tidak pasti ia mencerminkan populasi umum. Dan pastinya tidak bernilai membeli keseluruhan buku yang merangkumi set data yang cacat ini.

!-- GDPR -->