Monthly Archives: May 2018

bell curve

Când fac un sondaj, organizatorii încearcă să aleagă eșantionul cât mai reprezentativ pentru ca sondajul să fie cât mai corect.  După ce se colectează un număr relativ mare de respondeți, se declară marja de eroare și se anunță în presă rezultatele sondajului. Atenție însă, marja de eroare este de fapt o eroare tehnică (adică câte % din oameni au greșit indicațiile). Aceasta nu e o eroare de la purul adevăr care sondajul trebuie să-l găsească. Recomandarea mea este ca această eroare să nu fie inclusă în slide-uri pentru a nu induce în eroare jurnaliștii.

Părerea mea subiectivă este că toate sondajele realizate până acum sunt făcute greșit. Vă explic și de ce.

Problema este în alegerea eșantionului reprezentativ.

Noi, oamenii, când încercăm să facem eșantionul ne străduim să inventăm câteva categorii de persoane, apoi vedem care este distribuția lor în societate și repectiv extrapolăm în eșantion.

De exemplu: Eșantionul e de 1000, iar studenți în țară sunt 5% înseamnă că în eșantion trebuie să avem exact 50 studenți, nici mai mult nici mai puțin.

Aceste categorii în domeniul Machine Learning se mai numesc features.  Noi, oamenii, încercăm să gândim ce categorii de oameni poate să voteze diferit de o altă categorie și să le includem în sondaj pe ambele; Machine Learning ia în vedere orice bifă care indică fiecare om și încearcă să și calculeze care anume din aceste bife influențează deciziile omului.

Extragerea features sau embed-urilor nu este o noutate în domeniul deep learning. Mai țineți minte cum Google Translate și-a inventat propriul limbaj de comunicare? Sau cum diacritice.ai plasează corect diacritice fără să știe măcar regulele limbii române?

Deci cum ar trebui să arate un sondaj făcut corect?

  1. Trebuie să colectăm cât mai multă informație despre persoanele care au votat în trecut și cum au votat ei.
  2. Crearea unor embed-uri în baza acestor date.
  3. Crearea unui sondaj și colectarea a cât mai multor respondenți.
  4. Eliminarea repondenților care nu sunt relevanți conform proporției de embeduri.
  5. Publicarea datelor statistice de la respondenții rămași.

Știu, veți spune că niciodată nimeni nu va declara cu cine a votat și cu atât mai mult o mulțime de bife care indică totul despre el. Sunt de acord cu voi.

Ne rămâne până atunci să ne jucăm de-a pseudo-sondajele.