Machine Learning e l’uomo di Piltdown

Nell'interessante libro "Il pollice del Panda" si parla, tra l'altro, del caso dell'Uomo di Piltdown, una truffa perpetrata ai danni del mondo accademico nei primi anni del secolo scorso. Alcuni resti di un presunto ominide vennero ritrovati in Inghilterra: essi comprendevano una scatola cranica dalle fattezze umane ed una mandibola simile a quella di un orango. Tale era il desiderio del mondo accademico inglese di trovare finalmente sul suolo patrio un reperto paleontologico di rilievo, che subito la scoperta fu accettata da valenti studiosi.

Ai dubbi dello scienziato tedesco Franz Weidenreich sull'incongruenza reciproca dei reperti, Sir Keith rispose: "Questo non è altro che il tentativo di liberarsi di quei dati che non possono essere fatti rientrare nell'ambito di una teoria precostituita. Uno scienziato non dovrebbe eliminare tali fatti, ma dovrebbe costruire teorie in grado di spiegarli."

E qui arriva l'analogia con le tecniche di Machine Learning. Quando all'interno di un campione di dati sul quale stiamo addestrando un algoritmo di Data Mining troviamo degli elementi che si discostano palesemente da quanto visto in precedenza, abbiamo due possibilità.  La prima, nell'esempio dell'uomo di Piltdown,  è quella di adottare la posizione di Weidenreich: riteniamo che i dati siano degli errori nel campione, e quindi li scartiamo,  o filtrandoli oppure utilizzando un algoritmo che eviti l'overfitting su di essi.

La seconda possibilità è quella di seguire quanto disse (ma non fece) Sir Keith: elaboriamo una nuova teoria in grado di spiegarli, cioè modifichiamo i parametri dell'algoritmo di classificazione/regressione che stiamo utilizzando, oppure ne utilizziamo uno differente.

Sir Keith, invece, fece quanto non si dovrebbe mai fare: modificò i dati per adattarli alla teoria corrente. Egli infatti sottostimò il volume della scatola cranica trovata per renderla compatibile con quella di un ominide antenato dell'Homo Sapiens.

Meditate, gente, meditate!