Motore di Ricerca

Nell’ambito delle tecnologie di Internet, un motore di ricerca (in inglese search engine) è un sistema automatico che, su richiesta, analizza un insieme di dati (spesso da esso stesso raccolti) e restituisce un indice dei contenuti disponibili[1] classificandoli in modo automatico in base a formule statistico-matematiche che ne indichino il grado di rilevanza data una determinata chiave di ricerca.

Uno dei campi in cui i motori di ricerca trovano maggiore utilizzo è quello dell’information retrieval e nel web.

Descrizione

Concettualmente un motore di ricerca è un sistema molto simile ad un’applicazione web ovvero un sistema client-server, attraverso la rete Internet, dove il client è rappresentato dal web browser dell’utente che su richiesta dello stesso si connette ad un server il quale a sua volta esegue una query di ricerca, tramite opportuni algoritmi di ricerca, su dei database(database distribuiti). Nell’analisi dei risultati forniti in output un componente essenziale è il cosiddetto crawler o spider. Un buon motore di ricerca è quello che riesce a trovare il maggior numero di contenuti in linea con la tipologia di richiesta ordinandoli per importanza e rilevanza secondo la specifica di ricerca.

Fasi operative

Il lavoro dei motori di ricerca si divide principalmente in tre fasi:

  • analisi del campo d’azione (tramite l’uso di crawler appositi);
  • catalogazione del materiale ottenuto;
  • risposta alle richieste dell’utente;

Catalogazione

Dopo l’analisi delle pagine, a seconda di criteri che variano da motore a motore, alcune di esse vengono inserite nel database e nell’indice del motore di ricerca.

La parte testuale archiviata durante la fase di analisi verrà in seguito analizzata per fornire le risposte alle ricerche degli utenti. Molti motori di ricerca sul web rendono anche disponibile una copia dei dati testuali di ogni pagina archiviata per quando la risorsa originale sia irraggiungibile: questa funzione è detta copia cache.

Risposta

Rispondere alle richieste degli utenti implica la necessità di elencare i siti in ordine di rilevanza rispetto alla richiesta ricevuta.

Per stabilire la rilevanza di un sito vengono cercati nel database quei documenti che contengono la parola chiave inserita dall’utente, dopodiché ogni motore di ricerca sfrutta propri algoritmi per classificare le pagine, controllando, per esempio, quante volte le parole chiave vengono ripetute, quanti link riceve quel documento, in quali punti della pagina sono poste le parole chiave, quanti siti del database contengono link verso quella pagina, o quante volte un utente ha visitato quel sito dopo una ricerca.

Raffinamento della ricerca

La possibilità di raffinare la ricerca varia da motore a motore, ma la maggior parte permette di utilizzare operatori booleani: ad esempio è possibile cercare “Ganimede AND satellite NOT coppiere” per cercare informazioni su Ganimede inteso come pianeta e non come figura mitologica.

Su Google e sui motori più moderni è possibile raffinare la ricerca a seconda della lingua del documento, delle parole o frasi presenti o assenti, del formato dei file (Microsoft Word, PDF, PostScript, ecc.), a seconda della data di ultimo aggiornamento, e altro ancora. È anche possibile cercare contenuti presenti in un determinato sito, ad esempio “Ganimede site:nasa.gov” cercherà le informazioni su Ganimede presenti sul sito della NASA.

Su Exalead si trova una parte speciale per raffinare la ricerca più intuitivamente.

Indicizzazione

Per indicizzazione si intende l’inserimento di un sito web nel database di un motore di ricerca. L’indicizzazione di un sito internet, in altre parole, è il modo in cui il sito viene acquisito e interpretato dai motori di ricerca e quindi compare nelle loro pagine di risposta alle interrogazioni degli utenti web.

Posizionamento

Con il termine posizionamento s’intende l’acquisizione di visibilità tra i risultati dei motori di ricerca. Più specificamente, è l’operazione attraverso la quale il sito viene ottimizzato per comparire nei risultati in una posizione il più possibile favorevole e rilevante.

Ottimizzazione

Con il termine ottimizzazione per i motori di ricerca si intendono, nel linguaggio di internet, tutte quelle attività volte a migliorare la visibilità di un sito web sui motori di ricerca (quali ad es. Google, Yahoo!, ecc.) al fine di migliorare (o mantenere) il posizionamento nelle pagine di risposta alle interrogazioni degli utenti del web. A sua volta, il buon posizionamento di un sito web nelle pagine di risposta dei motori di ricerca è funzionale alla visibilità dei prodotti/servizi venduti.

Risultati sponsorizzati

I motori di ricerca forniscono anche risultati sponsorizzati, ovvero mostrano in maggiore evidenza nelle SERP (Search Engine Result Pages, Pagine dei risultati dei motori di ricerca) siti web di aziende che pagano per risultare tra i primi risultati quando si cercano termini (detti keyword o parole chiave) che sono in relazione all’ambito di competenza dell’azienda stessa. I risultati sponsorizzati dei motori possono apparire anche sui siti che partecipano al loro programma di affiliazione. In particolar modo, Google permette di far apparire nelle proprie SERP (chiaramente distinti dai risultati “naturali”) risultati a pagamento comprati con il programma AdWords. In aggiunta a questo offre anche un servizio di sponsorizzazione che si rivolge a tutti i siti che hanno determinati requisiti, chiamato AdSense. Google AdSense (spesso abbreviato con Google AS) usa le capacità del motore di ricerca di interpretare il tema della pagina in cui è posizionato l’apposito codice per fornire annunci a tema. Yahoo! Search ha annunciato l’arrivo di un programma analogo chiamato Panama.

Motori di ricerca più diffusi

  • Google, oltre ad essere di gran lunga il più usato direttamente, è anche quello con il maggior numero di siti che ne utilizzano il database, anche a causa del programma di sponsorizzazione “AdSense per la ricerca” che appartiene al più vasto programma AdSense.
  • Yahoo!
  • Microsoft Bing (Bing è il motore creato dalla Microsoft ed usato da Microsoft Network, meglio noto come MSN).
  • Ixquick (Ixquick è uno dei pochi motori di ricerca al mondo a garantire la privacy, poiché non conserva né registra gli ip di chi effettua ricerche).
  • Ask.com, usato dalla versione italiana di Excite per un rapporto di partnership.
  • FileByType è una raccolta di moduli di ricerca basati sulle categorie.
  • Ecosia, motore di ricerca ecologico, viene prodotto meno anidride carbonica degli altri server dei concorrenti,l’80% dei proventi vengono utilizzati per piantare alberi in giro per il mondo e diminuire il disboscamento, è stato fondato in collaborazione con WWF

TensorFlow è il sistema di machine learning, l’intelligenza artificiale di Google, rilasciata sotto licenza FOSS, sia per scopi di ricerca che di business. TensorFLow è in grado di girare senza problemi su un PC desktop, un gadget mobile, un supercomputer o scalare sulle infrastrutture distribuite nel cloud. Il sorgente aperto dalla versione 0.8 (Aprile 2016) supporta il calcolo distribuito che, tramite più processori operanti in parallelo, consente di ridurre i tempi di autoapprendimento da giorni o settimane, a poche ore.

In modo simile, Microsoft Cognitive Service è il sorgente aperto per i bot di intelligenza artificiale del noto motore di ricerca.

Le prime quattro tecnologie proprietarie sono utilizzate da una quantità sterminata di provider e di metamotori di ricerca (il cui nome deriva proprio dal pescare i propri risultati da più motori, come il metamotore incorporato nel portale Excite). A più riprese Microsoft ha provato a comprare Yahoo!, cosa che avrebbe portato ad un ulteriore accorpamento e riduzione delle tecnologie proprietarie in campo, a causa della fusione di Live (il motore della Microsoft) e Yahoo! Search. L’ultimo rifiuto di Yahoo è riportato dal Wall Street Journal in data 6/5/2007 (a fronte di un’offerta di circa 50 miliardi di dollari da parte della società fondata da Bill Gates).

L’unico motore con una tecnologia proprietaria in qualche modo affiancabile come utenza ai quattro big è il cinese Baidu www.baidu.com (la cui inferiorità tecnologica è palese[senza fonte], ma che attinge ad un bacino di utenza tanto vasto quanto in crescita, sebbene appartenente ad una sola nazione).

Parte delle descrizioni dei siti presentate nei risultati di ricerca dai principali motori sono importate da DMOZ – ODP. ODP, acronimo di Open Directory Project, non è un motore ma una open directory (basata su listing e recensioni fatte da esseri umani[1], anche se esistono alcuni meccanismi automatici per eliminare i siti estinti). È stata creata da Netscape, a sua volta comprata da AOL nel 1998 per quasi 25 miliardi di dollari, ed appartiene tuttora ad AOL (che è la divisione internet di Time Warner, divisione nella quale Google ha una modesta partecipazione azionaria).

In Italia

  • Google è utilizzato anche da Libero, Yootube-find, Arianna e Tiscali (per un rapporto di partnership). In Italia il divario fra l’utilizzo di Google e degli altri è talmente vasto che, pur essendo i dati ovviamente variabili, la percentuale delle ricerche effettuate su Google è pari ad un multiplo della somma di tutti gli altri motori di ricerca messi assieme.
  • Yahoo! è utilizzato anche da AltaVista, che venne acquistata indirettamente da Yahoo! quando quest’ultima acquisì Overture, nonché da Kataweb per un rapporto di partnership.
  • Virgilio.it è legato a Google da un rapporto di partnership da diversi anni e ne importa (cosa immediatamente verificabile da chiunque) i risultati di ricerca con minime modifiche come aggiungere propri risultati sponsorizzati ed accorpare quelli che fanno riferimento allo stesso dominio.
  • istella è un motore di ricerca sviluppato da Tiscali.

Motori di ricerca per il web

Esistono numerosi motori di ricerca attivi sul web. Il più utilizzato, su scala mondiale (con un indice che supera gli 8 miliardi di pagine), è Google; altri motori molto utilizzati sono quello di Yahoo, il motore cinese Baidu (quinto sito internet al mondo a giugno 2015 per numero di accessi dopo Google, Facebook, YouTube e Yahoo secondo le stime di Alexa), e anche Live e Bing (motori di ricerca di Microsoft).

Poi esistono motori utilizzati prevalentemente solo in alcune zone geografiche, come il motore di ricerca russo Yandex, che secondo la stessa Yandex generava circa il 64% delle pagine di ricerca in Russia nel 2011 e il 58% ad aprile 2015. Da segnalare il tentativo di creare il primo motore di ricerca europeo, Quaero concorrente di Google con una iniziativa franco-germanica. Il progetto, stimato attorno ai 400 milioni di dollari, è stato abbandonato dopo pochi mesi per la rinuncia da parte della compagnia tedesca. Sempre in ambito europeo dal 2013 è entrato nel mercato dei motori di ricerca il francese Qwant.

Fra i motori di ricerca nati in Italia quelli maggiormente utilizzati in Italia sono Arianna, inglobato nei portali Libero e Virgilio. Tuttavia questi motori di ricerca si limitano a riutilizzare i risultati di Google: Libero ne evidenzia chiaramente il logo, mentre Virgilio ne usa i risultati senza evidenziarne la fonte, limitandosi solo ad aggiungere alcuni propri risultati sponsorizzati.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *