Latest on the Press
- 25/12/2011 - Tg24.Sky.it - Agenda Digitale, ecco il Piano Strategico del governo Monti
- 14/12/2011 - Italia Oggi - L'innovatore per eccellenza
- 20/12/2011 - Business&Gentlemen - Information Foraging
- CEFRIEL accompagna le aziende nell'innovazione a livello mondiale, parola di "The Indipendent"
- 13/12/2011 - Webdieci.com - Politecnico di Milano. Investimenti in ICT, per la PA risparmi fino a..
- 13/12/2011 - Beefly.it - L’investimento Ict nelle aziende e nelle Pubbliche Amministrazioni
- 10/12/2011 - Progressonline.it - Smau Business fa tappa a Brescia
- 09/12/2011 - Thebizloft.com - Sull'Rfid gli analisti si sono sbagliati? La risposta di 6 esperti
- 09/12/2011 - Il Mondo - Più It, meno sprechi
- 07/12/2011 - Thinkinnovation.org - Politecnico di Milano. Investimenti in ICT, per la PA risparmi..
| 17/03/2009 Office Automation - Anatomia di un motore di ricerca semantico |
|
There are no translations available. Anatomia di un motore di ricerca semantico (File Pdf, 1MB) di Emanuele Della Valle
Tutti noi siamo abituati ad usare quotidianamente dei motori di ricerca per i motivi più svariati come cercare informazioni sul Web, prenotare aerei o alberghi, recuperare le mail ricevute. Non solo: siamo anche abituati a trovare quello che cerchiamo in poco tempo perché spesso lo troviamo tra i primi risultati restituiti. Per questo motivo, vorremo utilizzare motori di ricerca per trovare ogni altro tipo di informazione come contenuti multimediali (immagini, musica, video, etc.), informazioni su persone e servizi. Non sempre, però, riusciamo. Cosa c’è di tanto diverso tra cercare una pagina Web, un’immagine, un video, una persona o un servizio? Perché se cerchiamo “Milano” su Google o Yahoo! troviamo pagine Web che parlano della città, mentre la stessa ricerca su Google e Yahoo! Images mostra quasi esclusivamente immagini dell’attrice “Alyssa Milano”? Questo sistema, utilizzato da tutti i principali motori di ricerca, è molto efficace per eseguire delle ricerche per parola chiave; è particolarmente adatto per trovare pagine web. Infatti, come illustrato in Figura 2, il crawler da una pagina Web può seguire i link uscenti e scovare altre pagine Web. Con questo non si pensi che sia un lavoro semplice passare in rassegna 100 miliardi di pagine di cui alcuni miliardi con una frequenza giornaliera. Anche il lavoro dell’indexer, se pur massivo, non è molto complesso: si tratta di escogitare un modo “furbo” di ricordare quali parole compaiono in quale pagina Web. Anche i metadati non sono difficili da individuare, si tratta del lessico delle varie lingue. Il ranker può utilizzare i link come criterio di ordinamento. Ad esempio, il cuore tecnologico di Google è l’algoritmo di ranking PageRank™: più sono numerosi i link entranti in una pagina più la pagina deve essere importante. Un ultimo punto, che normalmente si tende a trascurare, è l’immediatezza di cercare pagine testuali scrivendo parole in esse contenute. Che cosa succede, però, quando si vuole realizzare un motore di ricerca per contenuti multimediali, persone o servizi? In Figura 3, sono mostrate le principali problematiche. Le risorse multimediali solitamente non contengono riferimenti espliciti ad altre risorse multimediali; i link, se ci sono, sono nelle pagine che contengono le risorse multimediali. La mancanza di link impatta negativamente anche sul ranker perché algoritmi come PagaRank™ sono inutilizzabili. Il vero problema, però, è estrarre informazioni. L’index nel caso di risorse multimediali ha un compito molto difficile. Ad esempio, per trascrivere il parlato di un video di 10 minuti occorre spendere circa 12 minuti; per riconosce i parlanti ci possono volere altri 3 minuti; per riconoscere i volti, poi, ci posso volere fino a 40 minuti. Anche capire cosa sono i metadati è complesso: qual è l’equivalente del lessico per i contenuti multimediali? Infine, non è banale neppure eseguire le ricerche e ispezionare i risultati. Ad esempio, come si fa a trovare una canzone di cui ci si ricorda la melodia, ma non si sa né il titolo né l’autore? Il problema sostanziale è che l’informazione contenuta in molte risorse non è direttamente elaborabile dalle macchine (in particolare se le risorse non sono testo): è ambigua. Le ricerche in questo campo sono numerose e ogni giorno si sente parlare di innovazioni, star-up e acquisizioni. Microsoft ha di recente acquisito per $1.2 miliardi FAST, il leader mondiale nel campo dei motori di ricerca aziendali, e per $100 milioni Powerset, il motore di ricerca semantico della Silicon Valley. CEFRIEL sta esplorando questo settore dal 2004. Il primo risultato tangibile è stato Squiggle: una soluzione concreta, benché prototipale, per costruire motori di ricerca semantici. Benché ancora nella sua versione sperimentale, Squiggle è stato impiegato per realizzare un motore di ricerca per immagini degli sciatori impegnati nelle Olimpiadi Invernali di Torino 2006 e ha vinto il secondo premio come migliore idea di business alla StartCup Milano Lombardia del 2008. I risultati di Squiggle hanno spinto CEFRIEL a proporre il progetto europeo Service-Finder insieme a seekda (una start-up austriaca il cui business è incentrato sulla realizzazione di un motore di ricerca verticale di servizi), ontoprise (uno dei leader europei nel settore delle tecnologie semantiche) e l’Univeristà di Sheffiel (il leader europeo nel settore dell’elaborazione del linguaggio naturale). Il progetto si pone l’ambizioso obiettivo di realizzare il primo motore di ricerca semantico per servizi. Il progetto è stato co-finanziato dalla Comunità Europea nel gennaio del 2008 ha reso disponibile sul Web la versione alfa del suo motore di ricerca nel dicembre del 2008 (http://demo.service-finder.eu). Il motore di ricerca Service Finder è realizzato secondo lo schema di funzionamento mostrato in Figura 4. Un crawler innovativo scova sul Web i servizi e le pagine che con una certa probabilità li descrivono. Le pagine così trovate vengono analizzate per determinare il loro grado di pertinenza e selezionare che, presumibilmente, descrivono il servizio. Un ulteriore passo di analisi permette di identificare il contenuto prevalente di una pagina, ossia se si tratta di una pagina in cui sono descritti i dettagli sul prezzo, o i contatti del provider, o la documentazione tecnica del servizio. Ulteriori analizzatori cercano di determinare il numero maggiore possibile di informazioni su chi mette a disposizione il servizio come il nome dell’azienda, le modalità per contattarla e la nazionalità. L’insieme delle informazioni identificate sono poi usate per classificare il servizio nelle categorie previste da Service Finder. Tutte le informazioni raccolte vengono rappresentate in RDF secondo l’ontologia interna di Service Finder. Tale ontologia è composta da due parti: le categorie e la descrizione dei servizi. Entrambe hanno un ruolo importante anche nel portale: la prima permette la ricerca per categorie, mentre la seconda determina la struttura delle pagine del portale. |
