Archive for the ‘motore di ricerca’ Category

Google Instant Previews: nel bene o nel male..

novembre 9, 2010

Google si sta sporcando le mani per sporcare il suo motore di ricerca. Quello che un tempo era un semplice visualizzatore di risultati, ora rimasto tale (o quasi) solo sulle periferiche mobili, sui pc desktop sta evolvendo in un accrocchio di strumenti-funzioni-aggiunte-plugins-temporeale e chissà cos’altro.

Questo nel bene o nel male ci porta a definire Google un’azienda che sperimenta senza timore, anche col rischio di infastidire e non piacere.

Dove trovarlo

L’ultimo experiment introdotto è appunto il Google Instant Preview, attivabile a questo indirizzo: www.google.com/instantpreviews

Video Dimostrativo

Caratteristiche principali

Una volta attivato il nuovo servizio, verremo redirezionati su Google.com e la pagina dei risultati sarà quasi identica a prima, tranne che per una piccola lente d’ingrandimento accanto al titolo dei risultati. (more…)

[Gmail] Novità + Trucchi che forse non conoscete

giugno 19, 2010

Mi sveglio e questo re-styling semplice ma molto efficace mi sorprende:

Che in confronto alla precedente versione sembra avere poco di differente: che razza di modifica è mai questa?

(more…)

[HOWTO] build user interface with GWT

gennaio 9, 2010

Previous Article: [HOWTO] install GWT on Gentoo

hi buddies,

this time we are going to see how we can build a user interface with google web toolkit for our web application.

(more…)

L’effetto farfalla: tutti a cercare pornografia

settembre 16, 2009

Tutto quello che avreste voluto sapere sul sessoE’ di pochi giorni fà l’ormai datata notizia che Bing si fa pubblicità su Adwords per parole chiave non propriamente adatte ad un motore di ricerca. Dalla ricerca della key “pornography” su Google, sembra siano apparsi risultati AdWords che collegavano direttamente a Bing, il pupillo Yaho-crosoft.

Non essendo qui per screditare nessuno nè per gettare alcohol sul fuoco, vorrei solo sottolineare come una notizia di questo tipo rimbalza nella rete e lo scandalo risulta quasi sempre essere una buona pubblicità, in questo caso per Bing che farà parlare di sè:

Trend_pornography_bingFonte: http://trends.google.com/trends?q=pornography&ctab=0&geo=all&date=2009-9&sort=0

Un po’ come quest’altra notizia. dove il citato night club si è guadagnato una denuncia ed una pubblicità impagabile.

Confronto motori di ricerca: Google e Bing

agosto 3, 2009

BINGQuello che vi propongo non è un vero e proprio confronto, è solo una curiosità che mi ha spinto a ricercare determinate parole chiave per vedere come si comportavano IL motore di ricerca (Google) e l’erede di MSN search (Bing).

Presupposti

Questa sfida parte dal presupposto che, cercando nel vecchio MSN, tali parole non portavano verso i lidi sperati.

La mia ricerca si è basata sull’unica chiave “radeon driver“: ipotizzo che un utente poco esperto con un computer vecchiotto, abbia finalmente formattato e voglia reinstallare i driver per la propria scheda video non conoscendo la marca (ATI) , ma ricordandosi che “c’entrava” qualcosa con la parola Radeon. (more…)

Gmail labs

agosto 3, 2009

gmailboxSappiamo che gli sviluppatori Google non si fermano mai. Dopo Android ecco spuntare dal nulla (ma auspicabile già da tempo) Chrome OS e chissà cos’altro ci attende in futuro. Sembra che bolla di tutto e per tutti i flavour nel BigG-Calderone, queste mega-anteprime portano incrementi immotivati della salivazione (Chrome OS verrà non prima del 2010) e ci fanno dimenticare delle cose spicciole, che possono aiutarci nella quotidianità, alleggerendoci il lavoro o deliziandoci per qualche minuto di svago. Vi ho parlato di tutto questo ambaradan semplicemente per introdurre i Gmail Labs! (more…)

Ocropus: OCR per linux by Google

giugno 15, 2009

octopus_1_mdSegnalo questo interessante ed utile progetto di riconoscimento ottico dei caratteri sponsorizzato da Google.

Dall’homepage del progetto:

OCRopus(tm) is a state-of-the-art document analysis and OCR system, featuring pluggable layout analysis, pluggable character recognition, statistical natural language modeling, and multi-lingual capabilities.

(more…)

Flash Indexing Experiment 2: Results

novembre 30, 2008
Google ha raggiunto l'oro?

Risultati: Google ha raggiunto l'oro?

Rieccoci con i promessi risultati del nostro Flash Indexing Experiment:

Questa (semplice?!?) tabella mostra un riassunto dei risultati nel tempo per i nostri 4 test ( test 1, test 2, test 3, test 4):

Legenda:

  • P = Presente. Il file è su internet e linkato nel Blog.
  • NP = Non Presente. Il file non è ancora stato inserito su internet
  • I [punti] = Il file risulta indicizzato nell’indice di Google. I punti sono i campi testuali dei vari file.
  • NI = Non Indicizzato. Il file non risulta nella serp di Google per le parole chiave.

Tabella riassuntiva:

Data
01-swf
01-html
02-swf
02-html
03-swf
03-html
Note
21/10 P – NI NP NP NP NP NP N/A
29/10 P – NI P – NI NP NP NP NP N/A
06/11 PI

[4,6,7]

P – NI P – NI P – NI NP NP N/A
13/11 PI

[3,5

,7,8]

PI

[1,3,5,

7,8]

PI

[4,6,7]

P – NI P – NI P – NI Scambio contenuti da 01SWF a 02SWF
15/11 PI

[1,3,5,

7,8]

PI

[1,3,5,

7,8]

PI

[4,6,7]

P – NI P – NI P – NI N/A
18/11 PI

[1,3,5,

7,8]

PI

[1,3,5,

7,8]

PI

[4,6,7]

P – NI PI[5,6,

8,9]

P – NI N/A
19/11 P – NI PI

[1,3,5,

7,8]

PI

[4,6,7]

P – NI PI[5,6,

8,9]

P – NI Sparito 01SWF
21/11 PI

[1,3,5,

7,8]

PI

[1,3,5,

7,8]

PI

[4,6,7]

P – NI PI[5,6,

8,9]

P – NI Ri comparso 01SWF
25/11 PI

[1,3,5,

7,8]

P – NI PI

[4,6,7]

P – NI PI[5,6,

8,9]

P – NI Scomparso 01HTML
27/11 PI

[1,3,5,

7,8]

PI

[3,5,8]

PI

[4,6,7]

P – NI PI[5,6,

8,9]

PI[1,4,7] Ri comparso parzial- mente 01HTML

I risultati dei quattro test svolti in contemporanea, sono nel complesso più che soddisfacenti. Google è arrivato a guadagnarsi l’oro olimpionico.

E’ riuscito difatti ad indicizzare quasi tutti i testi che ho sottoposto alla sua lettura.
Sono stati bene indicizzati:
  • testi statici;
  • testi dinamici inseriti mediante ActionScript con la funzione .text ( campoTesto.text = “Ecco il testo che comparirà all’utente”; );
  • testi statici all’interno di bottoni;
  • testi statici, con link;
  • testi dinamici inseriti direttamente nel campo di testo, con link;
  • testi statici esterni ai contorni del filmato;
  • testi dinamici inseriti direttamente nel campo di testo, esterni ai contorni del filmato;
  • link legati a testi statici (mediante l’opzione “collegamento ipertestuale” nelle proprietà del campo di testo);
  • link legati a testi dinamici (mediante l’opzione “collegamento ipertestuale” nelle proprietà del campo di testo).
Ecco cosa, invece, Google non è riuscito ad indicizzare bene o per niente:

  • testi trasformati in tracciato vettoriale ( mediante la funzione Break Apart );
  • link inseriti in oggetti o bottoni per mezzo dell’istruzione ActionScript: getURL();
  • difficoltà nell’indicizzare le pagine HTML contenenti i filmati Flash, a favore degli stessi filmati.
Ci sono state difficoltà per il motore di ricerca nell’indicizzare tutte queste tipologie di campi di testo e non sempre l’indicizzazione ha avuto esiti immediati.
Dai test si evince che le modalità con cui Googlebot memorizza ed indicizza il testo contenuto all’interno dei file Flash, sono approssimativamente regolari:

  • prima passata di GoogleBot e prima memorizzazione di testi e link. Google in questo passaggio predilige campi di testo in cui attiva l’opzione “collegamento ipertestuale”. I testi vengono memorizzati e compaiono dunque nella serp, ma i risultati sono confusionari perchè composti, per la maggior parte, da tag html che servono per definire le impostazioni del testo;
  • seconda passata di GoogleBot. Questa volta viene indicizzato un numero maggiore di campi di testo e vengono corretti gli errori di visualizzazione dovuti ai tag html;
  • terza passata correttiva e successive letture di assestamento. GoogleBot legge tutti i link che il suo algoritmo gli permette di indicizzare. Avviene quindi la stesura ed il completamento del corrispettivo testuale ai testi ed ai link dell’SWF.
Le fasi si susseguono con tempistiche variabili. La prima fase ha luogo in un arco di tempo abbastanza ampio: tra i 5 ed i 15 giorni.
Le fasi successive avvengono quasi sempre a distanza di 5-7 giorni l’una dall’altra.
Tutte le tempistiche sono ovviamente relative e dipendono da vari fattori quali: il carico di lavoro che Google sta elaborando in quel periodo; la popolarità e la longevità dello spazio web dove i contenuti vengono inseriti; la frequenza di aggiornamento del sito / blog dove sono stati inseriti i contenuti; la presenza o meno di sitemap che linkano i nuovi contenuti; tutto ciò che potrebbe influenzare l’algoritmo di Google e riguardare il sito / blog dove è stato inserito l’SWF.
Sperando che tutto ciò vi sia stato utile o, almeno, sia di vostro gradimento, vi invito a chiedermi ogni sorta di chiarimento, dubbio o consiglio. Alla prossima!

Google sa leggere! (… anche i documenti scannerizzati)

ottobre 31, 2008

Prego.. legga la prima riga.

Il cartello dell’oculista insegna che tutto si può leggere.

(basta avvicinarsi a sufficienza!)

Google ha annunciato che da ieri, grazie ad un sistema di Optical Character Recognition, è in grado di leggere documenti scannerizzati.

Per ora questa tecnica, chiamata anche OCR o Riconoscimento delle immagini, è “limitata” ai soli pdf composti da immagini.

Annuncio ufficiale dal blog di Google

Dunque testi che non erano disponibili fino ad ora, sono stati  e saranno indicizzati. Se avete scannerizzato un documento, avendo sempre contato sul fatto che non starebbe stato mai trovato da nessuno, vi conviene rivedere la vostra strategia…

Flash indexing experiment

ottobre 20, 2008

Ecco un esperimento per testare il grado di indicizzazione di google per quanto riguarda i contenuti in flash:

A breve inserirò un file da me appositamente creato con vari tipi di oggetti, testi e link all’interno, poi, quando google avrà indicizzato la pagina, vedremo insieme a che livello il suo nuovo algoritmo  può scavare nei contenuti swf

Il filmato in flash è così composto:

  • I punti da 1 ad 8 sono dei testi inseriti in 8 modi differenti nel movieclip.
  • Ogni punto è su un layer diverso, quindi non vi sono più oggetti testuali nello stesso layer.
  • Alcuni punti (5,6,7) hanno anche un link associato, che in teoria verrà indicizzato da Google.
  • E’ presente un testo che si trova fuori dallo Stage (il numero 8). Google dovrebbe indicizzarlo senza problemi.
  • L’swf è stato elaborato in Macromedia Flash 8 Professional.

Tutto questo serve per controllare la capacità di google di trovare tali testi ed indicizzarli con Googlebot. Per questo ogni punto è contraddistinto da una parola senza senso compiuto che, ricercata, dovrebbe aiutarmi a trovare questo e solo questo post.

Esperimento in flash

Edit: Il link sopra è collegato direttamente ad un file SWF e Google non sembra indicizzarlo poiché esso non è contenuto in una pagina html, provo a rimediare con quest’altro link in cui il file SWF è stato inserito in una pagina HTML:

Esperimento in flash 2

Edit #2: Attendendo l’indicizzazione dell'”Esperimento in flash 3″ presente in fondo ai risultati, aggiungo qui un’altra pagina con una versione modificata degli esperimenti 1-2-3:

Esperimento in flash 4

Modifiche introdotte:

  • usata, per tutti i testi che ne davano la possibilità, la funzione Embed, che integra il rendering del font nel file SWF;
  • resi selezionabili dall’utente i campi di testo;
  • aggiornati i testi con piccole modifiche per far sì che Google non veda questo esperimento come una copia identica dei precedenti e lo indicizzi;
  • modificate le parole chiave univoche;
  • aggiunti filtri grafici come ombre, bevel, glow ecc.. al testo.;
  • aggiunto un campo di testo esterno dinamico;

Risultati:

06-11-08:

  • Del filmato SWF, Google è riuscito fino ad ora ad indicizzare i punti 4, 6 e 7 che corrispondono rispettivamente a:
    • Testo Dinamico inserito nello stage ar7mcon9h
    • Link mediante testo Dinamico pounducknert
    • Link mediante testo statico odnwufbaic
  • Google non è riuscito quindi ad indicizzare i punti 1, 2, 3, 5 e 8.
  • Le parole chiave dei punti indicizzati danno risultati confusionari, pieni di tag html che male definiscono il contenuto dell’SWF. Questi errori di indicizzazione di testi renderizzati correttamente è ancora senza spiegazione.
  • Ecco i risultati per le tre ricerche:
  • In attesa di migliori risultati, linko qui un altra pagina, dove non viene utilizzato il font particolare che potrebbe “dar fastidio” a Google (font: Berlin Sans FB Demi), e dove i testi del file precedente sono tutti in Arial: Esperimento in flash 3

13-11-08:

  • Del filmato ProvaTesto01.swf , Google era riuscito fino ad ora ad indicizzare i punti 4, 6 e 7, mentre ora 4 e 6 non sono più rintracciabili per questo SWF e nella serp compaiono invece i punti 3, 5, 7 e 8 che corrispondono rispettivamente a:
    • 3 – Testo Dinamico inserito tramite ActionScript con il metodo .text vudnwocdhsm
    • 5 – Bottone, con all’interno testo statico, ed un link mediante ActionScript con il metodo GetURL rasghniola
    • 7 – Link mediante testo statico odnwufbaic
    • 8 – Testo statico esterno ai bounds del filmato azegulestrop
  • I punti 4 e 6 sono scomparsi dall’indicizzazione di questo file SWF dopo una settimana di presenza poichè, con l’inserimento di provaTesto02.swf, contenente le stesse frasi, Google l’ha giustamente considerato come un duplicamento di contenuti ed ha indicizzato provaTesto02.swf per  i punti 4,6 e 7.
  • Ora la ricerca tramite Google delle parole chiave dei punti indicizzati, non da più nella serp risultati confusionari. I risultati difatti hanno nel titolo e nella descrizione, le trascrizioni corrette dei testi e dei link presenti all’interno del file SWF, ordinati per Layer e per tipologia di oggetti (il testo inserito all’interno del bottone, ad esempio, viene visualizzato come ultima parola indicizzata).
  • Ecco i risultati per le quattro ricerche:
  • vudnwocdhsm:
  • rasghniola:
  • odnwufbaic:
  • azegulestrop:
  • E’ da notare come, per questo file swf, Google mostri i risultati dando come titolo il punto 1, corrispondente ad un campo di testo statico composto dal testo: “1 Prova di testo statico inserito a mano nel fil flash. qwelcaros” . Ma nonostante ciò non vi sono, per la ricerca della parola chiave “qwelcaros”, risultati nella serp.

15-11-08:

  • Del filmato ProvaTesto01.swf , Google era riuscito fino ad ora ad indicizzare i punti 3, 5, 7 e 8. Ora è stato indicizzato il punto 1:
    • 1 – Prova di testo statico inserito a mano nel fil flash. qwelcaros
  • Il risultato della ricerca:
  • qwelcaros:

Questi risultati mostrano le qualità del nuovo algoritmo di Google, che è stato in grado di indicizzare tutti i campi di testo che gli ho sottoposto.

Per evitare di dilungarmi molto nella trascrizione dei risultati, ho preparato una tabella riassuntiva in cui descrivo l’esito documentato dei test.


Iscriviti

Ricevi al tuo indirizzo email tutti i nuovi post del sito.