Le "comunità" sul web: .it e .uk a confronto


    al setaccio il contenuto dei siti internet e la ragnatela dei link per gli inglesi offerta specializzata, italiani più attratti dai portali generalisti

    26/11/2007

    Marco Pellegrini:

    Primo ricercatore dell’Istituto di Informatica e Telematica del Cnr.

    È possibile vedere, classificare e riassumere i contenuti e le comunità più diffuse nel web italiano, sparse su milioni e milioni di siti?

    L’Istituto di Informatica e Telematica ha sviluppato una tecnologia che si basa sulla scoperta e classificazione semi-automatica delle comunità presenti all’interno di un dominio nazionale (per esempio, tutte le pagine con suffisso .it, o tutte le pagine col suffisso inglese .uk).

    Una comunità di pagine è un insieme di pagine con puntatori (detti iper-link o link) reciproci così da formare una rete densa di interconnessioni.

    La densità di link è un buon indicatore della facilità di accesso, della navigabilità e dell’interconnessione delle pagine coinvolte attorno ad una tematica unificante.

    Tabella 1 - Le principali comunità web

    POS NOME DIMENSIONE TIPO
    1 www.wonder.it 22.533.670 Lavoro
    2 Libero.it 2.723.364 Portale
    3 Hotlinks.it 2.283.521 Portale
    4 Tiscali.it 1.898.809 Portale
    5 Outseek.it 1.735.121 Portale
    6 Kataweb.it 1.491.147 Portale
    7 www.hwupgrade.it 1.195.380 Computer
    8 Virgilio.it 1.188.850 Portale
    9 Ebay.it 864.662 Shopping
    10 Eco-rete 706.308 Energia
    11 Comuni pugliesi 709.290 Enti locali
    12 Excite.it 690.306 Portale
    13 www.cremonaweb.it 540.540 Enti locali
    14 Html.it 486.992 Computer
    15 Apriti Sesamo 479.169 Associazioni
    16 Snark.it 472.440 Portale
    17 www.dsy.it 390.650 Portale
    18 PMI Piccole e medie imprese 343.860 Enti locali
    19 www.marijuana.it 246.276 Interessi giovanili
    20 Immobiliare 235.656 Immobiliare
    21 Bancoposta.it 215.162 Portale
    22 Lycos.it 166.810 Portale
    23 Jumpy.it 163.898 News
    24 Pneumologi 130.032 Medicale
    25 Rai.it 117.175 News
    26 Splinder.it 110.212 News

    Una volta individuata una comunità, dalle sue pagine abbiamo estratto parole chiave così da poter procedere ad una classificazione per area merceologica o per interesse generale.

    E’ importante che le categorie non vengano decise a priori ma emergano dai dati stessi per poter osservare fenomeni nuovi e inaspettati.

    Inoltre la valutazione della dimensione di una comunità tramite il conteggio del numero di link ci dà una importante misura quantitativa oltre alla discriminante qualitativa.

    Questa attività di estrazione di informazioni ad alto livello ci permette di mostrare ad analizzare in modo comparativo il dominio nazionale italiano per l’anno 2004 (suffisso .it) e quello britannico per l’anno 2005 (suffisso .uk).

    Per l’Italia abbiamo raccolto 41 milioni di pagine ed un miliardo e 150 milioni di link. Per il Regno Unito sono state raccolte 39 milioni di pagine e 950 milioni di link.

    La difficoltà principale nel trattare tali moli di dati sta nella necessità di filtrare le informazioni utili eliminando quelle inutili o meno utili, fino a ridurre la quantità di dati a dimensioni maneggiabili ma ancora rappresentativi del fenomeno da analizzare.

    I dati: analisi dei gruppi tematici

    Nel dominio .it abbiamo individuato 1033 comunità che abbiamo suddiviso in 66 gruppi per parole chiave. Ogni gruppo è poi stato classificato manualmente per argomento generale. Abbiamo poi distinto le comunità maggiori riconducibili a singole società, marchi o enti con numero di link al di sopra dei 100mila (vedi Tabella 1), e le comunità diffuse, le quali singolarmente abbiano un conteggio inferiore ai100 mila link (vedi Tabella 2). Nel dominio .uk abbiamo individuato 771 comunità che abbiamo suddiviso in 62 gruppi per parole chiave. Ogni gruppo è poi stato classificato manualmente per argomento generale distinguendo come sopra comunità maggiori (vedi Tabella 3) e comunità diffuse (vedi Tabella 4). Analogamente al caso precedente i gruppi sono ordinati per numero di link che contengono.

    Tabella 2 - Catalogazione di tutte le comunità presenti nel dominio .it

    POS CATEGORIA COM.MAGGIORI COM.DIFFUSE TOTALE
    1 Lavoro 22.533.670   22.533.670
    2 Portali 13.256.180   13.256.180
    3 Enti locali 1.053.150 1.900.991 2.954.141
    4 Computer-Internet 1.682.372 1.124.745 2.807.117
    5 Shopping 864.662 1.416.106 2.280.768
    6 News 391.285 1.058.457 1.449.742
    7 Interessi giovanili 246.276 1.157.308 1.403.584
    8 Associazioni 479.169 467.531 946.700
    9 Videogiochi   894.478 894.478
    10 Energia 706.308   706.308
    11 Medicale 130.032 352.474 482.506
    12 Immobiliare 235.656   235.656
    13 Università-Scuola   187.230 187.230
    14 Turismo   175.494 175.494

    Il confronto: le principali comunità

    Nel web italiano (vedi Tabella 1) spicca in prima posizione la presenza di un portale (www.wonder.it) dedicato alla ricerca del posto di lavoro con più di 22 milioni di link. Seguono alcuni portali che offrono servizi ad ampio spettro (libero.it, hotlinks.it, tiscali.it, outseek.it, kataweb.it) nelle posizioni 2, 3, 4, 5 e 6, di dimensioni comprese tra 2,7 milioni e 1,4 milioni di link. Altri portali di servizi (virgilio.it, excite.it, snark.it, dsy.it, bancoposta.it, lycos.it) compaiono rispettivamente in posizione 8, 12, 17, 18, 22 e 23. Una comunità dedicata ai comuni della Puglia, una del Comune di Cremona (www.cremonaweb.it) e una delle piccole e medie imprese sono alle posizioni rispettivamente 11, 13 e 19. L’associazione Apriti Sesamo appare in posizione 15. Tre comunità dedicate alle notizie (jumpy.it, rai.it e spindler.it) hanno dimensioni simili (tra 160 mila e 110 mila link) nelle posizioni 24, 26 e 27, quindi verso la parte bassa della tabella. Per lo shopping generico spicca www.ebay.it in posizione 9. Le comunità maggiori specializzate in computer (hardware e software) sono due: www. hwupgrade.it e html.it in posizione 7 e 14, rispettivamente. Una comunità dedicata ad interessi giovanili, in posizione 20, ha come parola caratterizzante: www.marijuana.it, curiosamente. Nel web inglese (vedi Tabella 3) spicca in prima posizione la presenza di un sito www. ghz-laptops.co.uk con più di 14 milioni di link, dedicato all’elettronica di consumo, ed in special modo alla telefonia cellulare.

    Tabella 3 - Le principali comunità nel dominio .uk

    POS NOME DIMENSIONE TIPO
    1 www.ghz-laptops.co.uk 14.094.717 Telefonia
    2 cheap-online-shopping.co.uk 8.156.234 Shopping
    3 www.sellingantiques.co.uk 2.502.150 Antiques
    4 4visits.co.uk 1.270.048 Shopping
    5 ringtones.co.uk 1.066.835 Interessi giovanili
    6 ads-on-line 1.050.412 Shopping
    7 pages.co.uk 974.344 Portale
    8 Community 652 703.768 Shopping
    9 independent.co.uk 707.455 News
    10 www.arctic-experience.co.uk 567.840 Turismo
    11 www.skiing-heaven.co.uk 545.652 Turismo
    12 training.co.uk 492.128 Training
    13 www.morecomputers.co.uk 490.410 Computer
    14 www.appliances.co.uk 475.720 Kitchen appliances
    15 www.thisisgroup.co.uk 473.400 Sport News
    16 www.flowers-uk.co.uk 464.937 Shopping
    17 www.atlowprices.co.uk 423.722 Shopping
    18 www.celebrity-entertainment.co.uk 308.770 Interessi giovanili
    19 - 296.768 Non classificato
    20 www.buy-the-best-online.co.uk 270.291 Shopping
    21 www.0-z.co.uk 252.186 Shopping
    22 affiliate.espotting.com 247.632 Turismo
    23 mynutritionstore.co.uk 233.244 Culturismo
    24 www.forestry.gov.uk 228.400 Turismo
    25 www.sgpetch.co.uk 224.808 Cars
    26 www.airtours.co.uk 219.824 Travel
    27 www.breaks.co.uk 181.436 Turismo
    28 www.discover-holidays.co.uk 176.400 Turismo
    29 englandwebsite.co.uk 163.989 Turismo
    30 in-england.co.uk 161.490 Turismo
    31 www.1link2-holiday-hotels.co.uk 157.185 Turismo
    32 voiceofuk.co.uk 154.980 Non classificato
    33 www.bizzypages.co.uk 143.252 Shopping
    34 shopeyes.co.uk 137.199 Shopping
    35 cheaphotelbreaks.co.uk 125.195 Turismo

    Seguono vari siti di shopping generico (cheaponline-shopping.co.uk, 4visits.co.uk, ads-online) in posizione 2, 4 e 6 rispettivamente. Altre comunità di grandi dimensioni dedicate allo shopping generico sono in posizione 8, 16, 17, 20, 21, 33 e 34. Interessante è la presenza di grandi comunità dedicate a shopping specifici come antiquariato (www. sellingantiques.co.uk in posizione 3), interessi giovanili (ringtones.co.uk in posizione 5), cucine (www.appliances.co.uk in posizione 14), integratori e materiale per culturismo(mynutritionstore.co.uk in posizione 23) e automobili (www.sgpetch.co.uk in posizione 25). Un vasto numero di comunità di grandi dimensioni è dedicato al turismo e viaggi (posizione 10, 11, 22, 26, 27, 28, 29, 30, 31 e 35). Spicca la presenza in posizione 24 di www.forestry.gov.uk, un sito governativo, che dà indicazioni di tipo turistico sui parchi nazionali inglesi. Due grandi siti sono dedicati a notizie ed editoria: independent.co.uk in posizione 9 e www.thisisgroup.co.uk in posizione 15, specializzato in notizie sportive. Una sola grande comunità dedicata ai computer appare in posizione 13 (www.morecomputers.co.uk). E’ probabile che la vendita di computer sia veicolata in parte attraverso siti di shopping generico, piuttosto che prevalentemente su siti specifici. Un primo confronto tra le grandi comunità rivela una presenza massiccia di portali generici per servizi nel dominio .it e la loro quasi assenza nel dominio .uk. Si nota inoltre una massiccia presenza di interessi commerciali nel .uk rispetto ad un maggior bilanciamento nel dominio .it tra interessi commerciali, associazioni, enti locali ed amministrazione centrale.

    Tabella 4 - Catalogazione di tutte le comunità presenti nel dominio .uk

    POS CATEGORIA COM.MAGGIORI COM.DIFFUSE TOTALE
    1 Shopping generico 13.805.821 3.476.787 17.282.608
    2 Telefonia 14.094.717 529.164 14.623.881
    3 Turismo 2.775.043 1.245.229 4.020.272
    4 Antiquariato 2.502.150 382.988 2.885.138
    5 News 1.180.855 814.551 1.995.406
    6 Interessi giovanili 1.375.605 350.365 1.725.970
    7 Portali 974.344   974.344
    8 Servizi finanziari   957.270 957.270
    9 Training 492.128   492.128
    10 Computer 490.410   490.410
    11 Enti locali   340.078 340.078
    12 Contenuti per adulti   89.356 89.356

    Analisi globale

    Un confronto riassuntivo che tenga conto sia delle comunità maggiori sia di comunità diffuse (Tabelle 2 e 4) suggerisce alcune considerazioni. Le comunità di interesse sul turismo e viaggi sono in posizione 3 nel dominio .uk con più di 4 milioni di link, mentre sono in posizione 14, con approssimativamente 175 mila link nel dominio .it. Parte della discrepanza può essere spiegata con la presenza di informazioni turistiche disperse nel dominio .it su siti di interesse locale e/o su portali di tipo generico. Tuttavia un gap così ampio sembra indicativo dell’assenza di una adeguata presenza in rete di forti operatori del settore turistico. La tipologia dei portali di servizi generici è molto sviluppata nel dominio .it (in posizione 2, con 13 milioni di link), meno sviluppata nel dominio .uk (posizione 7, con 0,9 milioni di link). Questo fenomeno può essere spiegato da una parte con il fatto che portali di servizi generici possono essere sviluppati in inglese sotto altri domini (per esempio .com, .net), mentre il dominio .it è più legato alla lingua ed alla cultura italiana. Un’altra chiave interpretativa è una maggiore specializzazione dell’offerta di servizi nel dominio .uk. Per esempio, i servizi finanziari (specialmente mutui per la casa) sono in posizione 8 con 0,9 milioni di link nel dominio .uk mentre sono assenti come categoria specifica nel .it (ove per esempio portali come Kataweb offrono tra l’altro informazioni finanziarie). I siti di notizie per il dominio .it sono in posizione 6, con 1,5 milioni di link, ed in posizione 5 con 2 milioni di link nel dominio .uk. Quindi la situazione appare globalmente simile. Tuttavia un’analisi più puntuale rivela che mentre nel .uk le comunità maggiori e quelle disperse si equivalgono, nel caso del .it le comunità disperse sono prevalenti come ad indicare una certa maggior frammentazione del panorama editoriale in italia. Differenze di dimensione assoluta si notano anche sulle maggiori comunità dedicate alle news: jumpy.it legata al sito Mediaset.it e rai.it constano di 160 mila e 120 mila link rispettivamente, mentre i siti inglesi independent.co.uk e www.thisisgroup.co.uk sono molto più ricchi di link: hanno 700 mila e 470 mila link rispettivamente. Lo shopping generico (generalista) risulta molto sviluppato e concentrato nel dominio .uk apparendo in prima posizione con un totale di 17 milioni di link, di cui 13 milioni dovuti a comunità maggiori. Nel caso del dominio .it lo shopping generico si piazza in posizione 5 con 2,2 milioni di link ed una prevalenza (1,4 milioni) di comunità diffuse su quelle maggiori. Di converso, nel dominio .it l’aspetto pubblico e no-profit è altamente sviluppato. La categoria “enti locali� (che comprende sia l’aspetto pubblico: comuni, province e regioni, sia le associazioni professionali e/o d’impresa legate al territorio) si piazza in terza posizione con circa 3 milioni di link ed una prevalenza (2 milioni) di comunità diffuse, mentre l’associazionismo no-profit si piazza in posizione 8 con circa 1 milione di link. Università e scuola appaiono in posizione 13 con 187 mila link. Nel dominio .uk, in contrasto, siti legati ad enti locali si piazzano in posizione 11 con 340 mila link e non emergono comunità legate alle associazioni ed alle università. Tipologie commerciali molto specifiche sono altamente sviluppate nel dominio .uk, per esempio la telefonia (con particolare enfasi su alcune marche come Ericsson, Motorola, Nokia) (posizione 2 con 14,6 milioni di link), l’antiquariato (posizione 4 con 2,9 milioni di link), interessi giovanili (musica, videogiochi, etc..) (posizione 6 con 1,7 milioni di link), corsi di formazione (posizione 9 con 0,5 milioni di link). Nel dominio .it troviamo interessi giovanili (posizione 7 con 1,4 milioni di link) e videogiochi (posizione 9 con 0,9 milioni di link), prodotti per fonti di energia ecocompatibili (posizione 10 con 0,7 milioni di link) e prodotti medici (posizione 11 con 0,5 milioni di link). Contrariamente alle aspettative nel dominio .it l’offerta di prodotti/servizi relativa ai computer (hardware e software) e ai servizi di registrazione (provider) risulta altamente visibile (posizione 4 con 2,8 milioni di link ed un buon bilanciamento tra comunità maggiori e quelle disperse). Mentre nel .uk riscontriamo solo alcune comunità maggiori che totalizzano appena 0,5 milioni di link e risultano in posizione 10. Questo fatto può essere spiegato con fatto che hardware e software vengono commercializzati all’interno dell’elettronica di consumo intesa in senso lato come sottocategoria di siti per lo shopping generico. Comunità di interesse per adulti sono più presenti nel web britannico (dodicesimo posto) mentre in quello italiano compaiono fuori dalle prime posizioni (solo in quarantesima posizione). Questa relativa scarsa presenza in entrambi i domini nazionali può essere spiegata col fatto che la struttura delle comunità, che per definizione favorisce l’accessibilità, è in contrasto con esigenze di rendere tali siti accessibili in modo non ovvio o comunque facilmente dissimulabile.

    La metodologia: come riassumere un intero dominio nazionale

    In questa seconda parte intendiamo descrivere la metodologia adottata per quantificare il peso di diverse categorie merceologiche (beni, servizi, interessi) all’interno delle pagine web di un dominio nazionale. In concreto abbiamo applicato la nostra tecnologia al dominio delle pagine italiane (ossia del dominio .it) e delle pagine britanniche (ossia del dominio .uk). In tale modo abbiamo evidenziato differenze e analogie nella composizione merceologica del web nei due domini nazionali.

    I dati grezzi: cosa si trova nel web

    Il Laboratorio per l’algoritmica del web dell’Università di Milano (law.dsi.unimi.it) ha fornito il risultato della visita di tutte le pagine raggiungibili presenti nel web sotto il dominio nazionale .it per l’anno 2004 e nel dominio del Regno Unito .uk per l’anno 2005. Per l’Italia questa istantanea di tutto il web italiano consta di 41 milioni di pagine e 1150 milioni di link ossia di frasi cliccabili che consentono di navigare tra pagine diverse. Per il Regno Unito sono stati trovati 39 milioni di pagine e 950 milioni di link.

    Il problema: troppi dati e molto confusi

    Riuscire a distillare da questa massa di dati una visione sintetica delle tematiche più popolari ed interessanti presenti sul web e del loro peso relativo è una sfida che richiede strumenti informatici innovativi. Da una parte vogliamo concentrarci sulle parti più significative del web, dall’altro dobbiamo trattare grandi masse di dati in modo efficace senza ricorrere a costosi super calcolatori. Il gruppo di lavoro del dottor Marco Pellegrini dell’Istituto di Informatica e Telematica del Cnr di Pisa ha messo a punto una metodologia che consente di vedere in una forma sintetica e gerarchica il contenuto di gran parte del web ed estrarre nozioni significative sulle tematiche più popolari e presenti sul web. La metodologia è stata presentata alla più importante conferenza del settore: "The 16th International World Wide Web Conference (Www2007)" svoltasi nei giorni 8-12 Maggio 2007 a Banff (Canada).

    Il comportamento degli utenti

    Il www (abbreviazione di World Wide Web) è un grande contenitore di informazioni organizzate in pagine come unità di accesso. Le pagine poi contengono link ossia riferimenti che, tramite l’operazione di click su di una porzione di testo od una immagine, consentono di passare da una pagina ad un’altra (operazione detta comunemente navigare). Mentre osservare le azioni di passaggio da una pagina ad un’altra su tutti i computer dedicati al web non è fattibile, possiamo considerare la presenza di molti link che arrivano o partono da una pagina come un’indicazione dell’importanza di quella pagina. Questa osservazione ci porta ad escludere come poco significative pagine che non abbiano link in entrata o in uscita, ma anche quei link che colleghino pagine sotto lo stesso dominio (una singola macchina). Per esempio è naturale che chi possiede un’insieme di pagine sulla stessa macchina favorisca la navigazione collegandole con dei link. Tuttavia questi link testimoniano solo dell’interesse di un’unica persona. Molto più importanti sono i link che collegano pagine di domini (macchine) diversi, che e quindi presumibilmente sono indice di una importanza oggettiva e non soggettiva delle pagine coinvolte.

    I dati "puliti"

    Eliminando da ulteriori considerazioni le pagine isolate, ed i link all’interno dello stesso dominio rimangono da analizzare per il dominio .it: 17 milioni di di pagine e 105 milioni di link, per il dominio .uk: 16 milioni dipagine e 183 milioni di link.

    "Tifosi" e "centri"

    Se una pagina ha molti link in uscita è etichettata come tifoso, in quanto esprime interesse per il contenuto di altre pagine. Se una pagina è visitata da molti link, allora è detta "centro" in quanto rappresenta un centro di interesse per molti tifosi. Un gruppo di tifosi che abbiamo molti centri in comune rappresentano una comunità. Le comunità sono l’oggetto principale che cerchiamo di trovare nel web per due motivi. Una volta individuata la comunità è possibile cercare di estrarre da un esame del contenuto dei centri quale è la tematica prevalente che genera interesse. Diventa quindi più facile avere una visione sintetica delle tematiche presenti. Contemporaneamente avendo il numero di centri, di tifosi e di link possiamo assegnare un peso numerico alla comunità con cui indicare la forza dell’interesse. Comunità troppo piccole composte da pochi tifosi e centri sono da una parte difficili da trovare e dall’altra avrebbero un peso troppo basso rispetto alle comunità maggiori. Nel nostro studio abbiamo considerato comunità aventi più di dieci tifosi e dieci centri. Per cui possiamo fin dall’inizio eliminare dalla considerazione nodi aventi meno di dieci link in entrata od in uscita. Questo passaggio ci porta ad avere 3.300.000 pagine rimanenti nel web .it e 4.085.000 nel web .uk.

    Le comunità trovate

    Abbiamo riscontrato la presenza di 1033 comunità nel .it e di 4220 il .uk. Per omogeneizzare i dati utilizziamo le comunità inglesi con almeno 25 nodi per cui ci riduciamo a considerare 771 (grandi) comunità. Dalla nostra analisi risulta che circa il 90% delle pagine così individuate (per la precisione 91% e 92% rispettivamente) sono o tifosi o centri in qualche comunità.

    Estrazione delle parole chiave

    Un’analisi manuale di quasi 2000 comunità richiederebbe un tempo uomo notevole per cui abbiamo sviluppato una metodologia automatica per visitare tutte le comunità individuate, estrarre da ogni comunità le parole chiave e riunire in un gruppi tematici tutte le comunità aventi parole chiave simili (o correlate). Solo a questo punto un’analisi manuale valida l’omogeneità dei gruppi formati e assegna le categorie d’appartenenza.



    Newsletter

    Resta informato con le nostre notizie periodicamente

    Cliccando sul pulsante iscriviti acconsenti al trattamento dei tuoi dati. La tua email non verrà MAI ceduta a nessuno!