Keď som dostal na zadanie z angličtiny spraviť kratučkú prezentáciu o novom vyhľadávači Blekko, hneď mi hlavou prebehlo:”Zase jeden z milióna search enginov, čo chce prekonať Google.” Osobne neverím, že by google bol ohrozený v pozícií vyhľadávania. Majú už poriadne rozvinutú základňu userov, advertiserov a nespočetné množstvo skúsenosti v obore. Tým, že vytvárajú nové produkty a dovoľujú ich používanie zdarma (ako google analytics, calendar, …) získavajú si extrémnu podporu širokého okolia. Taktiež logo google sa často mení na pamätné udalosti, čo mi je taktiež sympatické. Vyhľadávanie beží bez výpadkov, bez problémov s indexáciou či ľahkou manipulovateľnosťou serpu (s týmto ma veľké problémy Seznam.cz). Nemám preto, ako aj ďalších 90 percent používateľov, dôvod meniť svoj domovský vyhľadávač. Napríklad Microsoft minul na podporu Bingu len za začiatku 80 milionov dolárov a získal do 10 percent používateľov. (a to kopa prešla len z msn). No ale späť k Blekko.com, tak čo vlastne ponúka?Blekko.com bol vyvíjaný 3 roky a teda začiatok firmy sa datuje na rok 2007. Precrawlovali 3 miliardy stránok a svoju práca zverejnili 1.10.2010. Za celým projektom stojí Rich Skrenta (CEO), ktorý je autorom prvej myšlienky o “Open Source Directory”, mnoho ľudom skôr známe ako DMOZ.org. Kedysi sám Google bral odkazy v tomto (manuálne tvorenom) katalógu ako veľmi dôležité pri tvorení Serpu. Dnes už od toho upustil a Blekko v tom v istom zmysle pokračuje. Podľa mňa sa Blekko odlišuje tromi zásadnými prístupmi, a to:
1. Keď už som spomenul hore to slovo manuálne, tak najviac vyhľadávané kľúčové slova a frázy sú tvorené Editormi. Áno, manuálne, 8000 editorov na začiatku vytvorili najdôveryhodnejšie a najinformatívnejšie stránky. (Aj vás napadlo, že budúca pobočka bude v Číne či Indii?? 😀 ) Podľa mňa zaujímavý prístup, avšak mi to príde ako zbytočná práca. Informatika má veci automatizovať, nie nútiť ľudí robiť niečo manuálne. Keď si predstavím, že by mali toľko userov ako google, asi by to nestíhali editovať a tak by boli výsledky aj tak tvorené hlavne robotmi (čo sú na menšie keywordy aj teraz). IMHO, Editori predsa nemôžu vedieť, čo užívateľ hľadá. Každý je iný, mne sa napríklad pri hľadaní nejakých všeobecnejších pojmov zobrazili samé gov domény, ktoré sú asi písane profesionálmi, ale obsah mali teda biedny a neaktuálny. Toto je nevýhoda, ak editori označia nejakú gov doménu ako kvalitnú, je uprednostňovaná pred ostatnými stránkami aj na frázy, ku ktorým nemajú moc obsah.
2. Tými editormi chcú samozrejme bojovať so spamom, link farmami či content farmami. Pri každom výsledku máte možnosť ako user označiť stránku ako spam, po tom sa vám označená doména už nikdy nezobrazí na akýkoľvek hľadaný výraz. Toto by sa dalo podľa mňa ľahko zneužiť, keďže tipujem počet označenia stránok bude mať aj efekt na zoradení výsledkov hľadania. Generovať ipečky a kliky problém byť nemôže. Toto je blbosť asi preto(dajme tomu, že bude Blekko jednotkou), že by vznikali viac subdomény na MFA weby a to by malo za význam, že ešte menej ľudí by používalo priamo domény, ale výhradne vyhľadávače. Taktiež, ak sa na vyhľadávaní zobrazí jedna z tých skupín na facebooku, ktorá len zbiera počet fanúšikov na nejaký druh spamu, neznamená to, že celý facebook je spam a kopa ľudí by to pre jeden link označilo ako spam. Aj keď facebook možno nie, ale podobné menej známe stránky môžu pre jeden článok trpieť.
3. Slash the web! Toto mi príde ako celkom šikovný tool. Funguje to tak, že ak dáte vyhľadat “blink 182 /youtube”, zobrazí vám len youtube videa s aktérmi danej skupiny. Takto editori vytvorili kopec tagov a vy si ich môžete po registrácií vytvoriť tiež. Dajú sa zdielať alebo nastaviť ako privátne. Takto sa dajú pekne filtrovať aj články, napríklad zobraziť len konzervatívne “political system /conservative” alebo funkcia \date zobrazí články na tému od najnovších. Backslashes sa dajú kombinovať a to dáva userom celkom veľkú mieru podielu na zobrazovanie výsledkov hľadania.
Ďalšou novinkou, ktorou má Blekko celkom zarazil, je zobrazovanie štatistík webu. Môžete si pozrieť seo data, rank data (/seo/rank), ip adresi, kde stránky hostujú, či zistiť, ktoré stránky používajú rovnaký adsense účet. Takže stačí mať jeden web, kde má daný človek adsense a už viete zistiť aj všetky ostatné jeho stránky s reklamou. To ma dosť zarazilo, dokonca to je aj dosť akurátne(pri rovnakom id sa nemá kde pomýliť, len ak by tie stránky neindexoval). Zabrániť sa tomu teda dá len tak, že zabránite vyhľadávaciemu robotovi prístup na vaše stránky. Hlavná vec, v čom sa Googlu podobá, je v hlúpom výbere mena. Doménu som hneď po zadaní témy zabudol a musel písať mail do prednášajúcej. Zabudol som ho potom ešte viac krát.
V Seo je celkom pekne zobrazený počet linkov z krajin, avšak na eng stránku mi našlo len 330 linkov z 2700. Na tento blog zase nasiel len 240 z 7700. Tento blog bol naposledy precrawlovaný pred 214 dňami a usa web s 30 000 dennými návštevníkmi 26 dní dozadu. Takže seo stats sú na tom dosť zle a asi moc aktuálne výsledky nebudú. Možno jedna z mála vecí, čo sa zíde, je duplicitný obsah. Ak sa zlepší rýchlosť crawlovania.