Nischade sökmotorer: Blekko

Posted in Sökmotorer on augusti 19th, 2010 by Clas – Be the first to comment

Sökmotorer som är specialiserade för att söka inom ett eller ett fåtal teman, nischade sökmotorer, blev lite populärt att utveckla runt 2006. Exempel är sökmotorer för nyheter, bilder, resor, recept, jobb, script eller program. Inte många av dem har blivit riktigt stora i sig själva, även om några har lyckats ”smyga sig in” bland generella webb-sökmotorer, t.ex. Picsearch. Super-idén bland nischade sökmotorer var Rollyo som lät varje besökare skapa sin egen söknisch genom att specificera vilka domäner som ska sökas igenom. Rollyo är inte perfekt, då det bara går att specificera ett litet antal domäner, och att sökspindeln inte kan anpassar för det specifika innehållet – även om du endast anger sajter som innehåller mat-recept så kommer indexet inte bara att innehålla ingredienser, utan även en del ”kringdata” som stör sökupplevelsen. Inte heller resultatpresentationen kan anpassas, utan är alltid sidtitel och en kort sammanfattning – inga schyssta bilder på maträtter direkt i resultatlistan till exempel.

Jag gillar konceptet att kunna begränsa sina sökningar till sajter jag gillar. Inte som ersättning till mina Google-sökningar, men som komplement, eller som en form av ”bevakningsfunktion” av sajter som jag helst inte vill missa ”intressanta” inlägg/artiklar från. Jag tycker att just sökord är en rimlig ”trigger” för att hitta inlägg eller artiklar som jag är intresserata för mig.

Twingly har provat en approach som inte bygger på sökord, utan som listar inlägg från dina utvalda källor som fått många kommentarer på sajten, eller länkar från många Twitter-tweets. Länkarna listas i omvänd tidsordning. Det är endast sajter med RSS-feeds som kan specificeras. Twingly kallar det för Twingly Channels.

I dagarna kom Blekko i en beta-version. Blekko är en generell webb-sökmotor, precis som standard-Google, även om Blekko har ett avsevärt mindre index – och verkar indexera mestadels engelskspråkigt innehåll. Men Blekko har också en ”Rollyo-funktion” i det att du kan specificera vilka sajter som din sökning ska göras bland i en lista. Varje lista du skapar namnger du, och du gör en sökning som begränsas till sajterna i listan genom att addera /listnamn till din sökning. Blekko kallar det ”slashtags”. Så långt är allt väldigt likt Rollyo. Det som gör att det även har vissa likheter med Twingly channels är att du kan sortera dina resultat i omvänd tidsordning. Skillnaden mot Twingly channels är naturligtvis att urvalet är sökordsbaserat.

Vill jag t.ex. bevaka Googles utveckling runt Apples Ipad kan jag göra en sökning på [google] begränsad till sajter som är specificerade på min /ipad-lista. Sökningen skulle då bli [google /ipad].


Resultatet från en sökning på [google] i en ipad-lista.

Nu har jag inte satt upp någon /ipad-lista, men om jag trots det gör sökningen [google /ipad] så föreslår Blekko att jag använder en /ipad-lista från en annan användare; Blekko föreslår användaren ”lloyd”:s /ipad-lista. Denna användare har redan pekat ut ett antal sajter som skriver om Ipad:en. Vill jag använda den så söker jag med [google /lloyd/ipad].



Sajter specificerade i /lloyd/ipad-listan

Blekko är känns lite listigt. Utan att ha med speciellt många svenska sajter i sitt index (bland nyhetssajterna bara Aftonbladet?) så är känns det dock lite tokigt. Om sajten inte är indexerad sedan tidigare av Blekko så kommer inga resultat att visas, även om du tar med sajten i din lista. Kanske börjar Blekko indexera de sajter som blir specificerade i listorna, men i så fall oklart hur snabbt det sker. Hade Blekko haft ett större index och bättre täckning av svenska sajter då hade detta varit riktigt intresssant.

Blekko har också några andra snygga funktioner. Sökresultaten kan också sorteras på relevans, och om du gör det så kan du, genom att klicka på en länk märkt SEO, få en förklaring till hur relevansen är framtagen.

Men som det är nu får vi vänta till det kommer en svensk version eller konkurrent, kanske…

Google App Inventor

Posted in Osorterad on augusti 16th, 2010 by Clas – Be the first to comment

För ett par tre veckor sedan så registrerade jag mitt intresse för Google ”programmerar-lek-kit” för Andriod-mobiler, App Inventor. Idag när jag gick tillbaka till sidan så visade det sig att jag nu kan köra den. Jag fick aldrig något mail som meddelande att de öppnat upp, men öppet verkar det vara i alla fall.

Jag minns ju fortfarande hur besviken jag blev på dessa ”game makers” när de fanns till Commodore (vem minns Gary Kitchen’s GameMaker?), men likväl så lockas jag att prova dem varje gång. Så även denna gång. Så kanske inte för App Inventor i sig, men för möjligheten att programmera smågrejor till mobilen själv, så skippar jag kanske nästa version av iPhone och kör Android istället. Och App Inventor är inte kul utan Android-telefon tyvärr – all ”what you see is what you get” sker på den mobil som ska vara kopplad till datorn när du utvecklar dina grejer.

Bloggping till Frisim

Posted in Osorterad on juli 28th, 2010 by Clas – Be the first to comment

Frisim har en sida som tar emot blogg-ping. Under de senaste 18 månaderna har 231900 olika bloggar pingats in (inte bloggposter, utan bloggar). Ungefär hälften av dessa har klassats som ”inget att ha” och c:a 15000 har varit till webbsidor där Frisim inte hittat någon RSS-feed. Om du är intresserad av att se vilka bloggar som kommer till, och vilka som Frisim ”Nekad”-klassar, så kan du numera se det på sidan med senast inpingade bloggar. Om du vill undvika tråkiga överraskningar så bör du inte besöka någon av de sidor som nekats. ;-) Bloggar som är markerade med ”Köad” kommer inom den närmsta timmen att analyseras av Frisims sökspindel, och bloggar som är markerade ”OK” har redan analyserats. Från listan syns att inpingningar av specifika inlägg inte analyseras. Vill du ha mer data, eller samma data på annat format, så delar jag gärna ut.

Om du är mer intresserad av vilka bloggar det är som pingar in uppdaterade inlägg så syns de som vanligt på Frisim.com/ping.

Detta har hänt: ingenting

Posted in Osorterad on juni 30th, 2010 by Clas – Be the first to comment

Ingenting? Jo, något har säkert hänt, men inte så mycket som relaterar till Frisims nyhetssök, eller för den delen utvecklingsversionen. Kanske är det på grund av (från slideshare):


inte nyhetssök

Men hos andra händer lite. Till exempel:

Krishna Bharat, founder and engineering head of Google News, pratar lite om Google News i denna film. Google News har också gjort lite test med manuellt utvalda nyheter, men det är tyvärr inget som provats på den svenska versionen. Tittar man t.ex. på alla artiklar om en nyhet så listar de relaterade ord. Dessa ord överlappar rimligen med de ord de använder för att identifiera ett nyhetskluster. Edit: … och precis strax efter jag skrev detta så lanserade Google News en mängd uppdateringar. Synd bara att det ska vara så svårt att se hur den amerikanska versionen av Google News ser ut och fungerar från en dator i Sverige.

Twingly har tagit bort inloggningen på sina Twingly Channels. Gissningsvis är det för att hämta in lite Google-trafik. (De har ingen robots.txt som hindrar Google att indexera dessa sidor). Google verkar redan ha indexerat det mesta, men sidorna verkar inte hamna så högt bland mina Google-sökningar. Vilka kanaler som Twinglys användare är anmälda till verkar också blivit publikt.

För den som vill ha mer sommarläsning så rekommenderar jag Jardenberg.se (funkar bra via epost), Techmeme och Hacker News; eller via podcasts Twit, Twig eller Slashat (svenska).

TLE blir Twitter List Annotations

Posted in Osorterad on maj 9th, 2010 by Clas – 1 Comment

Twitter snart lanserar Twitter Annotations så byter jag namn på ”Twitter lists extended” till Twitter List Annotations.

Listor med kommenterade profiler kan visas upp på en Wordpress-blogg med hjälp t.ex. plugin:en RSSImport, endera i blogginlägg eller på en Wordpress-sida. Ett exempel på användning finns min Wordpress-sidan med ”Twitter-kompisar”.

Mediebevakare

Posted in Osorterad on maj 2nd, 2010 by Clas – 3 Comments

Twingly har satt upp en wiki med Mediebevakare. Då wikin är på svenska så gissar jag att de siktar på att få med beskrivningar av mediebevakare som riktar sig mot svenska kunder. Rimligen är det sådana som erbjuder bevakningar av svenska kanaler. De allra flesta som finns med i listan just nu är sådana som jag känner till sedan tidigare. De flesta har jag till och med provat, i en eller annan form. Det är inte helt glasklart för mig vad en mediebevakare är, då t.ex Greenhill relations (en PR och kommunikationsbyrå, som de(?) kallar sig på sin webbsida) är med, men t.ex inte tjänsten NewsMachine (Gillar NewsMachines ”I media”-sida med pressklipp från 2004.) Men tjusningen med att det är en wiki är ju att vem som helst kan gå in och rätta till bristerna.

Från beskrivning av de mediebevakningstjänster som nu finns listade ser ut som att priset för de tjänster som erbjuder automatiserad bevakning är runt 1000kr per månad, med tillägg för att integrera med tjänster, intranät och hemsidor. De som erbjuder manuella sammanställningar är betydligt dyrare. Flera av tjänsterna bevakar vara Twitter och bloggar. Många skriver att de erbjuder bevakning av 400.000 svenska bloggar. Jag skulle vilja se listan med dessa. Jag kan mycket väl tänka mig att det finns runt 400.000 svenskar som provat att skriva en blogg; men jag är rätt säker på att om du nöjer dig med att räkna sådan som skirivit ett inlägg den senaste månaden så är antalet betydligt lägre, tittar du dessutom på bloggar som innehåller fler än 3 inlägg så sjunker siffran än mer. Twingly skriver att de bevakar 500.000 bloggar från hela världen, och det är säkert mycket enklare än att hitta 400.000 skrivna av svenskar (eller på svenska).

Mediebevakare är ett trevligt inititiativ, och jag hoppas att de växer till en hyggligt komplett lista.

Själv har jag justerat lite i Frisims bloggping-lista så att listan nu visar det namn som anges i RSS-feeden även för de bloggar som pingar in med ping-knapp. Tidigare har bara webbadressen (URL:en) visats för dem, även om de indexerats under sitt ”rätta” namn i sökmotorn. För automatiska pingar (XML-RPC-pingar) har ”rätt” namn visats redan tidigare. Ingen större ändring, men så mycket att jag behövde titta igenom programkoden och drag mig till minnes hur det hela var byggt. :-)

Testar lite CouchDB och lite Twitter

Posted in Frisim on april 18th, 2010 by Clas – 3 Comments

Frisim bygger sedan åtminstone fem år på Solr. Solr är ett väldigt flexibelt i hur du använder det, och jag har valt att lagra även lagra artikeltexterna i Solr. Fördelen med det är att det är enkelt att använda Solr för att visa var i sökträffarna som sökordet återfinns, så kallad highlighting. Nackdelen är att filerna som Solr hanterar blir väldigt stora, och behovet av att dela upp data på flera datorer/index kommer tidigare än om man bara använder Solr för att skapa indexet. Alternativet är att spara data i en annan databas och bara använda Solr för själva sökningen. Så gör t.ex. TV4, men de har inte highligting. Jag gissar att SvD (fin länk va?) gör. TV4 lagrar själv artikeltexterna i Polopoly, och vid en sökning så ger Solr information i vilka artiklar, som sedan hämtas upp ur Polopoly-systemet. Jag funderar också på att separera sökmotorn från grunddata. Jag har tagit ett första steg genom att installera en databas som är enkel och flexibel och som jag hoppas bör passa för detta. Jag har installerat CouchDB. Jag är inte säker på att CouchDB är den databas som passar absolut bäst av alla NoSQL-databaser som finns, men det är en av den som verkar göra uppdelning på flera servrar enkelt, och som bygger på Map Reduce-idén som jag länge varit sugen på att försöka förstå och prova. CouchDB interagerar med omvärlden direkt med JSON, och det gör att jag har förhoppning om att det ska vara enkelt att använda från både Java och PHP.

Twitter presenterade i slutet på veckan en kommande funktion kallad Annotations, som, om jag förstått det rätt, gör det möjligt att lagra extrainformation ihop med varje tweet i samband med att tweet:en skapas. Det får mig att tänka på den Twitter lists extended som jag programmerade härom månaden. Twitter Annotations verkar dock inte göra det möjligt att addera extrainformation till profiler i en Twitter-lista, vilket Twitter lists extended gör. Med Twitters namnval så skulle jag ha döpt den till Twitter list annotations stället. Nu blev inte Twitter lists extended något större succé tyvärr, 15 personer har provat den, ingen använder tjänsten. Tyvärr rimmar det ganska väl med hur jag uppskattade potentialen från början. Potentialen med Twitter Annotations bedömer jag som liiiite större ;-)

Twitter Lists Extended twitterfierad

Posted in Osorterad on mars 27th, 2010 by Clas – Kommentering avstängd

Twitter-listtjänsten har fått ett lite mer twitterfierat utseende. För att bli helt twitterfierad så borde den väl ha ljusblå bakgrund, men det får vänta lite. Såhär ser den ut nu:



Använder du Twitter och vill göra en twitterlista med egna kommentarer att visa upp på din webbsida så är tjänsten användbar för dig. Ja, den är bara för en smal målgrupp :-) Beskrivningen av tjänsten hittar du i mitt tidigare blogginlägg, eller hos @Dr_PO.

Kommenterade Twitter-listor

Posted in Osorterad on mars 25th, 2010 by Clas – 2 Comments

Personer som följer många på Twitter lyssnar oftast inte på alla. Twitter har en funktion för att skapa listor med personer bland de du följer, och med en sådan kan du välja att till vardags bara titta på tweets från personer i listan. Följer du många på Twitter, och dessutom har en blogg eller webbsida, så kan du bli sugen på att visa upp vilka personer det är du alltid ”lyssnar” till på Twitter. Kanske vill du också komplettera listan med personer med en liten beskrivning om hur du ”känner” personen, eller varför du ”lyssnar”.

Enter Twitter Lists Extended – en tjänst som låter dig addera kommentarer eller beskrivningar till profilerna i dina Twitter-listor. Listorna, tillsammans med kommentarerna kan exporteras i HTML och RSS-format och visas upp på din sajt.

Idén till tjänsten kommer från @Dr_PO, med bloggen ThirdOpinion. @Dr_PO visar en av sina listor på bloggen.

Själv följer jag inte fler twittrare än jag kan hålla koll på utan Twitter-listor, så jag har lite svårt att bedöma hur intressant idén är, men den var i alla fall kul att programmera. Jag har i alla fall provat att skapa mig en lista, kommenterat och exporterar som RSS, vilken jag visar i högerkolumnen på denna blogg. Tjänsten kopplar till Twitter genom att använda Twitters OAuth-möjlighet. Jag använder jQuery för att ladda data utan att ladda om sidor, och använder Edit-in-place för att addera kommentarerna.

Idén till tjänsten är attraktiv på så vis att kopplingen till Twitter gör att det är enkelt att bygga in mer ”community-funktioner”. Funktioner som att titta på andra personers listor, ”pinga” dig via Twitter när någon lägger en kommentar på din profil i sin lista, osv. Naturligtvis förutsätter det, precis som i alla community-sammanhang, att tjänsten har många användare. Tyvärr är det svårt att visa reklam på sidor med OAuth-inloggning, och möjligheten att ta betalt är obefintlig – därför är kanske inte potentialen för sajten som sådan så stor. Men även om jag troligen inte kommer att bygga vidare på tjänsten så tror jag att jag kan ”återanvända” men erfaranheter från jQuery och Edit-in-place i några nuvarande, och många kommande programmeringsövningar.

Du hittar Twitter Lists Extendednyhetr.se/tle. Har du skapat en lista på Twitter så får du gärna prova tjänsten – kommentera gärna om den fungerar som du tänkt dig. Är du intresserad av att köra den på din egen server så är jag inte omöjlig att övertala att skicka dig den PHP-kod som driver tjänsten.

4 länkar med programmeringsinspiration

Posted in Osorterad on mars 21st, 2010 by Clas – Kommentering avstängd

Att extrahera nyhetstexter

Jag tror det var @pelles som tweetade om att skapa en fulltext-RSS från icke-fulltext-RSS. Tjänsten han länkade var FiveFilters som gör just detta. Koden som FiveFilters använder är en variant av den Javascript-kod som Arc90 använder, översatt till server-side-PHP. PHP-versionen av koden hittar du här. Denna kod är ganska lik det jag använder för Frisim.com, men är där skriven i Java.

Lite om Solr

Solr, open-source-sökmotorn, har intresserat mig sedan jag började använda Lucene för nyhetssökning på Frisim för mer än 7 år sedan. Solr-konsulten Lucidimagination har skrivit ett bra blogginlägg om vad man bör tänka på när man kör Solr. Lucidimagination delar också ut sina webbaserade seminarier om Solr. Det senaste från den 4 mars 2010 heter Mastering Solr 1.4. Det handlar om ”facets” och om att distribuera indexet över flera datorer. Fler tips på hur man skalar upp sin Solr-installation till att klara miljontals dokument hittar du på Hathitrust.

Saplo

Svenska Saplo har länge pratat om sin tjänst för att hitta relaterade nyheter. Nu har de ett API som de öppnade för Bonnier Hack Day. Det verkar oklart om det går att använda för vem som helst just nu. Saplos ”pitch” om API:et från nämnda Hack Day finns upplagd på YouTube, filmad av Joakim Jardenberg.

Google Geocoding

Google har uppdaterat sin Geocoding-tjänst. Måste prova den till något någongång.

Och så en grej utan länk: @Dr_PO tweetade om en idé för bloggare som är ”stora” på Twitter. Jag fick ett mail med en beskrivning av idén. Jag har hackat ihop en första version i PHP. Om du håller koll på @Dr_PO:s blogg ThirdOpinion så kanske han skriver mer om sin idé där.