Jag vet att jag har en tendens till att upprepa mig emellanåt. Vissa skulle till och med vilja utvidga det uttalandet till att omfatta i stort sett samtliga tillfällen jag öppnar munnen. Min egen självbild säger dock att jag endast tjatar på småbarn och fyllon. Så när jag nu slår ännu ett slag för OpenSAP så är det inte att betrakta som tjat utan som en vänlig påminnelse om att det hela tiden fylls på med bra material inom MOOC-världen.

När vi kommer till subgrupperingen Machine Learning inom disciplinen Artificiell Intelligens så finns det en utbredd uppfattning bland kollegor att ämnet är för tekniskt för att man skall orka försöka sätta sig in i frågeställningen. Allt handlar dock inte om bayesiska nätverk och algoritmer. Det räcker att man försöker förstå skillnaden mellan självlärande system och mer traditionell programmering och sedan fokusera på hur detta skulle kunna tillämpas i etablerade affärsprocesser.

OpenSAP-kursen ”Enterprise Machine Learning in a nutshell” är ett lättsmält insteg i denna fascinerande värld, och lyfter fram just tillämpningar som är enkla att relatera till. Det kanske mest pedagogiska i denna kurs är det jag har valt att döpa till ”sixQ”-metoden, som är ett sätt att hitta kandidater inom en verksamhet där machine learning kan addera en hög grad av automatisering och kostnadsbesparingar.

I korthet så handlar det om att svara på följande sex frågor:

  1. Do you need machine learning?
  2. Can you formulate your problem clearly?
  3. Do you have sufficient examples?
  4. Does your problem have a regular pattern?
  5. Can you find meaningful representations of your data?
  6. How do you define success?

Metoden bygger på att titta på dimensionerna regelkomplexitet, volymer och datastruktur för att identifiera kandidater som kan definieras med tydlig input och output. Allt maskinlärande kräver sedan stora datamängder för att skapa grundmodellen, det som skulle kunna kallas utbildningen av systemet. Sedan tillkommer krav på regelbundna mönster och möjligheten att representera utfallet i numeriska vektorer. Avslutningsvis så lyfter man fram vikten av att kunna definiera ett framgångsrikt utfall så att det går att utvärdera hur väl modellen fungerar.

Låter det fortfarande för komplicerat? Låt oss titta på ett mer konkret exempel.

Antag att ett företag som H&M vill identifiera trender kring hur kunderna känner inför varumärket, produkterna och upplevelsen i butik och på nätet genom att analysera vad som skrivs i sociala medier. Den första frågeställningen rör då huruvida behovet är komplext med otydliga regler och ostrukturerad data i stora volymer, och det kan man nog säga är fallet när vi pratar om kundfeedback över sociala medier. Då har vi identifierat att detta är en tydliga kandidat för machine learning.

Går det sedan att tydligt formulera problemet? För varje delsegment av frågor man vill ha besvarade så skulle man kunna formulera mönster som ”Givet en viss typ av kundfeedback” kan vi då förutspå kundens ”känsla/uppfattning”, dvs det vi kallar sentiment? Här skulle man kunna hitta utfall i kategorierna positiv, negativ eller neutral. Check på den!

Finns det tillräckligt med data från Twitter, Instagram etc? Svaret är otvetydigt JA.

Förutsättningarna för mönsterigenkänning är uppfyllda då vi kan koppla ett batteri av ord till kategorier som positiva och negativa. Exempelvis kluster som ”bra, fantastisk, OMG, älskar” och ”suger, skräp, dålig” etc. Kopplat till detta måste vi sannolikt ha funktioner inom Natural Language Processing för att bedöma hur kombinationer av ord påverkar sentimentet, men ni förstår principen.

Sedan blir det lite mer tekniskt när vi skall bedöma huruvida vi kan hitta en representation av data i det som kallas ”feature vectors”, och i vårt fall kan vi spegla kundfeedback som vektorer av ord-frekvenser ur de olika klustren.

Avslutningsvis så måste vi kunna utvärdera hur väl vi träffar rätt i analysen av kundens förmodade känsla och också definiera hur högt målet skall sättas. Till exempel uttryckt som en procentsats av antalet korrekt kategoriserade inlägg på sociala media.

Ovanstående exempel har nyligen realiserats inom en stor retail-koncern i USA genom att använda Luminosos lösningar för maskinlärande, men det skulle lika gärna kunna ha varit baserat på SAPs lösningar.

För att kunna föra en vettig dialog med en kund som ännu inte insett att det sannolikt finns ett behov av ett nytt sätt att analysera och kategorisera ostrukturerad data så är metoden ett bra hjälpmedel. Jag har provat att rent hypotetiskt köra igenom modellen baserat på mina kunskaper om några av mina kunder och kan i varje enskilt fall hitta tillämpningar där maskinlärande kan göra nytta. Så snart man inser att kundkedjan någon gång slutar hos en konsument som delar med sig av sina åsikter i den uppkopplade världen eller åtminstone omgärdas av ostrukturerad information med viss volym så blir det rätt så uppenbart att detta område har framtiden för sig.