Uansett om maskinlæring er ditt fagfelt eller ikkje har vi eit ønske: Alle prosjektleiarar, it-konsulentar og analytikarar bør kunne kjenne igjen problemstillingar der maskinlæring (ML) kan vere ei mogleg løysing, og kanskje viktigare, når maskinlæring ikkje er riktig.
Maskinlæring har som mål å lære ein datamaskin korleis denne kan utføre ei spesifikk oppgåve og gi nøyaktige resultat ved å identifisere mønster utan særleg hjelp av analyse og modellering.
Kunstig intelligens (KI) omfattar i tillegg at maskina kan etterlikne menneskeleg intelligens.
Om forfatteren av innlegget
Jens Morten er konsulent og Fagambassadør for Data Science ved Bouvet i Nord. Han er utdanna sivilingeniør i Fysikk og matematikk og har lang erfaring med maskinlæring og avansert statistisk analyse med Python, R, Power BI, SQL og meir.
Når forskinga på, og nyheitene om, maskinlæring fokuserer på utvikling og justering av modellar, er det lett for data scientistar, analytikarar og andre å gå i fella og fokusere på det same.
På universitet og høgskule lærar vi kompliserte teknikkar for å løyse enkle problem (i arbeidslivet er det gjerne motsett!) og etterpå bruker vi plattformar som Kaggle for å lære meir: data blir oftast utdelt fiks ferdig, datasettet er statisk, klappa og klart. All innsats kan gå inn i å byggje den beste modellen og tune denne – inn i kaninhólet med oss!
Så, vi vil presentere nokre tommelfingerreglar alle kan bruke når vi høyrer om ei problemstilling hvor maskinlæring kanskje er svaret.
Maskinlæring kjem til sin fulle rett når:
✅ Det finst mønster i (større mengder) data: Det bør frå start vere ei klår hypotese om at det finst ein samanheng eller mønster i data som kan forklare eit utfall. Om mønsteret finst og signalet er sterkt nok vil komme fram i arbeidet med modellen.
✅ Menneske har vanskeleg for å sjå samanhengen. Det er store mengder data, fleire dimensjonar (gjerne kolonnar), og fleire datatypar (både tekst, kategoriar og tal). Når sjølv den beste excel-ninja kjem til kort, spør maskinlæring.
✅ Vi ønskjer ein prediksjon for «framtida». Når det finst eit mønster og tilstrekkeleg med data der utfallet er kjent, blir det oppgåva til modellen å gi ein prediksjon når utfallet ikkje er kjent. Det finst metodar som kan brukast når fasiten ikkje er kjend, men målet med desse er òg å predikere nye observasjonar når modellen er ferdig.
✅ Området og problemet er ganske avgrensa: Data som skal brukast er godt kjend, forvalta og klarert.
Når bør ikkje maskinlæring brukast?
Her er nokre døme på det ikke passar
🚩 Løysinga krev ei «menneske-aktig» interaksjon med omverda, slik som ein chat-bot. Etter definisjonen i ingressen omfattar KI ideen om at maskina kan etterlikne menneskeleg intelligens, som krev meir avansert teknologi.
🚩 Det er allereie mange reglar som må følgast: Då er automatisert analyse eller regel-baserte system det rette. Vi bør alltid gjere det så enkelt som mogleg.
🚩 Det er høge krav til forklarbarheit: Om det er viktig å kunne forklare utfallet av en prediksjon, eller effekten enkelte variablar, er det ikkje sikkert maskinlæring er det rette. Sjølv om det finst omvegar og unntak er det generelt vanskeleg å gi klare svar på t.d. effekten av ein spesifikk variabel i maskinlæringsmodellar. Ei statistisk analyse eller regresjonsmodellar kan brukast i staden.
🚩 Manglande data: Maskinlæring krev mykje og spesifikk data. For å trene ein rettleia modell, må modellen vite «fasiten» for å trene på samanhengen mellom input og utfall. Har du ikkje nok slik data vil ikkje maskinlæring kunne gi verdi. Og for urettleia modellar trengst generelt mykje data.
Når vi skal vere forsiktige med å bruke maskinlæring?
I nokre høve kan maskinlæring vere ei løysing, men vi bør tenkje oss om nøye:
🤔 Problemet er «deterministisk»: ML kan nokre gongar brukast i deterministisk domene, til dømes numerisk væskedynamikk (engelsk computational fluid dynamics - forkorta CFD): Den tradisjonelle metoden for å løyse styrande fysikk-likningar kan bruke (for) lang tid for å gi endelege resultat.
Når maskinlæring brukast på dette domenet, kan det kanskje oppnå gode resultat på kort tid, men modellen forstår ikkje fysikkens lovar. ML kan gi riktige endelege svar, sjølv om mellomresultat viser verdiar som ikkje er fysisk mogleg. Men dette er eit unntak. Om det finst ei likning for svaret, leit etter denne.
🤔 Etikk og restriktive persondata er minefelt: GDPR set store avgrensingar til bruk av personlege data til kundar eller andre. Ver forsiktig og ikkje ta snarvegar her.
Sist, men ikkje minst:
🕵️♂️ Til slutt må vi vite i kva grad du kan tillate unntak eller statistiske feil i prosessen. Er problemet ditt slik at det gir verdi å få riktig svar 80 % av tida, 10 %? 5 %? 1%?
🕵🏻♀️ Er det visse typar feil vi som aldri kan tillate? Vi må på førehand kartleggje krav og forventningar. Ofte kan eit svakt mønster i data gi stor verdi, men andre gongar er kravet til presisjon for stort.
Lukke til!