8.1 KiB
Johdanto
Avoimen lähdekoodin LLM-mallit ovat jännittävä ja jatkuvasti kehittyvä maailma. Tämä oppitunti pyrkii tarjoamaan syvällisen katsauksen avoimen lähdekoodin malleihin. Jos etsit tietoa siitä, miten omistusoikeudelliset mallit vertautuvat avoimen lähdekoodin malleihin, siirry kohtaan "Exploring and Comparing Different LLMs" -oppitunti. Tämä oppitunti käsittelee myös hienosäätöä, mutta yksityiskohtaisemman selityksen löydät "Fine-Tuning LLMs" -oppitunnista.
Oppimistavoitteet
- Ymmärtää avoimen lähdekoodin mallit
- Ymmärtää avoimen lähdekoodin mallien käytön edut
- Tutustua Hugging Facen ja Azure AI Studion avoimiin malleihin
Mitä ovat avoimen lähdekoodin mallit?
Avoimen lähdekoodin ohjelmistot ovat olleet ratkaisevassa roolissa teknologian kasvussa eri aloilla. Open Source Initiative (OSI) on määritellyt 10 kriteeriä ohjelmistolle, jotta se voidaan luokitella avoimeksi lähdekoodiksi. Lähdekoodin on oltava avoimesti jaettuna OSI:n hyväksymän lisenssin alaisena.
Vaikka LLM-mallien kehitys sisältää samankaltaisia elementtejä kuin ohjelmistokehitys, prosessi ei ole täysin sama. Tämä on herättänyt paljon keskustelua yhteisössä siitä, mitä avoin lähdekoodi tarkoittaa LLM-mallien yhteydessä. Jotta malli vastaisi perinteistä avoimen lähdekoodin määritelmää, seuraavien tietojen tulisi olla julkisesti saatavilla:
- Mallin koulutuksessa käytetyt aineistot.
- Koko mallin painot osana koulutusta.
- Arviointikoodi.
- Hienosäätökoodi.
- Koko mallin painot ja koulutusmittarit.
Tällä hetkellä vain muutama malli täyttää nämä kriteerit. Allen Institute for Artificial Intelligence (AllenAI) luoma OLMo-malli on yksi, joka kuuluu tähän kategoriaan.
Tässä oppitunnissa viittaamme malleihin jatkossa nimellä "avoimet mallit", koska ne eivät välttämättä täytä yllä mainittuja kriteerejä kirjoitushetkellä.
Avoimien mallien edut
Erittäin muokattavissa – Koska avoimet mallit julkaistaan yksityiskohtaisen koulutustiedon kanssa, tutkijat ja kehittäjät voivat muokata mallin sisäisiä osia. Tämä mahdollistaa erittäin erikoistuneiden mallien luomisen, jotka on hienosäädetty tiettyyn tehtävään tai tutkimusalueeseen. Esimerkkejä tästä ovat koodin generointi, matemaattiset operaatiot ja biologia.
Kustannukset – Näiden mallien käyttö- ja käyttöönottohinta per token on alhaisempi kuin omistusoikeudellisten mallien. Generatiivisia tekoälysovelluksia rakennettaessa on tärkeää tarkastella suorituskyvyn ja hinnan suhdetta näiden mallien käytössä omassa käyttötapauksessa.
Joustavuus – Avoimien mallien kanssa työskentely mahdollistaa joustavuuden eri mallien käytössä tai niiden yhdistämisessä. Esimerkkinä tästä on HuggingChat Assistants, jossa käyttäjä voi valita käytettävän mallin suoraan käyttöliittymästä:
Tutustuminen eri avoimiin malleihin
Llama 2
LLama2, jonka on kehittänyt Meta, on avoin malli, joka on optimoitu keskustelupohjaisiin sovelluksiin. Tämä johtuu sen hienosäätömenetelmästä, joka sisälsi suuren määrän dialogia ja ihmispalautetta. Tämän menetelmän avulla malli tuottaa enemmän ihmisen odotuksia vastaavia tuloksia, mikä parantaa käyttökokemusta.
Esimerkkejä Llaman hienosäädetyistä versioista ovat Japanese Llama, joka on erikoistunut japanin kieleen, ja Llama Pro, joka on paranneltu versio perusmallista.
Mistral
Mistral on avoin malli, joka keskittyy vahvasti suorituskykyyn ja tehokkuuteen. Se käyttää Mixture-of-Experts -lähestymistapaa, joka yhdistää joukon erikoistuneita asiantuntijamalleja yhdeksi järjestelmäksi, jossa syötteen mukaan valitaan tietyt mallit käytettäväksi. Tämä tekee laskennasta tehokkaampaa, koska mallit käsittelevät vain niitä syötteitä, joihin ne ovat erikoistuneet.
Esimerkkejä Mistralin hienosäädetyistä versioista ovat BioMistral, joka keskittyy lääketieteelliseen alaan, ja OpenMath Mistral, joka suorittaa matemaattisia laskutoimituksia.
Falcon
Falcon on Technology Innovation Institute (TII) -instituutin luoma LLM. Falcon-40B on koulutettu 40 miljardilla parametrilla, ja sen on osoitettu suoriutuvan paremmin kuin GPT-3 pienemmällä laskentabudjetilla. Tämä johtuu FlashAttention-algoritmin ja multiquery-attentionin käytöstä, jotka vähentävät muistin tarvetta päättelyvaiheessa. Lyhentyneen päättelyajan ansiosta Falcon-40B soveltuu hyvin keskustelusovelluksiin.
Esimerkkejä Falconin hienosäädetyistä versioista ovat OpenAssistant, avoimiin malleihin perustuva avustaja, ja GPT4ALL, joka tarjoaa paremman suorituskyvyn kuin perusmalli.
Miten valita
Avoimen mallin valintaan ei ole yhtä oikeaa vastausta. Hyvä lähtökohta on käyttää Azure AI Studion tehtäväkohtaisia suodattimia. Tämä auttaa ymmärtämään, millaisiin tehtäviin malli on koulutettu. Hugging Face ylläpitää myös LLM-johtotaulukkoa, joka näyttää parhaiten suoriutuvat mallit tiettyjen mittareiden perusteella.
Kun haluat vertailla LLM-malleja eri tyypeissä, Artificial Analysis on toinen erinomainen resurssi:
Jos työskentelet tietyn käyttötapauksen parissa, saman alan hienosäädettyjen versioiden etsiminen voi olla tehokasta. Useiden avoimien mallien kokeileminen ja niiden suorituskyvyn arvioiminen omien ja käyttäjiesi odotusten mukaan on myös hyvä käytäntö.
Seuraavat askeleet
Parasta avoimissa malleissa on, että niiden kanssa pääsee nopeasti alkuun. Tutustu Azure AI Foundry Model Catalogiin, joka sisältää erityisen Hugging Face -kokoelman näistä malleista, joista keskustelimme tässä.
Oppiminen ei lopu tähän, jatka matkaa
Oppitunnin suorittamisen jälkeen tutustu Generative AI Learning -kokoelmaamme jatkaaksesi generatiivisen tekoälyn osaamisesi kehittämistä!
Vastuuvapauslauseke: Tämä asiakirja on käännetty käyttämällä tekoälypohjaista käännöspalvelua Co-op Translator. Vaikka pyrimme tarkkuuteen, otathan huomioon, että automaattikäännöksissä saattaa esiintyä virheitä tai epätarkkuuksia. Alkuperäistä asiakirjaa sen alkuperäiskielellä tulee pitää virallisena lähteenä. Tärkeissä asioissa suositellaan ammattimaista ihmiskäännöstä. Emme ole vastuussa tämän käännöksen käytöstä aiheutuvista väärinymmärryksistä tai tulkinnoista.



