generative-ai-for-beginners/README.md at main

mirror of https://github.com/microsoft/generative-ai-for-beginners.git synced 2026-06-05 21:07:14 +08:00

localizeflow[bot] 9a3d9c284b chore(i18n): sync translations with latest source changes (chunk 1/1, 123 changes)

2026-01-29 16:56:39 +00:00

7.8 KiB

Raw Permalink Blame History

Įvadas

Atvirojo kodo LLM pasaulis yra įdomus ir nuolat besikeičiantis. Šios pamokos tikslas – išsamiai apžvelgti atvirojo kodo modelius. Jei ieškote informacijos, kaip savininkiški modeliai lyginami su atvirojo kodo modeliais, eikite į "Skirtingų LLM tyrinėjimo ir palyginimo" pamoką. Šioje pamokoje taip pat bus aptariama smulkiojo derinimo tema, tačiau išsamesnį paaiškinimą rasite "LLM smulkusis derinimas" pamokoje.

Mokymosi tikslai

Suprasti atvirojo kodo modelius
Suprasti darbo su atvirojo kodo modeliais privalumus
Tyrinėti atvirus modelius, prieinamus Hugging Face ir Azure AI Studio platformose

Kas yra atvirojo kodo modeliai?

Atvirojo kodo programinė įranga vaidino svarbų vaidmenį technologijų augime įvairiose srityse. Atvirojo kodo iniciatyva (OSI) apibrėžė 10 kriterijų programinei įrangai, kad ji būtų priskirta atvirajam kodui. Šaltinio kodas turi būti viešai prieinamas pagal OSI patvirtintą licenciją.

Nors LLM kūrimas turi panašumų su programinės įrangos kūrimu, procesas nėra visiškai tas pats. Tai sukėlė daug diskusijų bendruomenėje apie atvirojo kodo apibrėžimą LLM kontekste. Kad modelis atitiktų tradicinį atvirojo kodo apibrėžimą, turėtų būti viešai prieinama ši informacija:

Duomenų rinkiniai, naudoti modeliui treniruoti.
Pilni modelio svoriai kaip treniravimo dalis.
Vertinimo kodas.
Smulkiojo derinimo kodas.
Pilni modelio svoriai ir treniravimo metrika.

Šiuo metu yra tik keletas modelių, atitinkančių šiuos kriterijus. OLMo modelis, sukurtas Allen Institute for Artificial Intelligence (AllenAI) yra vienas iš jų.

Šioje pamokoje toliau modelius vadinsime „atvirais modeliais“, nes jie gali neatitikti aukščiau nurodytų kriterijų rašymo metu.

Atvirų modelių privalumai

Labai pritaikomi – Kadangi atviri modeliai išleidžiami su išsamiomis treniravimo detalėmis, tyrėjai ir kūrėjai gali keisti modelio vidinius elementus. Tai leidžia kurti labai specializuotus modelius, smulkiai derintus konkrečiai užduočiai ar sričiai. Pavyzdžiai – kodo generavimas, matematiniai veiksmai ir biologija.

Kaina – Kaina už žetoną naudojant ir diegiant šiuos modelius yra mažesnė nei savininkiškų modelių. Kuriant generatyviosios AI programas, svarbu įvertinti našumą ir kainą, dirbant su šiais modeliais savo atveju.

Šaltinis: Artificial Analysis

Lankstumas – Darbas su atvirais modeliais leidžia būti lanksčiam renkantis skirtingus modelius arba juos derinant. Pavyzdys – HuggingChat asistentai, kur vartotojas gali tiesiogiai vartotojo sąsajoje pasirinkti naudojamą modelį:

Skirtingų atvirų modelių tyrinėjimas

Llama 2

LLama2, sukurtas Meta, yra atviras modelis, optimizuotas pokalbių programoms. Tai lemia jo smulkiojo derinimo metodas, apimantis daug dialogų ir žmogaus atsiliepimų. Šiuo metodu modelis generuoja rezultatus, labiau atitinkančius žmogaus lūkesčius, kas suteikia geresnę vartotojo patirtį.

Kai kurie smulkiai derinti Llama versijų pavyzdžiai yra Japonų Llama, specializuotas japonų kalboje, ir Llama Pro, kuris yra patobulinta bazinio modelio versija.

Mistral

Mistral yra atviras modelis, orientuotas į aukštą našumą ir efektyvumą. Jis naudoja ekspertų mišinio (Mixture-of-Experts) metodą, kuris sujungia grupę specializuotų ekspertų modelių į vieną sistemą, kurioje, priklausomai nuo įvesties, pasirenkami tam tikri modeliai. Tai leidžia efektyviau skaičiuoti, nes modeliai apdoroja tik tuos įėjimus, kuriuose yra specializuoti.

Kai kurie smulkiai derinti Mistral versijų pavyzdžiai yra BioMistral, orientuotas į medicinos sritį, ir OpenMath Mistral, atliekantis matematinius skaičiavimus.

Falcon

Falcon yra LLM, sukurtas Technology Innovation Institute (TII). Falcon-40B buvo treniruotas su 40 milijardų parametrų ir įrodyta, kad jis veikia geriau nei GPT-3, naudojant mažesnį skaičiavimo biudžetą. Tai pasiekta naudojant FlashAttention algoritmą ir multiquery dėmesį, kurie sumažina atminties poreikius inferencijos metu. Dėl sumažinto inferencijos laiko Falcon-40B tinka pokalbių programoms.

Kai kurie smulkiai derinti Falcon versijų pavyzdžiai yra OpenAssistant, asistentas, sukurtas ant atvirų modelių, ir GPT4ALL, kuris pasižymi geresniu našumu nei bazinis modelis.

Kaip pasirinkti

Nėra vieno atsakymo, kaip pasirinkti atvirą modelį. Geras pradžios taškas – naudoti Azure AI Studio filtrą pagal užduotį. Tai padės suprasti, kokiems uždaviniams modelis buvo treniruotas. Hugging Face taip pat palaiko LLM lyderių lentelę, kurioje rodomi geriausiai veikiančių modelių rezultatai pagal tam tikrus rodiklius.

Ieškant LLM palyginimų tarp skirtingų tipų, Artificial Analysis yra dar viena puiki priemonė:

Šaltinis: Artificial Analysis

Dirbant su konkrečiu atveju, efektyvu ieškoti smulkiai derintų versijų, orientuotų į tą pačią sritį. Eksperimentavimas su keliais atvirais modeliais, siekiant įvertinti jų veikimą pagal jūsų ir vartotojų lūkesčius, taip pat yra gera praktika.

Tolimesni žingsniai

Geriausia atvirų modelių dalis yra ta, kad galite greitai pradėti su jais dirbti. Peržiūrėkite Azure AI Foundry Model Catalog, kuriame yra speciali Hugging Face kolekcija su šiomis čia aptartomis modelių versijomis.

Mokymasis čia nesibaigia, tęskite kelionę

Baigę šią pamoką, peržiūrėkite mūsų Generatyvios AI mokymosi kolekciją, kad toliau gilintumėte savo žinias apie generatyviąją AI!

Atsakomybės apribojimas: Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą Co-op Translator. Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Svarbiai informacijai rekomenduojamas profesionalus žmogaus vertimas. Mes neatsakome už bet kokius nesusipratimus ar neteisingus aiškinimus, kylančius dėl šio vertimo naudojimo.

7.8 KiB Raw Permalink Blame History Unescape Escape