phi-2 ? Waarom geen Phi-3 mini instruct ? #1
Replies: 3 comments 1 reply
-
Helaas was Fietje al bijna klaar toen Microsoft met de aankondiging voor phi-3 kwam. Slechte timing dus! Daarnaast is het base-model van phi-3 ook niet beschikbaar (enkel de instructversie), wat het minder aantrekkelijk maakt om verder aan te passen aan het Nederlands met continued pretraining. Tot slot: phi-3 is best wat groter dan phi-2. 3,8 miljard tegenover 2,7 miljard parameters, dus toch een factor 1,4x verschil. Misschien dat ik in een toekomstige versie wel phi-3 gebruik, of Llama 3, of nog iets anders. Het is moeilijk om de vooruitgang bij te houden want eens je gepland, getest, en getraind hebt zijn er al twaalf nieuwe modellen uit. :-) |
Beta Was this translation helpful? Give feedback.
-
Bram,
Idd spijtig van de timing, want phi-3 is ongelofelijk krachtig, het
presteert zelf beter dan de Llama 2 70 bn model. En zelf beter dan de Llama
3 8B dat ook vorige week uitkwam.
Het slaagt zelf GPT 3.5 op alle vlakken terwijl het zo klein is.
Het draait al één week op men gsm en het werkt heel vlotjes op men
mobieltje. De eerste LLM dat echt werk van op een mobiele cpu (Snapdragon 3
gen 2) of groter is wel nodig.
Ik gebruiik MLC chat om dat model te draaien op android.
Hopelijk komt er later nog eens een phi-3 variant uit, want het is echt dag
en nacht verschil met phi-2
Met vriendelijke Groeten,
*Sébastien*
…On Wed, 1 May 2024 at 10:53, Bram Vanroy ***@***.***> wrote:
Helaas was Fietje al bijna klaar toen Microsoft met de aankondiging voor
phi-3 kwam. Slechte timing dus! Daarnaast is het base-model van phi-3 ook
niet beschikbaar (enkel de instructversie), wat het minder aantrekkelijk
maakt om verder aan te passen aan het Nederlands met continued pretraining.
Tot slot: phi-3 is best wat groter dan phi-2. 3,8 miljard tegenover 2,7
miljard parameters, dus toch een factor 1,4x verschil.
Misschien dat ik in een toekomstige versie wel phi-3 gebruik, of Llama 3,
of nog iets anders. Het is moeilijk om de vooruitgang bij te houden want
eens je gepland, getest, en getraind hebt zijn er al twaalf nieuwe modellen
uit. :-)
—
Reply to this email directly, view it on GitHub
<#1 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/AB7MPQUGMGP5TTMLZGOW4DDZACURXAVCNFSM6AAAAABHBTM2NWVHI2DSMVQWIX3LMV43SRDJONRXK43TNFXW4Q3PNVWWK3TUHM4TEOBTGMZTQ>
.
You are receiving this because you authored the thread.Message ID:
***@***.***>
|
Beta Was this translation helpful? Give feedback.
-
Bram,
De *small *variant is net uitgebracht en deze is echt een gamechanger, het
scoort veel beter dan de *mini *versie terwijl het zeer compact blijft.
ps: Medium is ook uitgekomen maar brengt niet veel meer extra quality toe,
terwijl het wel verdubbeld in size. De Small daarentegen is verbluffend
beter dan de mini versie.
https://huggingface.co/microsoft/Phi-3-small-128k-instruct
[image: image.png]
Met vriendelijke Groeten,
*Sébastien Boelpaep*
…On Wed, 1 May 2024 at 10:53, Bram Vanroy ***@***.***> wrote:
Helaas was Fietje al bijna klaar toen Microsoft met de aankondiging voor
phi-3 kwam. Slechte timing dus! Daarnaast is het base-model van phi-3 ook
niet beschikbaar (enkel de instructversie), wat het minder aantrekkelijk
maakt om verder aan te passen aan het Nederlands met continued pretraining.
Tot slot: phi-3 is best wat groter dan phi-2. 3,8 miljard tegenover 2,7
miljard parameters, dus toch een factor 1,4x verschil.
Misschien dat ik in een toekomstige versie wel phi-3 gebruik, of Llama 3,
of nog iets anders. Het is moeilijk om de vooruitgang bij te houden want
eens je gepland, getest, en getraind hebt zijn er al twaalf nieuwe modellen
uit. :-)
—
Reply to this email directly, view it on GitHub
<#1 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/AB7MPQUGMGP5TTMLZGOW4DDZACURXAVCNFSM6AAAAABHBTM2NWVHI2DSMVQWIX3LMV43SRDJONRXK43TNFXW4Q3PNVWWK3TUHM4TEOBTGMZTQ>
.
You are receiving this because you authored the thread.Message ID:
***@***.***>
|
Beta Was this translation helpful? Give feedback.
-
Waarom werd fietje gebaseerd op het oude phi-2 ? Phi-3 is toch dubbel zo goed geworden? Terwijl het wel even klein is gebleven.
En kan er ook wat Belgische Nederlands in de training data gestoken worden? Zo dat hij ook iets van België weet?
Beta Was this translation helpful? Give feedback.
All reactions