phi-2 ? Waarom geen Phi-3 mini instruct ? #1

sebastienbo · 2024-05-01T07:43:35Z

sebastienbo
May 1, 2024

Waarom werd fietje gebaseerd op het oude phi-2 ? Phi-3 is toch dubbel zo goed geworden? Terwijl het wel even klein is gebleven.

En kan er ook wat Belgische Nederlands in de training data gestoken worden? Zo dat hij ook iets van België weet?

BramVanroy · 2024-05-01T08:53:25Z

BramVanroy
May 1, 2024
Maintainer

Helaas was Fietje al bijna klaar toen Microsoft met de aankondiging voor phi-3 kwam. Slechte timing dus! Daarnaast is het base-model van phi-3 ook niet beschikbaar (enkel de instructversie), wat het minder aantrekkelijk maakt om verder aan te passen aan het Nederlands met continued pretraining. Tot slot: phi-3 is best wat groter dan phi-2. 3,8 miljard tegenover 2,7 miljard parameters, dus toch een factor 1,4x verschil.

Misschien dat ik in een toekomstige versie wel phi-3 gebruik, of Llama 3, of nog iets anders. Het is moeilijk om de vooruitgang bij te houden want eens je gepland, getest, en getraind hebt zijn er al twaalf nieuwe modellen uit. :-)

0 replies

sebastienbo · 2024-05-01T09:00:55Z

sebastienbo
May 1, 2024
Author

Bram, Idd spijtig van de timing, want phi-3 is ongelofelijk krachtig, het presteert zelf beter dan de Llama 2 70 bn model. En zelf beter dan de Llama 3 8B dat ook vorige week uitkwam. Het slaagt zelf GPT 3.5 op alle vlakken terwijl het zo klein is. Het draait al één week op men gsm en het werkt heel vlotjes op men mobieltje. De eerste LLM dat echt werk van op een mobiele cpu (Snapdragon 3 gen 2) of groter is wel nodig. Ik gebruiik MLC chat om dat model te draaien op android. Hopelijk komt er later nog eens een phi-3 variant uit, want het is echt dag en nacht verschil met phi-2 Met vriendelijke Groeten, *Sébastien*

…

On Wed, 1 May 2024 at 10:53, Bram Vanroy ***@***.***> wrote: Helaas was Fietje al bijna klaar toen Microsoft met de aankondiging voor phi-3 kwam. Slechte timing dus! Daarnaast is het base-model van phi-3 ook niet beschikbaar (enkel de instructversie), wat het minder aantrekkelijk maakt om verder aan te passen aan het Nederlands met continued pretraining. Tot slot: phi-3 is best wat groter dan phi-2. 3,8 miljard tegenover 2,7 miljard parameters, dus toch een factor 1,4x verschil. Misschien dat ik in een toekomstige versie wel phi-3 gebruik, of Llama 3, of nog iets anders. Het is moeilijk om de vooruitgang bij te houden want eens je gepland, getest, en getraind hebt zijn er al twaalf nieuwe modellen uit. :-) — Reply to this email directly, view it on GitHub <#1 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AB7MPQUGMGP5TTMLZGOW4DDZACURXAVCNFSM6AAAAABHBTM2NWVHI2DSMVQWIX3LMV43SRDJONRXK43TNFXW4Q3PNVWWK3TUHM4TEOBTGMZTQ> . You are receiving this because you authored the thread.Message ID: ***@***.***>

0 replies

sebastienbo · 2024-05-26T09:51:09Z

sebastienbo
May 26, 2024
Author

Bram, De *small *variant is net uitgebracht en deze is echt een gamechanger, het scoort veel beter dan de *mini *versie terwijl het zeer compact blijft. ps: Medium is ook uitgekomen maar brengt niet veel meer extra quality toe, terwijl het wel verdubbeld in size. De Small daarentegen is verbluffend beter dan de mini versie. https://huggingface.co/microsoft/Phi-3-small-128k-instruct [image: image.png] Met vriendelijke Groeten, *Sébastien Boelpaep*

…

On Wed, 1 May 2024 at 10:53, Bram Vanroy ***@***.***> wrote: Helaas was Fietje al bijna klaar toen Microsoft met de aankondiging voor phi-3 kwam. Slechte timing dus! Daarnaast is het base-model van phi-3 ook niet beschikbaar (enkel de instructversie), wat het minder aantrekkelijk maakt om verder aan te passen aan het Nederlands met continued pretraining. Tot slot: phi-3 is best wat groter dan phi-2. 3,8 miljard tegenover 2,7 miljard parameters, dus toch een factor 1,4x verschil. Misschien dat ik in een toekomstige versie wel phi-3 gebruik, of Llama 3, of nog iets anders. Het is moeilijk om de vooruitgang bij te houden want eens je gepland, getest, en getraind hebt zijn er al twaalf nieuwe modellen uit. :-) — Reply to this email directly, view it on GitHub <#1 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AB7MPQUGMGP5TTMLZGOW4DDZACURXAVCNFSM6AAAAABHBTM2NWVHI2DSMVQWIX3LMV43SRDJONRXK43TNFXW4Q3PNVWWK3TUHM4TEOBTGMZTQ> . You are receiving this because you authored the thread.Message ID: ***@***.***>

1 reply

BramVanroy May 26, 2024
Maintainer

Stay tuned ;-)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

phi-2 ? Waarom geen Phi-3 mini instruct ? #1

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 3 comments 1 reply

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

phi-2 ? Waarom geen Phi-3 mini instruct ? #1

sebastienbo May 1, 2024

Replies: 3 comments · 1 reply

BramVanroy May 1, 2024 Maintainer

sebastienbo May 1, 2024 Author

sebastienbo May 26, 2024 Author

BramVanroy May 26, 2024 Maintainer

sebastienbo
May 1, 2024

Replies: 3 comments 1 reply

BramVanroy
May 1, 2024
Maintainer

sebastienbo
May 1, 2024
Author

sebastienbo
May 26, 2024
Author

BramVanroy May 26, 2024
Maintainer