calamanCy models for Tagalog NLP

ljvmiranda921 's Collections

SIGTYP2024 Shared Task Models

updated 4 days ago

Model collection for https://github.com/ljvmiranda921/calamanCy. You can find more information in each model (or dataset) card.

Upvote

ljvmiranda921/tl_calamancy_trf

Token Classification • Updated 4 days ago • 11

Note Transformer-based pipeline using mDeBERTa-v3 (base)
ljvmiranda921/tl_calamancy_lg

Token Classification • Updated 4 days ago • 13

Note Latest large-sized pipeline based on Tagalog fastText vectors (714k unique vectors, 300 dimensions, Size: 1.4 GB)
ljvmiranda921/tl_calamancy_md

Token Classification • Updated 4 days ago • 189

Note Latest medium-sized pipeline based on floret (200k unique vectors, 200 dimensions, Size: 400 MB)
ljvmiranda921/tl_calamancy_trf-0.1.0

Token Classification • Updated Aug 7, 2024 • 19 • 5

Note LEGACY: Transformer-based pipeline using RoBERTa-Tagalog
ljvmiranda921/tl_calamancy_lg-0.1.0

Token Classification • Updated Aug 7, 2024 • 10 • 1

Note LEGACY: Large-sized pipeline based on fastText (714k unique vectors, 300 dimensions, Size: 455 MB)
ljvmiranda921/tl_calamancy_md-0.1.0

Token Classification • Updated 6 days ago • 172

Note LEGACY: Medium-sized pipeline based on floret (50k unique vectors, 200 dimensions, Size: 77 MB)
ljvmiranda921/tlunified-ner

Viewer • Updated Jul 13, 2024 • 7.82k • 194 • 3

Note Gold-standard Tagalog NER dataset. Cohen's kappa = 0.81
Developing a Named Entity Recognition Dataset for Tagalog

Paper • 2311.07161 • Published Nov 13, 2023 • 2
calamanCy: A Tagalog Natural Language Processing Toolkit

Paper • 2311.07171 • Published Nov 13, 2023
ljvmiranda921/tl_gliner_small

Token Classification • Updated Aug 10, 2024 • 2
ljvmiranda921/tl_gliner_medium

Token Classification • Updated Aug 10, 2024 • 2
ljvmiranda921/tl_gliner_large

Token Classification • Updated Aug 10, 2024

Upvote