Where are we Still Split on Tokenization?

Phản hồi
Báo xấu

5 Lượt xem Premium22/04/2024

Many Natural Language Processing (NLP) tasks are labeled on the token level, for these tasks, the first step is to identify the tokens (tokenization). Because this step is often considered to be a solved problem, gold tokenization is commonly assumed. In this paper, we investigate if this task is solved with supervised tokenizers. To this end, we propose an effient multi-task model for tokenization that performs on-par with the state-of-the-art. We use this model to reflect on the status of performance on the tokenization task by evaluating on 122 languages in 20 different scripts. We show that tokenization performance is mainly dependent on the amount and consistency of annotated data as well as difficulty of the task in the writing systems. We conclude that besides inconsistencies in the data and exceptional cases the task can be considered solved for Latin languages for in-dataset settings (gt;$99.5 F1). However, performance is 0.75 F1 point lower on average for datasets in other scripts and performance deteriorates in cross-dataset setups.\footnote{Code is

Không được đăng tải lại nội dung khi chưa có sự cho phép của nhà sáng tạo

0 Người theo dõi · 11 Videos

Đề xuất cho bạn

Tất cả
Anime

Thử thách kỳ lạ: Tái hiện món ăn đặc biệt giống như SpongeBob SquarePants, món nào ngon nhất?

2:55

Thử thách kỳ lạ: Tái hiện món ăn đặc biệt giống như SpongeBob SquarePants, món nào ngon nhất?

dafeihaohaoshuo

0 Lượt xem

Trận chiến trên bầu trời | Thỏa thuận ba năm | Super Hot Mix

1:58

Trận chiến trên bầu trời | Thỏa thuận ba năm | Super Hot Mix

0 Lượt xem

[Zhou x Hen Card] Bài phát biểu sau khi hợp tác - sự hợp tác mà tôi viết có thực sự trở thành hiện t

5:36

[Zhou x Hen Card] Bài phát biểu sau khi hợp tác - sự hợp tác mà tôi viết có thực sự trở thành hiện t

0 Lượt xem

Cửa hàng mới đã mở cửa và 50.000 người hâm mộ đầu tiên đã quyên góp 50 bộ bàn phím và chuột đồng thư

0:32

Cửa hàng mới đã mở cửa và 50.000 người hâm mộ đầu tiên đã quyên góp 50 bộ bàn phím và chuột đồng thư

1 Lượt xem

Tại sao gia đình Nobita không bao giờ sử dụng đồ dùng của Doraemon để làm giàu và thống trị thế giới

1:02

Tại sao gia đình Nobita không bao giờ sử dụng đồ dùng của Doraemon để làm giàu và thống trị thế giới

1 Lượt xem

Oda nói rằng anh ấy không biết cách vẽ nhân vật

3:20

Oda nói rằng anh ấy không biết cách vẽ nhân vật

0 Lượt xem

Nếu có thể nuôi một nhân vật anime trong nhà mình, bạn sẽ chọn nhân vật nào và tại sao?

7:20

Nếu có thể nuôi một nhân vật anime trong nhà mình, bạn sẽ chọn nhân vật nào và tại sao?

1 Lượt xem

Áp suất

0:41

0 Lượt xem

Ai nhu cầu ib em

0:03

Ai nhu cầu ib em

Vanbao Nguyen_6898

0 Lượt xem

Hàn Lập!~~~ Ngươi không dám từ chối người vợ đã đến cửa nhà ngươi sao? ? Ta ép buộc ngươi! Ta tức gi

2:41

Hàn Lập!~~~ Ngươi không dám từ chối người vợ đã đến cửa nhà ngươi sao? ? Ta ép buộc ngươi! Ta tức gi

ハンゲームアバ_02_01

1 Lượt xem

"Nghe nói tiền thưởng của tên này đối với Tiểu Hồng Thư còn cao hơn cả Vua Hải Tặc Luffy"

1:50

"Nghe nói tiền thưởng của tên này đối với Tiểu Hồng Thư còn cao hơn cả Vua Hải Tặc Luffy"

0 Lượt xem

lớp học tiếng Anh cô kiểu

1:44

lớp học tiếng Anh cô kiểu

Tiêu Hoàng Phú

1 Lượt xem

Người nước ngoài trên Tiktok xem bộ phim mới của Bạch Lộ về phong cách Hán phục thời Đường

1:07

Người nước ngoài trên Tiktok xem bộ phim mới của Bạch Lộ về phong cách Hán phục thời Đường

2 Lượt xem

Bác sĩ đang nghiền hoa loa kèn xanh cho anh ta và anh ta đã bị bác sĩ giết chết

0:39

Bác sĩ đang nghiền hoa loa kèn xanh cho anh ta và anh ta đã bị bác sĩ giết chết

0 Lượt xem

Patrick sẽ luôn là bạn của SpongeBob #YoukuMoviesPromotionPlan #QuickTalkTV #ContentInspirationShari

0:34

Patrick sẽ luôn là bạn của SpongeBob #YoukuMoviesPromotionPlan #QuickTalkTV #ContentInspirationShari

0 Lượt xem

lớp 3A1

0:39

Nguyễn Ánh Tuyế_3362

0 Lượt xem

Lúc này, Tanjiro chắc chắn đã có sức mạnh của một trụ cột.

1:23

Lúc này, Tanjiro chắc chắn đã có sức mạnh của một trụ cột.

0 Lượt xem

Tôi đã làm một hộp kiếm điều khiển bằng giọng nói

2:00

Tôi đã làm một hộp kiếm điều khiển bằng giọng nói

0 Lượt xem

We Need to Talk About train-dev-test Splits

8:00

We Need to Talk About train-dev-test Splits

18 Lượt xem

Frustratingly Easy Performance Improvements for Low-resource Setups: A Tale on BERT and Segment Embe

1:55

Frustratingly Easy Performance Improvements for Low-resource Setups: A Tale on BERT and Segment Embe

19 Lượt xem