Skip to content

Πρόβλημα με την εξαγωγή κειμένου από PDF κοινοβουλίου ΕΕ εξαιτίας Identity-H (CID) encoding #49

@myrsiniioannou

Description

@myrsiniioannou

Κάνοντας μια έρευνα στα "bad" αρχεία του output του quality clustering, διαπιστώθηκε ότι το κείμενο εξάγεται σ' αυτήν τη μορφή γιατί το έγγραφο pdf χρησιμοποιεί Identity-H (CID) encoding για τα ελληνικά, η οποία απαιτεί σωστή αντιστοίχιση χαρακτήρων μέσω ενός ToUnicode χάρτη. Αν αυτός ο χάρτης λείπει ή δεν υποστηρίζεται σωστά από το εργαλείο εξαγωγής, τότε οι χαρακτήρες δεν μπορούν να μεταφραστούν σωστά σε Unicode. Αντιθέτως, οι περιοχές που χρησιμοποιούν WinAnsi Encoding (κυρίως για λατινικούς χαρακτήρες) εξάγονται κανονικά.

# Main ToUnicode objects found:
to_unicode_maps = {
"Arial,Bold": 90763,
"TimesNewRoman": 90759,
"TimesNewRoman,Bold": 90768,
"TimesNewRoman,BoldItalic": 181545
}

Metadata

Metadata

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions