Πρόβλημα με την εξαγωγή κειμένου από PDF κοινοβουλίου ΕΕ εξαιτίας Identity-H (CID) encoding

Κάνοντας μια έρευνα στα "bad" αρχεία του output του quality clustering, διαπιστώθηκε ότι το κείμενο εξάγεται σ' αυτήν τη μορφή γιατί το έγγραφο pdf χρησιμοποιεί Identity-H (CID) encoding για τα ελληνικά, η οποία απαιτεί σωστή αντιστοίχιση χαρακτήρων μέσω ενός ToUnicode χάρτη. Αν αυτός ο χάρτης λείπει ή δεν υποστηρίζεται σωστά από το εργαλείο εξαγωγής, τότε οι χαρακτήρες δεν μπορούν να μεταφραστούν σωστά σε Unicode. Αντιθέτως, οι περιοχές που χρησιμοποιούν WinAnsi Encoding (κυρίως για λατινικούς χαρακτήρες) εξάγονται κανονικά.

_# Main **ToUnicode** objects found:_
to_unicode_maps = {
    "Arial,Bold": 90763,
    "TimesNewRoman": 90759,
    "TimesNewRoman,Bold": 90768,
    "TimesNewRoman,BoldItalic": 181545
}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Πρόβλημα με την εξαγωγή κειμένου από PDF κοινοβουλίου ΕΕ εξαιτίας Identity-H (CID) encoding #49

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Πρόβλημα με την εξαγωγή κειμένου από PDF κοινοβουλίου ΕΕ εξαιτίας Identity-H (CID) encoding #49

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions