You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Κάνοντας μια έρευνα στα "bad" αρχεία του output του quality clustering, διαπιστώθηκε ότι το κείμενο εξάγεται σ' αυτήν τη μορφή γιατί το έγγραφο pdf χρησιμοποιεί Identity-H (CID) encoding για τα ελληνικά, η οποία απαιτεί σωστή αντιστοίχιση χαρακτήρων μέσω ενός ToUnicode χάρτη. Αν αυτός ο χάρτης λείπει ή δεν υποστηρίζεται σωστά από το εργαλείο εξαγωγής, τότε οι χαρακτήρες δεν μπορούν να μεταφραστούν σωστά σε Unicode. Αντιθέτως, οι περιοχές που χρησιμοποιούν WinAnsi Encoding (κυρίως για λατινικούς χαρακτήρες) εξάγονται κανονικά.