ടെക്സ്റ്റ് തിരിച്ചറിയൽ. സൗജന്യ പ്രോഗ്രാം - അനലോഗ് ഫൈൻ റീഡർ

ചുരുക്കത്തിൽ, പലപ്പോഴും ഓഫീസ് പ്രോഗ്രാമുകൾക്കൊപ്പം ജോലി ചെയ്യുന്നവരെല്ലാം ഒരു സാധാരണ ജോലിക്ക് വിധേയമാകുന്നു - ഉദാഹരണമായി ഒരു പുസ്തകം, മാഗസിൻ, പത്രം, ലളിതമായ ലഘുലേഖകൾ എന്നിവയിൽ നിന്ന് പാഠം സ്കാൻ ചെയ്യുക, തുടർന്ന് ഈ ചിത്രങ്ങൾ വാചക ഫോർമാറ്റിലേക്ക് വിവർത്തനം ചെയ്യുക, ഉദാഹരണത്തിന്, വേഡ് ഡോക്യുമെന്റിൽ.

ഇത് ചെയ്യുന്നതിന് നിങ്ങൾ ഒരു സ്കാനറും വാചക തിരിച്ചറിയലിനായി ഒരു പ്രത്യേക പ്രോഗ്രാമും ആവശ്യമാണ്. ഈ ലേഖനം FineReader ന്റെ സൌജന്യ അനലോഗ് ചർച്ചചെയ്യും -ക്യൂണിഫോം (FineReader- ൽ തിരിച്ചറിയൽ - ഈ ലേഖനം കാണുക).

ആരംഭിക്കാം ...

ഉള്ളടക്കം

  • 1. CuneiForm പ്രോഗ്രാമിന്റെ സവിശേഷതകൾ, ഫീച്ചറുകൾ
  • 2. ടെക്സ്റ്റ് തിരിച്ചറിയലിൻറെ ഒരു ഉദാഹരണം
  • ബാച്ച് ടെക്സ്റ്റ് റെക്കഗ്നിഷൻ
  • 4. നിഗമനങ്ങൾ

1. CuneiForm പ്രോഗ്രാമിന്റെ സവിശേഷതകൾ, ഫീച്ചറുകൾ

ക്യൂണിഫോം

ഡവലപ്പറിന്റെ സൈറ്റിൽ നിന്ന് നിങ്ങൾക്ക് ഡൗൺലോഡ് ചെയ്യാവുന്നതാണ്: // cognitiveforms.com/

ഒരു ഓപ്പൺ സോഴ്സ് ടെക്സ്റ്റ് റെക്കഗ്നിഷൻ സോഫ്റ്റ്വെയർ. ഇതുകൂടാതെ, Windows- ന്റെ എല്ലാ പതിപ്പുകളിലും ഇത് പ്രവർത്തിക്കുന്നു: XP, Vista, 7, 8, ഇത് ഇഷ്ടപ്പെടുന്നു. ഒപ്പം, പ്രോഗ്രാമിന്റെ പൂർണ്ണ റഷ്യൻ വിവർത്തനം ചേർക്കുക!

പ്രോസ്:

- ലോകത്തിലെ ഏറ്റവും ജനപ്രീതിയുള്ള 20 ഭാഷകളിലുള്ള ടെക്സ്റ്റ് റെക്കോർഡിംഗ് (ഇംഗ്ലീഷും റഷ്യയും ഈ നമ്പറിൽ ഉൾപ്പെടുത്തിയിരിക്കുന്നു);

- വിവിധ അച്ചടി ഫോണ്ടുകളുടെ വലിയ പിന്തുണ;

- നിഘണ്ടുവിൽ തിരിച്ചുള്ള ടെക്സ്റ്റ് പരിശോധിക്കുക;

- പല ഫലങ്ങളിൽ സൃഷ്ടിയുടെ ഫലങ്ങൾ സംരക്ഷിക്കാനുള്ള കഴിവ്;

- പ്രമാണത്തിന്റെ ഘടന നിലനിർത്തുന്നതിന്;

- മികച്ച പിന്തുണയും അംഗീകാര പട്ടികകളും.

പരിഗണന:

- വളരെ വലിയ ഡോക്യുമെന്റുകളും ഫയലുകളും പിന്തുണയ്ക്കുന്നില്ല (400 dpi ഉള്ളിൽ);

- ചില തരത്തിലുള്ള സ്കാനറുകൾ നേരിട്ട് പിന്തുണയ്ക്കുന്നില്ല (നന്നായി, ഇത് ഭയാനകമല്ല, സ്കാനർ ഡ്രൈവറുകളിൽ ഒരു പ്രത്യേക സ്കാനർ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്);

- ഡിസൈന് തിളങ്ങുന്നുമില്ല (പക്ഷെ പ്രോഗ്രാം പൂർണ്ണമായും പ്രശ്നം പരിഹരിക്കുന്ന പക്ഷം അത് ആവശ്യമായി വരും).

2. ടെക്സ്റ്റ് തിരിച്ചറിയലിൻറെ ഒരു ഉദാഹരണം

തിരിച്ചറിയലിനായി ആവശ്യമായ ചിത്രങ്ങൾ നിങ്ങൾ ഇതിനകം തന്നെ സ്വീകരിച്ചിട്ടുണ്ടെന്ന് ഞങ്ങൾ കരുതുന്നു (അവിടെ സ്കാൻ ചെയ്യുകയോ അല്ലെങ്കിൽ പുസ്തകത്തിൽ ഇന്റർനെറ്റിൽ pdf / djvu ഫോർമാറ്റിൽ ഡൌൺലോഡ് ചെയ്ത് അവയിൽ നിന്ന് ആവശ്യമായ ചിത്രങ്ങൾ ലഭിക്കുകയും ചെയ്യുക) എങ്ങനെ ചെയ്യാം - ഈ ലേഖനം കാണുക).

1) CuineForm പ്രോഗ്രാമിൽ ആവശ്യമായ ഫയൽ തുറക്കുക (ഫയൽ തുറന്ന് അല്ലെങ്കിൽ "Cntrl + O").

തിരിച്ചറിയൽ ആരംഭിക്കുന്നതിന് - നിങ്ങൾ ആദ്യം വ്യത്യസ്ത മേഖലകൾ തിരഞ്ഞെടുക്കണം: പാഠം, ചിത്രങ്ങൾ, പട്ടികകൾ മുതലായവ. ക്യൂണിഫോം പ്രോഗ്രാമിൽ ഇത് മാനുവലായി മാത്രമല്ല, യാന്ത്രികമായി! ഇത് ചെയ്യുന്നതിന്, ജാലകത്തിന്റെ മുകളിലുള്ള പെയിനിലെ "മാർക്ക്അപ്പ്" ബട്ടണിൽ ക്ലിക്ക് ചെയ്യുക.

3) 10-15 സെക്കൻഡുകൾക്കു ശേഷം. പ്രോഗ്രാം വിവിധ വർണ്ണങ്ങളുള്ള എല്ലാ ഭാഗങ്ങളെയും യാന്ത്രികമായി ഹൈലൈറ്റ് ചെയ്യും. ഉദാഹരണത്തിന്, ഒരു വാചക പ്രദേശം നീല നിറത്തിൽ ഹൈലൈറ്റ് ചെയ്തിരിക്കുന്നു. വഴിയിലൂടെ, അവൾ എല്ലാ മേഖലകളെയും ശരിയായി വേഗത്തിൽ സൂചിപ്പിച്ചു. സത്യസന്ധമായി, ഞാൻ അവളുടെ നിന്ന് അത്തരം ഒരു പെട്ടെന്നുള്ള ശരിയായ പ്രതികരണം പ്രതീക്ഷിച്ചിരുന്നില്ല ...

4) ഓട്ടോമാറ്റിക് മാർക്ക്അപ്പ് വിശ്വസിക്കാത്തവർക്ക്, നിങ്ങൾക്ക് മാനുവൽ ഉപയോഗിക്കാം. ഇതിനായി ഒരു ടൂൾ ബാർ ഉണ്ട് (ചുവടെയുള്ള ചിത്രം കാണുക), നിങ്ങൾക്ക് തിരഞ്ഞെടുക്കാൻ കഴിയുന്ന നന്ദി: ടെക്സ്റ്റ്, ടേബിൾ, ചിത്രം. പ്രാരംഭ ഇമേജ് നീക്കുക, കുറയ്ക്കുക / കുറയ്ക്കുക, അറ്റങ്ങൾ ട്രിം ചെയ്യുക. പൊതുവേ, ഒരു നല്ല സെറ്റ്.

5) എല്ലാ മേഖലകളും അടയാളപ്പെടുത്തിയ ശേഷം, നിങ്ങൾക്ക് തുടരാം അംഗീകാരം. ഇത് ചെയ്യുന്നതിന്, ചുവടെയുള്ള ചിത്രത്തിൽ കാണുന്നതുപോലെ അതേ പേരിൽ ഉള്ള ബട്ടണിൽ ക്ലിക്കുചെയ്യുക.

6) അക്ഷരാർഥത്തിൽ 10-20 സെക്കന്റിൽ. Microsoft Word ൽ അംഗീകൃത ടെക്സ്റ്റിനൊപ്പം നിങ്ങൾ ഒരു പ്രമാണം കാണും. രസകരമായത്, ഈ ഉദാഹരണത്തിനുള്ള പാഠത്തിൽ തീർച്ചയായും തെറ്റുകൾ ഉണ്ടായിരുന്നു, എന്നാൽ അവയിൽ കുറച്ചുപേർ മാത്രമേ ഉണ്ടായിരുന്നുള്ളൂ! പ്രത്യേകിച്ചും, ഒറിജിനൽ മെറ്റീരിയൽ എത്രമാത്രം പ്ലെയിൻ ആയിരുന്നെന്ന് - ചിത്രം.

വേഗതയും ഗുണനിലവാരവുമടങ്ങിയതാണ് FineReader!

ബാച്ച് ടെക്സ്റ്റ് റെക്കഗ്നിഷൻ

ഒരു ചിത്രമല്ല, മറിച്ച് ഒന്നിലധികം ചിത്രങ്ങൾ തിരിച്ചറിയാൻ ഈ പ്രോഗ്രാമിൽ സഹായിക്കും. ബാച്ച് തിരിച്ചറിയൽ സമാരംഭിക്കുന്നതിനുള്ള എളുപ്പവഴി സാധാരണയായി തുടക്കത്തിൽ മെനുവിൽ മറഞ്ഞിരിക്കുന്നു.

1) പ്രോഗ്രാം തുറന്ന് കഴിഞ്ഞാൽ, നിങ്ങൾ ഒരു പുതിയ പാക്കേജ് ഉണ്ടാക്കണം, അല്ലെങ്കിൽ മുമ്പ് സംരക്ഷിച്ച ഒന്ന് തുറക്കുക. ഞങ്ങളുടെ ഉദാഹരണത്തിൽ - പുതിയതൊന്ന് സൃഷ്ടിക്കുക.

2) അടുത്ത ഘട്ടത്തിൽ ഞങ്ങൾ ഒരു പേര് തരും, ആറു മാസം കഴിഞ്ഞ് അതിൽ സംഭരിച്ചിരിക്കുന്ന കാര്യം ഞങ്ങൾ ഓർമിക്കുന്നു.

3) അടുത്തതായി, രേഖയുടെ ഭാഷ (റഷ്യ-ഇംഗ്ലീഷ്) തിരഞ്ഞെടുക്കുക, നിങ്ങളുടെ സ്കാൻ ചെയ്ത മെറ്റീരിയലിൽ ചിത്രങ്ങളും പട്ടികകളും ഉണ്ടോ എന്ന് സൂചിപ്പിക്കുക.

4) തിരിച്ചറിയാനുള്ള ഫയലുകൾ ഉള്ള ഫോൾഡർ ഇപ്പോൾ നിങ്ങൾ നൽകേണ്ടതുണ്ട്. വഴിയിൽ, രസകരമായത് എന്താണ്, പ്രോജക്ടിൽ അവയെല്ലാം തിരിച്ചറിയാനും അവ ചേർക്കാനും കഴിയുന്ന എല്ലാ ചിത്രങ്ങളും മറ്റ് ഗ്രാഫിക് ഫയലുകളും പ്രോഗ്രാം കണ്ടെത്തും എന്നതാണ്. നിങ്ങൾ അധികമായി നീക്കം ചെയ്യണം.

5) അടുത്ത ഘട്ടം പ്രധാനമല്ല - അംഗീകാരത്തിനുശേഷം ഉറവിട ഫയലുകളുമായി എന്ത് ചെയ്യണമെന്ന് തിരഞ്ഞെടുക്കുക. ചെക്ക്ബോക്സ് "ഒന്നും ചെയ്യരുത്" തിരഞ്ഞെടുക്കുന്നതിന് ഞാൻ ശുപാർശ ചെയ്യുന്നു.

6) അംഗീകൃത പ്രമാണം സംരക്ഷിക്കുന്ന ഫോർമാറ്റ് തിരഞ്ഞെടുക്കാൻ മാത്രമാണ് ഇത് നിലകൊള്ളുന്നത്. നിരവധി ഓപ്ഷനുകൾ ഉണ്ട്:

- rtf - വാക്കിൽ നിന്നുള്ള പ്രമാണം എല്ലാ പ്രമുഖ ഓഫീസുകളിലും (സൌജന്യമായവ, പ്രോഗ്രാമുകളുടെ ലിങ്ക്) തുറക്കപ്പെടുന്നു.

- txt - വാചകം ഫോർമാറ്റ്, അതിൽ ടെക്സ്റ്റ്, ചിത്രങ്ങൾ, പട്ടികകൾ എന്നിവ മാത്രമേ നിങ്ങൾക്ക് സംരക്ഷിക്കാൻ കഴിയൂ;

- htm - ഹൈപ്പർടെക്സ്റ്റ് പേജ്, നിങ്ങൾ സൈറ്റിനായി ഫയലുകൾ സ്കാൻ ചെയ്യുകയും തിരിച്ചറിയുകയും ചെയ്താൽ രസകരമാണ്. അദ്ദേഹത്തിൻറെ മാതൃകയിൽ തെരഞ്ഞെടുക്കുക.

7) "Finish" ബട്ടൺ ക്ലിക്കുചെയ്ത ശേഷം, നിങ്ങളുടെ പ്രോജക്റ്റിന്റെ പ്രോസസ്സ് ആരംഭിക്കുന്നു.

8) പ്രോഗ്രാം വളരെ വേഗത്തിൽ പ്രവർത്തിക്കുന്നു. തിരിച്ചറിയലിനുശേഷം, നിങ്ങൾ ഒരു htm ഫയലുള്ള ഒരു ടാബ് കാണും. അത്തരമൊരു ഫയലിൽ നിങ്ങൾ ക്ലിക്കുചെയ്യുകയാണെങ്കിൽ, ഫലങ്ങൾ കാണാൻ കഴിയുന്ന ഒരു ബ്രൗസർ ആരംഭിക്കുന്നു. വഴി, കൂടുതൽ പാക്കേജുകൾക്കായി പാക്കേജ് സംരക്ഷിക്കാവുന്നതാണ്.

9) നിങ്ങൾക്ക് കാണാനാകുന്നതുപോലെ ഫലം ജോലി വളരെ ആകർഷകമാണ്. പ്രോഗ്രാം എളുപ്പത്തിൽ ചിത്രത്തെ തിരിച്ചറിഞ്ഞു, കൂടാതെ അതിലെ പാഠം എളുപ്പത്തിൽ തിരിച്ചറിഞ്ഞു. പ്രോഗ്രാം സൗജന്യമാണെങ്കിലും, അത് സാധാരണ സൂപ്പർ ആണ്!

4. നിഗമനങ്ങൾ

നിങ്ങൾ പലപ്പോഴും പ്രമാണങ്ങൾ സ്കാൻ ചെയ്യുകയും തിരിച്ചറിയുകയും ചെയ്തില്ലെങ്കിൽ, പിന്നെ FineReader വാങ്ങുന്നത് അർത്ഥമാവുന്നില്ല. CuneiForm എളുപ്പത്തിൽ മിക്ക ജോലികളും കൈകാര്യം ചെയ്യുന്നു.

മറുവശത്ത് അവൾക്ക് ദോഷങ്ങളുമുണ്ട്.

ഒന്നാമതായി, ഫലത്തിന്റെ ഫലം എഡിറ്റുചെയ്യുന്നതിനും പരിശോധിക്കുന്നതിനുമായി കുറച്ചു ഉപകരണങ്ങൾ ഉണ്ട്. രണ്ടാമതായി, നിങ്ങൾ ഒരുപാട് ചിത്രങ്ങൾ തിരിച്ചറിഞ്ഞിരിക്കണം, അപ്പോൾ FineReader- ൽ വലത് വശത്തെ നിരയിലെ പ്രോജക്ടിൽ എല്ലാം ചേർക്കുന്നത് കാണുന്നത് കൂടുതൽ സൗകര്യപ്രദമാണ്: പെട്ടെന്ന് ആവശ്യമില്ലാത്തത് നീക്കം ചെയ്യുക, എഡിറ്റുകൾ മുതലായവ. മൂന്നാമതായി, മോശമായ നിലവാരമുള്ള പ്രമാണങ്ങളിൽ, CuneiForm തിരിച്ചറിയുന്നു: തെറ്റായ തെറ്റുകൾ, വിരാമ ചിഹ്നങ്ങൾ, ഉദ്ധരണികൾ മുതലായവ രേഖപ്പെടുത്തണം.

അത്രമാത്രം. മറ്റേതെങ്കിലും മാന്യമായ സൗജന്യ ടെക്സ്റ്റ് തിരിച്ചറിയൽ സോഫ്റ്റ്വെയർ നിങ്ങൾക്ക് അറിയാമോ?