Help:Extension:Wikisource/Wikimedia OCR/nl
The Wikimedia OCR feature of the Wikisource extension adds a toolbar interface to the main editing toolbar when editing in the Page namespace, to quickly extract text from the page image and add it to the page body text-box. OCR staat voor Optische karakterherkenning en is het proces waarbij tekst in een fotografische afbeelding kan worden omgezet in bewerkbare tekst en zo aan een wiki kan worden toegevoegd.
Als u deze functie wilt gebruiken, klikt u op de knop aan de rechterkant van de hoofdwerkbalk voor bewerken. Hiermee wordt het OCR-proces uitgevoerd en wordt de tekst in het veld page body in het bewerkingsformulier geplaatst (vervangt alle tekst die er al is). Aan de bovenkant van het venster wordt een knop 'undo' getoond, waarmee u indien gewenst terug kunt keren naar de vorige toestand van het veld.
In zijn basisvorm is dat de functionaliteit van Wikimedia OCR, maar er zijn een paar geavanceerde functies die in sommige omstandigheden nuttig kunnen zijn, beschikbaar via het dropdown menu rechts van de knop 'Extracteer tekst'. Met deze geavanceerde functies kunt u een andere OCR-engine kiezen; een lijst van talen instellen om de software te helpen woorden te detecteren; of een kleinere deel van de pagina kiezen om tekst uit te halen. Dit wordt allemaal hieronder uitgelegd en let op dat alle, behalve de keuze van de engine, beschikbaar zijn via het menu item "Geavanceerde opties", waarmee een nieuw tabblad wordt geopend.
Engines
Er zijn nu drie OCR-engines beschikbaar: Tesseract, Google en Transkribus. Tesseract is een open source hulpmiddel dat in eigen beheer wordt uitgevoerd en een breed scala aan talen en andere opties ondersteunt. Google OCR is een eigen service, die ook veel talen ondersteunt, maar met minder opties. Transkribus wordt ondersteund door een EU-coöperatieve READ-COOP en heeft een samenwerking met de Wikimedia Foundation om een beperkt aantal gratis credits te bieden om het project 'Wikisource Loves Manuscripts' te ondersteunen.
De keuze welke te gebruiken is, kan variëren afhankelijk van de aard van het de verwerken afbeelding.
Om van engine te wisselen, selecteer de betreffende radio-knop in het dropdown menu. Uw keuze zal worden onthouden voor uw huidige device en kan op elk moment worden gewijzigd.
Talen
Clicking the 'Advanced options' menu item opens a new tab with a transcription form containing a field for selecting the language or languages that are used in the page of text being extracted. This is useful because the OCR engines can be much more accurate when they know what languages to expect.
Note that not all languages are supported by all engines, and if you change the engine then the list of available languages will change too.
If your language is not in the list, you can leave the Languages field empty and the OCR engine will attempt to extract what text it can. This can have varying results, and is worth trying.
Crop gebied
To extract text from only a part of an image (for example, a single column of a page from a newspaper), it is possible to select a crop area. Do this by first clicking the crop button ( , see screenshot at right), and then clicking and dragging over the page image to draw a rectangle. The image can be zoomed and panned, and the crop rectangle moved and resized as required. There are buttons above the image with which to switch between moving and cropping. Once you've selected the desired area, click 'Extract area' and the text for only that area will be shown in the right-side text box.
Returning from Advanced options
After using the advanced options form to extract text, it's necessary to copy and paste the resulting text back into the body field of the page editing form. To make this a bit quicker, a 'Copy to clipboard' button is provided.
First-time use
The first time you open a page for editing, a pulsating blue dot is shown on the 'Extract text' button. Clicking this dot or either of the buttons will open a popup explaining what this feature is. After this popup is dismissed, it will not be shown again (on the same device).
Issues
If you encounter any issues with using Wikimedia OCR, please report them on Phabricator, under the Wikisource OCR tag.
Let op: Als u deze pagina bewerkt, gaat u akkoord met het vrijgeven van uw bijdragen onder de CC0. Zie Helppagina’s Publiek Domein voor meer informatie. |