FAB.: Using the Transcription function in FAB-Subtitler

www.amydv.gr

FAB.: Using the Transcription function in FAB-Subtitler

Broadcast & Playout News Press Releases Production, Post Production Reviews 0

[:el]

Εισαγωγή

Το FAB Subtitler PRO/LIVE/MPEG υποστηρίζει τη χρήση cloud based υπηρεσιών αναγνώρισης φωνή για μεταγραφή για αρχεία ήχου ή βίντεο σε υπότιτλους που βλέπετε άμεσα στην οθόνη σας.  Όταν η υπηρεσία τελειώσει την μεταγραφή, το FAB Subtitler κατεβάζει το αρχείο JSON που προκύπτει και το σώζει σε τοπικό φάκελο, διαγράφοντας ταυτόχρονα το βίντεο αρχείο στο cloud για ασφάλεια. Μπορείτε επίσης να διαρυθμίσετε το FAB Subtitler ώστε να βγάζει το ηχητικό από το αρχείο βίντεο και να μεταφέρει μόνο τον ήχο στο cloud.  Οι περισσότερες υπηρεσίες παρέχουν μόνο το κείμενο που έχουν αναγνωρίσει και timecode.
Μερικές υπηρεσίες transcription παρέχουν και πρόσθετες πληροφορίες.  Ο Microsoft Video Indexer παρέχει και timecode της σκηνής που έχει αναγνωρίσει πάνω στις αλλαγές σκηνών και τον ομιλητή του κειμένου.   Σε αυτή την περίπτωση ο FAB Subtitler θα δείχνει αυτές τις αλλαγές με διαφορετικά χρώματα εφόσον το διαρυθμίσετε έτσι.
Ο FAB Subtitler υποστηρίζει τα ακόλουθα:

Η ποιότητα αναγνώρισης φωνής έτσι αυτόματα γενικά δεν είναι 100% τέλεια βέβαια και θα απαιτηθούν διορθώσεις και παρεμβάσεις στον FAB Subtitler. Αλλά όταν χρησιμοποιείτε τέτοιες υπηρεσίες θα χρειαστείτε συνολικά πολύ λιγότερο χρόνο γιατί σχεδόν πάντα τα timecodes είναι σωστά και αρκετό από το κείμενο. Για βίντεο με καθαρό ήχο που αναγνωρίζεται η φωνή με αυτή τη μέθοδο θα χρειαστείτε περίπου 60-70% λιγότερο χρόνο για να ετοιμάσετε τους υπότιτλους.

  • Ο “Maximum number of lines per subtitle” καθορίζει τον αριθμό των γραμμών κειμένου που πρέπει να χρησιμοποιούνται σε κάθε υπότιτλο για το αναγνωρισμένο κείμενο κατά τη μετατροπή αρχείων αποτελεσμάτων JSON που επιστρέφονται στα αρχεία υποτίτλων.
  • Ο “Use spell check to automatically correct the transcript” ορίζει ότι ο FAB Subtitler θα χρησιμοποιεί τη λειτουργία ορθογραφικού ελέγχου για να προσπαθήσει να διορθώσει κάποια σφάλματα που επιστρέφονται από την υπηρεσία μεταγραφής.
  • Ο “Assign colors to speakers when present in the transcript file” θα καθοδηγήσει τον FAB Subtitler να χρησιμοποιεί διαφορετικό χρώμα για κάθε ηχείο. Αυτό όμως θα λειτουργήσει μόνο όταν το αναγνωριστικό ομιλίας υπάρχει στο αρχείο μεταγραφών που επιστρέφει από την υπηρεσία μεταγραφής.
  • Ο “Store the result file of the transcription in a separate folder (not in the video folder)” αναθέτει στον FAB Subtitler να αποθηκεύει αρχεία αποτελεσμάτων μεταγραφής σε έναν ξεχωριστό φάκελο και όχι στον φάκελο με αρχεία βίντεο.

Διαμόρφωση για το Ευρετήριο βιντεο της Microsoft

Ρυθμίστε τον FAB Subtitler για να χρησιμοποιήσετε το Microsoft Video Indexer ως υπηρεσία μεταγραφής ανοίξτε το Options / Special / Transcription:

  • Κλειδί API: Το κλειδί API παρέχεται από τη Microsoft στη διεπαφή ιστού του Microsoft Video Indexer, έτσι ώστε οι εξωτερικές εφαρμογές να μπορούν να χρησιμοποιούν τη υπηρεσία web του Microsoft Video Indexer. Βεβαιωθείται ότι έχετε εισάγει το κλειδί API για το λογαριασμό σας στο Microsoft Video Indexer. Η παρακάτω σελίδα περιγράφει τον τρόπο απόκτησης του κειδιού API:

https://docs.microsoft.com/en-us/azure/cognitive-services/video-indexer/video-indexer-use-apis#subscribe-to-the-api

  • Τοποθεσία: Η τοποθεσία της υπηρεσίας. Για δοκιμαστικούς λογαριασμούς μπορείτε να χρησιμοποιήσετε το “Trial”

Διαμόρφωση για μεγέθυνση του μέσου ομιλίας σε κείμενο

Για να ρυθμίσετε τις παραμέτρους του FAB Subtitler για να χρησιμοποιήσετε τη λειτουργία Zoom-Media cloud service καθώς η υπηρεσία ανοίγει το Options / Special / Transcription:

  •  API Key: Το API Key παρέχεται από το Zoom_media στην ιστοσελίδα..

Διαμόρφωση για Speechmatics Cloud ASR

Για να ρυθμίσετε τις παραμέτρους του FAB Subtitler για να χρησιμοποιήσετε το Microsoft Video Indexer ως υπηρεσία μεταγραφής ανοίξτε το Options / Special / Transcription:

  • Auth token: Το auth token παρέχεται από τη Speechmatics στην ιστοσελίδα.
  • User ID: Το user ID είναι το αναγνωριστικό που χρησιμοποιεί ο χρήστης για να συνδεθεί στην ιστοσελίδα του  Speechmatics.

Διαμόρφωση για το Google Speech σε Text

Για να ρυθμίσετε τις παραμέτρους του FAB Subtitler για να χρησιμοποιήσετε το Google Cloud καθώς η υπηρεσία μεταγραφής ανοίγει το Options / Special / Transcription:

  •  JSON Key: Το κλειδί JSON είναι ένα αρχείο κειμένου το οποίο πρέπει να φορτωθεί από ένα αρχείο JSON ή το περιεχόμενο πρέπει να αντιγραφεί σε αυτό το πεδίο. Θα βρείτε μια περιγραφή για το τρόπο απόκτησης του κλειδιού JSON παρακάτω.
  • Google Cloud Storage Bucket Name: Καταχωρίστε το όνομα του κουτιού αποθήκευσης που θα χρησιμοποιηθεί για την αποθήκευση των αρχείων ήχου που μεταφέρονται στο cloud Google. Ο FAB Subtitler θα εξαγάγει πάντα τον ήχο από το αρχείο βίντεο και θα μεταφέρει μόνο τον ήχο στο cloud Google. Οι παρακάτω οδηγίες περιγράφουν τον τρόπο δημιουργίας ενός κάδου. Λάβετε υπόψη ότι θα πρέπει να χρησιμοποιήσετε ένα διαφορετικό όνομα κάδου (όχι fab-asr-bucket) επειδή τα ονόματα κάδου αποθήκευσης Google πρέπει να είναι παγκοσμίως μοναδικά.

Για να ρυθμίσετε τις παραμέτρους του Google Cloud για χρήση με τον FAB Subtitler ακολουθήστε τις οδηγίες:

  • Επισκεφθείτε τη διεύθυνση https://cloud.google.com και δημιουργήστε έναν λογαριασμό. Τον Ιούλιο του 2018 η Google πρόσφερε έναν δοκιμαστικό λογαριασμό με πίστωση 300 USD που μπορεί να χρησιμοποιηθεί εντός 12 μηνών. Αυτό επιτρέπει εκτεταμένες δοκιμές της υπηρεσίας Google Cloud.
  • Για να μπορέσετε να χρησιμοποιήσετε το Google Cloud, πρέπει πρώτα να δημιουργήσετε ένα έργο. Δημιουργήστε ένα έργο με το όνομα FAB-ASR-Project όπως φαίνεται παρακάτω:


  • Επιλέξτε το έργο FAB-ASR-Project ως τρέχον έργο

  • Δημιουργία διαπιστευτηρίων για έναν νέο λογαριασμό υπηρεσίας στον Διαχειριστή API



  • Μετά το προηγούμενο βήμα, θα γίνει λήψη του αρχείου JSON με τα διαπιστευτήρια του νέου λογαριασμού υπηρεσίας στον υπολογιστή. Το αρχείο JSON θα εισαχθεί στο FAB Subtitler Options / Special / Transcription / Google Speech to Text.
  • Δημιουργήστε τον κάδο αποθήκευσης με ένα παγκοσμίως μοναδικό όνομα (μην χρησιμοποιείτε το fab-asr-bucket). Ο κάδος θα χρησιμοποιηθεί για την αποθήκευση αρχείων ήχου για μεταγραφή στο cloud.




  • Βεβαιωθείτε ότι έχετε προσθέσει δικαιώματα καλαθιού για το λογαριασμό υπηρεσίας που έχετε δημιουργήσει σε ένα από τα προηγούμενα βήματα.

  • Ενεργοποιήστε το cloud speech API.





Αφού ρυθμίσετε όλες τις παραπάνω FAB Subtitler πρέπει να είναι σε θέση να χρησιμοποιήσει την υπηρεσία μεταγραφής του Google Cloud.
https://cloud.google.com/speech-to-text/

Χρησιμοποιώντας την υπηρεσία μεταγραφής σε FAB Subtitler

Για να μεταφέρετε αρχεία βίντεο / ήχου στην υπηρεσία μεταγραφής του cloud, κάντε κλικ στην κορδέλα στο Video / Transcription. Θα ανοίξει ένα παράθυρο το οποίο θα εμφανίσει την κατάσταση της ανάλυσης βίντεο και θα επιτρέψει τη μεταφόρτωση αρχείων στην υπηρεσία μεταγραφής cloud.

Το επάνω μέρος του παραθύρου επιτρέπει την επιλογή του αρχείου βίντεο / ήχου στο δίσκο και η μεταφορά του αρχείου στην υπηρεσία μεταγραφής του cloud ξεκινά όταν κάνετε κλικ στο κουμπί Start transfer. Μετά την ολοκλήρωση της ανάλυσης αρχείων, ο FAB Subtitler θα κατεβάσει το αρχείο αποτελεσμάτων JSON από την υπηρεσία μεταγραφής cloud και θα το αποθηκεύσει τοπικά. Μετά από αυτό το FAB Subtitler θα διαγράφει το αρχείο βίντεο στην υπηρεσία μεταγραφής cloud.
Στο κάτω μέρος του παραθύρου εμφανίζεται η κατάσταση του αρχείου που έχει μεταφερθεί στην υπηρεσία μεταγραφής cloud:

  • Uploading: το αρχείο μεταφέρεται αυτή τη στιγμή στην υπηρεσία μεταγραφής cloud
  • Transcribing: το αρχείο είναι προς το παρόν μεταγράφεται από την υπηρεσία μεταγραφής cloud
  • Completed: η μεταγραφή αρχείου έχει ολοκληρωθεί, ο FAB Subtitler θα κατεβάσει το αρχείο αποτελεσμάτων JSON όταν θα είναι διαθέσιμο στην υπηρεσία μεταγραφής cloud
  • Failed: η μεταγραφή του αρχείου έχει αποτύχει, ο λόγος που επιστρέφεται από την υπηρεσία μεταγραφής cloud θα εμφανιστεί επίσης
  • Transcribed, available locally: Τα αρχεία αποτελεσμάτων JSON που επιστρέφονται από την υπηρεσία μεταγραφής clouds που είναι αποθηκευμένα στον τοπικό φάκελο αρχείων και μπορούν να ανοίξουν σε FAB Subtitler ως αρχείο υποτίτλων
  • Other: οποιαδήποτε άλλη κατάσταση του αρχείου που παρέχεται από την υπηρεσία μεταγραφής cloud

Χρησιμοποιώντας αρχεία αποτελεσμάτων JSON σε FAB Subtitler

Τα αρχεία JSON που επιστρέφονται από τις υπηρεσίες μεταγραφής του cloud μπορούν να ανοίξουν απευθείας στον FAB Subtitler και το περιεχόμενο (το οποίο είναι ένα δομημένο αρχείο που περιέχει αναγνωρισμένο κείμενο και ώρες για λέξεις) θα μετατραπεί σε υπότιτλους με κείμενο και timecode.

[:en]

Introduction

FAB Subtitler PRO/LIVE/MPEG supports the use of cloud based speech recognition services for transcription of audio from video files to subtitle files with text and timecode. FAB Subtitler transfers video files to the cloud and the progress of the transfer and of the transcription can be viewed on the screen. When the cloud service finishes the transcription FAB Subtitler will download the JSON result file of the transcription and store it in a local folder and delete the video file in the cloud. It is also possible to configure FAB Subtitler to extract the audio from the video file and only transfer the audio to the cloud. Most transcription services only provide recognized text and timecode.
Some transcription services may provide additional information. Microsoft Video Indexer also provides the timecode of recognized scene changes and the speaker of the recognized text. FAB Subtitler will then display scene changes in the audio graph and the text for different speakers will be displayed in different colors (when this is configured in options of FAB Subtitler).
FAB Subtitler supports the following cloud transcription services:

The quality of the recognized text is generally not 100% perfect and it requires some manual corrections in FAB Subtitler. However when using the transcription service the subtitle preparation process may require much less time because timecodes are generally already correct and only some text has to be corrected. For video material that works well with the selected transcription service about 60% to 70% less time will be required to prepare the subtitles.

General configuration for the transcription

  • “Maximum number of lines per subtitle” defines how many lines of text should be used in every subtitle for the recognized text when converting JSON result files returned by the transcription service to subtitle files.
  • “Use spell check to automatically correct the transcript” defines that FAB Subtitler will use the spell check function to try to correct some errors returned by the transcription service
  • “Assign colors to speakers when present in the transcript file” will instruct FAB Subtitler to use a different color for every speaker. This will however only work when the speaker ID is present in the transcript file returned by the transcription service.
  • “Store the result file of the transcription in a separate folder (not in the video folder)” instructs FAB Subtitler to store transcript result files in a separate folder and not in the folder with video files.

Configuration for Microsoft Video Indexer

To configure FAB Subtitler to use Microsoft Video Indexer as the transcription service open Options / Special / Transcription:

  • API Key: The API Key is provided by Microsoft in the web interface of Microsoft Video Indexer so that external applications can use the Microsoft Video Indexer web service. Make sure to enter the API key for your Microsoft Video Indexer account. The following page describes how to obtain the API key:

https://docs.microsoft.com/en-us/azure/cognitive-services/video-indexer/video-indexer-use-apis#subscribe-to-the-api

  • Location: The location of the service. For trial accounts you can use “Trial”

Configuration for Zoom-Media Speech to Text

To configure FAB Subtitler to use Zoom-Media cloud service as the transcription service open Options / Special / Transcription:

  • API Key: The API Key is provided by Zoom_media in the web interface.

Configuration for Speechmatics Cloud ASR

To configure FAB Subtitler to use Microsoft Video Indexer as the transcription service open Options / Special / Transcription:

  • Auth token: The Auth token is provided by Speechmatics in the web interface.
  • User ID: The user ID is the user that is used to log in into the Speechmatics web interface.

Configuration for Google Speech to Text

To configure FAB Subtitler to use Google Cloud as the transcription service open Options / Special / Transcription:

  • JSON Key: The JSON Key is a text file which has to be loaded from a JSON file or the content has to be copied into this field. You will find a description how to obtain the JSON key further below.
  • Google Cloud Storage Bucket Name: Enter the name of the storage bucket that will be used for storing of audio files transferred to the Google cloud. FAB Subtitler will always extract the audio from the video file and only transfer the audio to the Google cloud. The instructions below describe how to create a bucket. Please note that you will have to use a different bucket name (not fab-asr-bucket) because Google storage bucket names must be globally unique.

To configure the Google Cloud to be used with FAB Subtitler follow these instructions:

  • Visit https://cloud.google.com and create an account. In July 2018 Google offered a trial account with USD 300 credit which can be used within 12 months. This allows extensive testing of the Google cloud service.
  • Before you can use the Google cloud you must first create a project. Create a project with the name FAB-ASR-Project as shown below


  • Select the project FAB-ASR-Project as the current project

  • Create Credentials for a new service account in the API Manager



  • After the previous step the JSON file with the credentials for the new service account will be downloaded to the computer. The JSON file shall be imported into FAB Subtitler Options /Special / Transcription / Google Speech to Text.
  • Create the storage bucket with a globally unique name (do not use fab-asr-bucket). The bucket will be used to store audio files for transcription in the cloud




  • Make sure to Add bucket permissions for the service account which you have created in one of the previous steps

  • Enable the cloud speech API





After configuring all above FAB Subtitler shall be able to use the transcription service of the Google cloud.
https://cloud.google.com/speech-to-text/

Using the transcription service in FAB Subtitler

To transfer video/audio files to the cloud transcription service click in the ribbon on Video / Transcription. A window will open which will display the status of the video analysis and allow uploading files to the cloud transcription service.

The upper part of the window allows selecting the video/audio file on the disk and the transfer of the file to the cloud transcription service is started when clicking on the button Start transfer. After the file analysis is finished, FAB Subtitler will download the JSON result file from the cloud transcription service and store it locally. After that FAB Subtitler will delete the video file in the cloud transcription service.
The lower part of the window displays the status of the file which has been transferred to the cloud transcription service:

  • Uploading: the file is currently being transferred to the cloud transcription service
  • Transcribing: the file is currently being transcribed by the cloud transcription service
  • Completed: the file transcription is finished, FAB Subtitler will download the JSON result file when it becomes available in the cloud transcription service
  • Failed: the transcription of the file has failed, the reason returned by the cloud transcription service will also be displayed
  • Transcribed, available locally: JSON result files returned by the cloud transcription service which are stored in the local file folder and can be opened in FAB Subtitler as a subtitle file
  • Other: any other status of the file provided by the cloud transcription service

Using JSON result files in FAB Subtitler

JSON files returned by cloud transcription services can be opened in FAB Subtitler directly and the content (which is a structured file containing recognized text and times for words) will be converted to subtitles with text and timecode.

[:]