module inscription newsletter haut de page forum mobile

Rejeter la notice

Nouvelle Formation Prise de son : les inscriptions sont ouvertes !
Maîtrisez la qualité de vos prises de son avec notre formation théorique et pratique de 3 jours ! Du 14 au 16 mai 2024 à Paris.

à propos de … format vidéo

Discussion dans 'Glossaire' créé par guy-jacques, 15 Février 2010.

Tags:
  1. guy-jacques

    So

    Points Repaire:
    9 200
    Recos reçues:
    156
    Messages:
    9 236
    Appréciations:
    +83 / 289 / -3
    dans un forum, à propos de camescope, un Repairenaute demande à ce que lui soit expliqué de " A à Z " ce que l'on entend par "FORMAT VIDÉO"…

    La tâche est ardue…

    Voici, en vrac, ma conception …


    …expliquer de "A" à "Z" …
    voilà un sacré challenge !

    Le terme "format vidéo" n'est pas comme en photo argentique la spécification des 2 dimensions de l'image enregistrée sur le "film" ou la largeur de ce film [ comme par exemple "format24x36"]
    Un format vidéo, de vidéo numérique, c'est un "cahier des charges"


    Ce cahier des charges, entre autres "prescriptions", donne les "dimensions en pixels" des "images numérisées".

    C'est déjà une indication qui distingue une vidéo "SD" d'une vidéo "HD".

    Pour une vidéo Haute Définition, ces "dimensions en pixels" sont au moins 1280x720; sont courantes les "dimensions" 1440x1080 et 1920x1080.
    Les dimensions pixellisées d'une vidéo SD [ Définition Standard, correspondant à l' affichage sur un écran TV analogique] sont en "pal" 720x576, et, en "ntsc" 640x480…
    Des pixellisations inférieures sont utilisées pour des vidéos diffusées sur le web ou enregistrées et lisibles par un "smartphone" …

    Cependant, si les dimensions, en mm ou en cm, des photos en donnent aussi la "forme rectangulaire ou carrée", ça n'est pas nécessairement le cas en vidéo où la "forme" est toujours vue rectangulaire et "horizontale".

    Deux proportions ( "ratio" ) existent entre la largeur et la hauteur :
    - celle où la largeur est "multiple" de 4 et la hauteur multiple de 3 , ratio 4 : 3 ( c'est celui d' origine de la télévision);
    - celle où la largeur est multiple de 16 et la hauteur multiple de 9, ratio 16 : 9 ( c'est le cas de la vidéo HD, mais ce ratio peut aussi être adopté en vidéo SD … la télévision est de plus en plus diffusée selon ce ratio d' image.)

    En conséquence,
    - si les dimensions en pixels sont dans la proportion du ratio d' image, on dit que les pixels sont "carrés" ( ex: 1280 par720 correspond à 80x 16 par 80x 9 ou encore 1920 par 1080 correspond à 120x 16 par 120x 9).
    - si les dimensions en pixels ne sont pas dans la proportion du ratio d' image, on dit que les pixels sont "rectangulaires" et là, l' affaire se complique effectivement :
    -- ex 1440 par 1080 sont un couple de nombres dans la proportion 4 par 3 alors que l' image HD est 16 par 9 …*il faut multiplier 1440 par 1,333… pour obtenir 1920… les "pixels" sont dits "rectangulaires" dans la proportion 1,333 par 1;
    --pour la pixellisation 720 par 576 l'image peut être affichée
    --- en ratio 4 : 3 les pixels sont alors rectangulaires dans la proportion 1,067 par 1,
    --- mais affichée en ratio 16 : 9, les pixels sont "rectangulaires" dans la proportion 1,422 par 1.
    Ces expressions "pixels carrés" comme "pixel rectangulaire" sont des "commodités de langage" … commodités pour initié, mais qui figurent dans certains logiciels !

    Commodités virtuelles, car ces "pixels" perdent leur existence après l' analyse de l'image "cueillie" sur le(s) capteur(s) lors de l' enregistrement de la vidéo … ils ne sont recréés, éventuellement dans ces "dimensions", que pour visualiser …

    Pour comprendre les spécifications du "cahier des charges", du "format vidéo" il faut (un peu ) savoir ce qui se passe dans un camescope !

    Déjà, c'est aussi une "commodité de langage" que de dire qu'un camescope fabrique des images , tout au moins si l'on pense qu'une image est une représentation en 2 dimensions d'une réalité… à 3 dimensions !
    Avec cette signification, on en reste à la photographie; c'est l' objectif qui fabrique une telle image optique sur une surface sensible à la lumière, pour un camescope comme pour un APN, l' image est formée sur la surface active "du" capteur.

    La surface active du capteur est pavée de "cellules photo-électriques" - elles sont aussi déclarées "pixels", ce qui, hélas, crée une confusion dont certains ne se sortent pas car ils pensent qu'il existe une relation simple entre le nombre de cellules du capteur et les "dimensions en pixels" dont il a été question ci-dessus !

    Le rôle d'une cellule ( pixel matériel du capteur) est de convertir en énergie électrique ce qu'elle reçoit d' énergie de la lumière .
    Chaque cellule capte l' énergie lumineuse correspondant à sa position spatiale dans l' image, selon une des "couleurs primaires" Rouge ®, Verte (G) ou Bleue (B), composantes RGB, et ce, pendant une durée d' exposition ( commandée par le shutter ).

    Périodiquement, l' énergie électrique accumulée dans les cellules est "relevée", on peut imaginer que le "relevé des compteurs" se fait successivement cellule par cellule, ligne par ligne.
    Cependant, les flux électriques, s'il sont distincts en R, G et B ne sont pas distincts cellule par cellule : en "sortie", ils varient de façon "continue" , plutôt "analogique" et pas encore traduite en chiffres !

    La périodicité des relevés ne dépend pas de la durée d' exposition, elle est fixe.
    La fréquence des relevés reste, héritage tv, en relation avec la fréquence de la distribution électrique, comme celle de la télévision de la zône ( principale) d' utilisation et/ou de commercialisation [ basée sur 50Hz en zône "pal", sur 60Hz en zône "ntsc" ].

    Deux modes de relevé ( ou d' exploitation des relevés ) sont possibles :
    - mode progressif : chaque relevé est utilisé pour analyser une image entière.
    - mode entrelacé : chaque relevé est utilisé pour analyser une demi-image, deux demi-images successives ( trames ) n' analysent pas les mêmes lignes, l'une analyse les lignes paires et l' autre les lignes impaires ( cependant un mélange partiel des deux est "de rêgle" ).

    Dans la foulée, ce relevé selon les composantes RGB est recomposé selon trois autres composantes notées YUV ( ou YCbCr ), l' opération est nommée matriçage car ce n'est qu'une opération de calcul matriciel qui n' apporte aucune dégradation mais rend les "signaux" compatibles avec ceux de la télévision couleurs ( qu'elle soit "pal" ou "ntsc" ! ).
    Y est la composante "Luminance" : elle reconstitue un signal analogue à celui des télés "Noir et Blanc" [ en fait des "gris" qui devraient aller de la transparence complète à son opposé "le noir" ].
    U ou Cb [ "complémentaire (du) Bleu" ] et V [ou Cr [ complémentaire (du) Rouge] sont les signaux de Chrominance [ V n'est pas "vert" bien qu' appelé aussi complémentaire Rouge… et n'est pas "rouge" non plus; id. U ou Cb n'est ni bleu ni jaune !].

    Ce sont ces trois signaux qui vont être "chiffrés" ou numérisés.

    D'abord, ils ne sont pas "mesurés" dans une forme usuelle de nombre décimal pouvant prendre toutes les valeurs de 0 à l ' infini, dont une possibilité infinie d' intermédiaires à virgule !
    Ils sont "repérés" sur une échelle limitée de valeurs entières et binaires, autrement dits ils sont codés sur une succession de bits informatiques.
    On sait qu'une succession de 8 bits code 256 valeurs distinctes ( comme de 0 à 255), puisque trois signaux sont encodés, cela distingue 16 777 216 "teintes" ou "nuances colorées";
    avec 10 bits l'encodage permet 1024 "barreaux d' échelle" ( de 0 à 1023 ) soit plus d' 1 milliards de "teintes";
    et avec 12 bits c'est 4096 marches et (presque) 70 milliards de "teintes" …
    Autant dire que les "formats vidéo" courants encodent sur 8 bits ( "profondeur d' échantillonnage").

    Ensuite, la variation des signaux n'est pas relevée continuellement mais … de temps en temps.
    Autrement dit, un certain nombre de fois par seconde, enfin un grand nombre de fois chaque seconde ( fréquence d' échantillonnage ) mais, entre deux "photos", entre deux échantillons ça laisse de l' inconnu !
    Cependant, c'est là où sont créés les "pixels" annoncés dans les "dimensions d' image en pixels" !
    Il faut voir les réalités technologiques telles qu'elles sont : c'est parce que les composants électroniques autorisent, pour un coût voisin, une fréquence de relevés plus élevée que la "définition d' image" est passée du 720x576 du DV au 1440x1080 du HDV puis au 1920x1080 du … "Full HD" !
    Le "marketing" ne fait que "mettre l'eau à la bouche des consommateurs !


    Revenons aux trois signaux Y, U et V, ils ne sont pas souvent échantillonnés à la même fréquence.
    Seule la fréquence de la Luminance ( Y ) correspond à la "pixellisation annoncée", Cb et Cr ( U et V ) sont le plus souvent "sous-échantillonnés", c'est à dire, par rapport à Y "photographiés" 1 fois sur 2 ou 1 fois sur 4… soit simultanément soit en alternance successive soit même en combinant les alternances d' une ligne à l' autre [ ce qui est traduit par les notations ésotériques 4;2;2 4;1;1 4;2;0 … alors que 4;4;4 représente un échantillonnage identique des trois composantes - ce qui n'est effectué que par de très rares formats très professionnels et pointus, et, peu nécessaire !].

    Autrement formulé, un "pixel de définition d' image" est une entité informatique ("soft") qui possède trois caractéristiques. Le plus souvent chacune est codée sur 1 octet ( mais parfois sur 10 bits… exceptionnellement sur 12 !).
    Chaque pixel est "propriétaire unique" de sa caractéristique Y ( Luminance ); il n'est pratiquement jamais "propriétaire unique" de ses deux caractéristiques Chrominance ( U et V ), il les a en commun ( copropriété !) au mieux avec un autre pixel [ 4;2;2 ], et souvent avec 3 autres [ 4;1;1 ou 4;2;0 ].
    MAIS, aucun format vidéo courant n'enregistre ces caractéristiques pixel par pixel et même image par image !
    Ceux qui le font, pointus et hyper pro sont dits "non compressés" …

    L' étape suivant la numérisation est la compression.
    La compression est nécessaire car le volume de l' enregistrement des caractéristiques, octet par octet est difficilement compatible avec la capacité des médias de stockage( plutôt "était", mais avec la HD, ce volume augmente ).
    La nécessité est aussi motivée par le corollaire de la capacité : le débit. Il conditionne les transferts, les traitements et l' affichage de la vidéo.

    Deux "niveaux" de compression peuvent maintenant être appliqués.

    Le niveau de compression INTRA - image.
    Pour chaque image les "pixels", et leurs caractéristiques propres ou partagées, ne sont plus considérés individuellement : ils sont "associés" par "blocs".
    Deux façons existent pour constituer ces blocs :
    - l' une est "rigide" : chaque bloc est un carré d'un certain nombre invariable de pixels, par exemple 8x8 ( cas du DV - MJPEG et du HDV - MPEG2);
    - l' autre est "souple", selon la complexité ou les mouvements ou structure ou forme détectés les dimensions et répartition des blocs diffèrent ( cas d'encodage MPEG4 ).
    Bien évidemment la mise en œuvre "rigide" est fort simple alors que celle de la "souplesse" nécessite une "pré-analyse complexe" .

    Ensuite, comme dans chaque bloc les caractéristiques peuvent être fort désordonnées, il faut leur appliquer un "traitement approprié pour mettre de l' ordre dans la pagaye"!
    Dans le cas des blocs de dimension fixe, il s' agit de la procédure "DCT" [ Discrete Cosine Transformee = Transformée de Fourrier) c'est une application d'un algorithme mathématique dû à Joseph Fourrier ( 1868 - 1830 ).
    C'est la seule compression appliquée pour les formats DV et DVCPro (HD).
    Dans le cas du MPEG4 ( et JPEG2000 ), c'est une application d' un algorithme mathématique essentiellement dû à 2 chercheurs de l' U. de Luminy à Marseille (J. Morlet / A. Grossmann vers 1980 ), nommé algorithme "dirac", il est plus connu sous l' appellation "ondelette" ( "wavelet" en US_anglais d' ou DWT pour la procédure).
    C'est la seule compression appliquée dans un format dit "AVC-INTRA", ce qui est enregistré est une "description du flux vidéo image par image" et c'est aussi une commodité de langage que de parler "des images enregistrées".


    La compression "intra" reste insuffisante pour les formats vidéo "tous"-publics, en particulier le HDV et l' AVCHD et d' autres concernant même la vidéo de qualité "professionnelle".
    Le niveau suivant est alors "INTER-images".
    Non seulement quelques images sont décrites en compression "intra" mais les autres ne sont plus décrites indépendamment de leurs voisines.
    À partir d'une image décrite compressée intra, un certain nombre d' autres qui la suivent sont associées dans un GOP [ Group Of Pictures ], alors, sous l' appellation de "vecteur mouvement", seuls les "changements" et leur évolution font l' objet de procédures d' analyse et de consignation dans un sens et de reconstitution dan l' autre ….

    On peut aussi noter que selon le critère "rigidité" ou "souplesse" la constitution des GOP est fixe, déterminée quoiqu'il se passe ou bien… modulée selon …
    Le traitement informatique en rigidité est évidemment plus simple qu'en version "souple" où il peut devenir très complexe …

    Voilà, en gros, tout ce qui est précisé sous l' appellation "format vidéo".
     
    • J'aime J'aime x 1
  2. guy-jacques

    So

    Points Repaire:
    9 200
    Recos reçues:
    156
    Messages:
    9 236
    Appréciations:
    +83 / 289 / -3
    Faute d'intervention …
    Je reprends le sujet d'une autre manière …

    J'y utilise des désignations avec le terme "image", bien que …

    Que trouve-t'on dans le cahier des charges qui définit un format vidéo :



    1- Ratio d' image
    -- 4 : 3
    -- 16 : 9

    2- Définition d' image
    -- associée à la fréquence d' échantillonnage de la Luminance
    -- 1 "pixel" <= 1 échantillon de Luminance
    -- Définition et Ratio provoquent "pixel carré" ou bien "pixel rectangulaire"

    3- Sous-échantillonnage de la Chrominance
    -- chaque signal de Chrominance [ U ou V ] est rarement échantillonné à la même fréquence que la Luminance, mais, si c'est le cas, c'est noté 4;4;4; chaque pixel est unique propriétaire de chacune des composantes Y, U et V.
    -- pour fournir assez d' information pour un travail approfondi de post-production, chaque signal de Chrominance est échantillonné à une fréquence moitié de celle de la Luminance, si c'est le cas, c'est noté 4;2;2 chaque échantillon de chrominance est commun à 2 pixels.
    -- beaucoup de formats se contentent d' échantillonner chaque signal de Chrominance à une fréquence 4 fois moindre que la Luminance, si c'est le cas chaque échantillon de chrominance est commun à 4 pixels et, c'est noté:
    --- 4;1;1 lorsque les 4 pixels "copropriétaires" sont consécutifs sur eu même ligne,
    --- 4;2;0 lorsque les 4 pixes "copropriétaires" sont disposés en carré ( ou losange ) sur deux lignes consécutives.

    4- Profondeur d' échantillonnage ( ou d' analyse)
    -- c'est le nombre de bits consécutifs affectés au codage d'un échantillon de chacune des trois composantes, plus il y a de bits plus il est possible de "nuancer" les couleurs.
    -- couramment, c'est 8 bits ( soit 1 octet ) pour chaque échantillon, cela distingue 256 niveaux par composantes et "plus de" 16 millions de teintes ou nuances.
    -- pour fournir un travail approfondi de gestion de la couleur ( ) certains formats offrent une profondeur de 10 bits : 1024niveaux par composante et environ 1 milliard de nuances.
    -- la "profondeur" 12 bits offre 4096 niveaux par composante et env. 68 milliards de teintes.

    5- Mode d' exploration de l' image
    -- mode "progressif", noté "p", les composantes de chaque image sont échantillonnées ligne par ligne en 1 seule passe.
    -- mode "entrelacé", noté "i" ( interlaced ), les composantes de chaque image sont échantillonnées en deux passes consécutives, l'une pour en constituer la trame des lignes impaires et l' autre la trame des lignes paires [ selon les formats, la "première" de chaque image est parfois celle des lignes impaires : trame du "haut" en premier, ou le contraire, trame du "bas" en premier = celle des lignes paires ]

    6- fréquence image / fréquence trame
    - pour les "marchés" de la zone "ex-ntsc",
    -- ces fréquences ont été primitivement copiées sur celles du réseau électrique 60Hz et 30Hz
    -- lors du passage à la télé couleur un aménagement des fréquences y est devenu nécessaire : 59,94 Hz et 29,97Hz ont été adoptés pour la TV.
    -- la fréquence du cinéma ( 24 Hz ) est accessible …
    - pour les "marchés" de la zone "pal" ( en cours d' ex, comme secam )
    -- ces fréquences ont été primitivement copiées sur celles du réseau électrique 50Hz et 25Hz qui sont ainsi restées fréquence trame ou image
    -- 24 Hz est accessible ( bien que moins qu'en zone "60" ).
    - Jusque là, les fréquences "hautes" [ 50 / 59,94 / 60 ] étaient celles du mode entrelacé ( donc des "fréquences trames", maintenant, elles deviennent des fréquences-images… en mode progressif).
    Les fréquences basses sont des fréquences-images à la fois en mode entrelacé et évidemment en mode progressif.
    La fréquence "24" est celles d' images en mode progressif.

    7. Compression intra-image
    Les pixels d' une image sont décrits collectivement en "blocs"
    - DCT ( analogue photo JPEG ) : les blocs sont "carrés" et de dimension fixe.
    - DWT ( analogue photo JPEG2000 ) : les blocs sont déterminés selon la "complexité" et/ou le "repérage d' objets" .
    Si le flux vidéo est enregistré après cette étape, bien qu'il n'y figure aucune image entant que telle, on dit que "les images sont indépendantes".

    8- Compression Inter-image
    Les images du flux sont décrites collectivement par "Groupe d' images" [ Group Of Pictures = GOP ]
    - Il s' agit d'une suite d' images consécutives dont seule la première est décrite indépendamment des autres, en général cette description est soit DCT ( MPEG2 )soit DWT ( MPEG4 ), pour les autres images seules les "changements" ou "mouvements" sont décrits par "interpolation" ou "prévision".
    -Deux variantes:
    -- les GOP ont tous la même structure (même nombre d'images décrites et même alternance des interpolées et prévues ) : MPEG 2
    -- les GOP sont adaptables selon le flux : MPEG 4

    9- Enregistrement
    - Qu'il décrive les images pixel par pixel ( non compressé) ou les images une à une mais pas les pixels ( compression intra ) ou le flux d' images mais pas les images une à une et encore moins leurs pixels ( compression INTER ), l' enregistrement ne concerne pas que le flux vidéo, il s'y ajoute d' autres informations ( comme certaines concernant le format vidéo ) ou des facilités pour le gérer ( imagettes / Time-Code ).
    - Bien que tout y soit maintenant "écrit" en langage informatique certains enregistrements n' y sont pas "encapsulés" dans une structure de fichier directement reconnaissable par un système d' exploitation d' ordinateur personnel [ Windows, MacOS ou Unix ] : c'est le cas des enregistrements linéaires sur bande magnétique, il n'empêche qu'ils y ont une structure.
    - Les médias d' enregistrement informatiques qui depuis peu d' années équipent maintenant beaucoup de camescopes ( Disque Dur interne, Mémoire Flash interne ou sur carte ) sont lisibles par les OS des ordinateurs personnels; le flux vidéo y est découpé en "clips" directement accessibles et enregistrés en tant que "fichiers informatiques", ce qui inclut une "entête" et les instructions de "lecture" par le sysême d' exploitation de l' ordinateur, on parle d' "encapsulage"; il en existe plusieurs dont "mov", "avi", mais aussi ms ou m2ts etc. nb: l' encapsuleur n'est pas le flux vidéo et donc peut être trompeur.
     
    • J'aime J'aime x 1
Chargement...

Partager cette page