Ankündigung

Einklappen
Keine Ankündigung bisher.

Testgrundlagen-Operationalisierung

Einklappen
X
 
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge
  • jakob
    Administrator
    • 02.12.2007
    • 1508

    Testgrundlagen-Operationalisierung

    Wie auch beim (noch) unvollendeten Thread zum Gehör/Wahrnehmung erscheint mir auch hier eine Aufteilung in Darstellung und Diskussion sinnvoll.

    Im wissenschaftlichen Sinne ist Fortschritt dann denkbar, wenn Theorien/Hypothesen in irgendeiner Form bestätigt werden können, entweder direkt oder indirekt, wobei indirekt bedeuten würde, durch fehlende/unmögliche Widerlegung.

    Um eine Theorie/Hypothese der Prüfung zugänglich zu machen, wird die sogenannte Operationalisierung benötigt.

    Bei der Operationalisierung geht es, salopp formuliert, darum, Handlungsvorschriften für Testverfahren zu entwickeln, die es erlauben eine Theorie/Hypothese zu prüfen.

    Zwei Links:


    oder die etwas klarere Formulierung:


    Die Operationalisierungsphase hat zentrale Bedeutung und normalerweise wird bereits hier über Sinn oder Unsinn spezifischer Testverfahren entschieden.
    Der Begriff als solcher ist universell, allerdings geht es im Audiobereich meist um Testverfahren der Psychoakustik oder Kognitionspsychologie/Wahrnehmungsforschung.

    Eingehende Beschäftigung mit den Erkenntnissen der Wahrnehmungsforschung insbesondere bezüglich der Eignung von Testverfahren hilft in der Operationalisierungsphase entsprechend weiter.

    Nimmt man als Beispiel die Hypothese "Man kann einen Unterschied zwischen Verstärker X und Verstärker Y hören", dann drängen sich förmlich Schwierigkeiten auf, denen man in der Operationalisierung "begegnen" muß, die auch dazu führen können, daß die Theorieformulierung geändert werden muß, um Testbarkeit überhaupt zu ermöglichen.

    Im Beispiel muß die Hypothese genauer formuliert werden, damit klar wird ob gemeint ist "jeder kann diesen Unterschied hören" oder "im Mittel kann der Unterschied gehört werden" oder "es gibt mindestens einen Menschen, der den Unterschied hören kann".

    In der Operationalisierung müssen dann die Entscheidungen fallen über:

    -) Hörtestvariante (Single-Blind, Doppel-Blind, Triple-Blind o.w.)

    -) Testprotokoll

    -) Testpersonen

    -) Abhöranlage

    -) Rahmenbedingungen

    -) statistische Testverfahren und Entscheidungskritierien

    unter Berücksichtigung allgemeiner und spezifischer Erkenntnisse zu Testabläufen mit menschlichen Testpersonen wie Erwartungshaltung, Konzentrationsfähigkeit, akzeptierten Fehlerraten, Testsicherheitserwägungen usw.

    Gruß
    Zuletzt geändert von jakob; 19.07.2012, 10:52.
    Gewerblicher Teilnehmer;
    Entwicklung, Herstellung und Vertrieb von Audiotechnik u.a.
  • jakob
    Administrator
    • 02.12.2007
    • 1508

    #2
    AW: Testgrundlagen-Operationalisierung

    Die Entscheidung über die auszuwählende Blindtestvariante ist sowohl vom generellen Anspruch an die Testergebnisse als auch von weiteren Überlegungen zum (wünschenswerten oder auszublendenden) Erwartungsniveau der Testpersonen abhängig.

    Für den "Hausgebrauch" wird ein Single-Blind-Test reichen, bei höheren Ansprüchen muß es mindestens ein Doppel-Blind-Test sein.
    Ist man sich über das Erwartungsniveau der Testpersonen und/oder die "Gutwilligkeit" nicht ganz im klaren, wird man zum Triple-Blind-Test greifen, wobei damit gemeint ist, daß die Testpersonen auch zum Testgegenstand keine Informationen bekommen, also nicht wissen, ob es um Lautsprecher, Verstärker, Zubehör, gezielte Klangmanipulation, Untersuchungen zum Hörvermögen oder vielleicht Kompressionsalgorithmen geht.

    Der nächste Entscheidungspunkt wäre das Testprotokoll. Zunächst stehen zwei Verfahren zur Verfügung- zum einen der Unterschiedstest zum anderen der Präferenztest.

    Unterschiedstest meint, daß die Testperson zwei aufeinanderfolgende Teststücke vorgespielt bekommt und dabei entscheiden muß, ob es zwischen beiden eine Veränderung gab oder nicht.

    Bei einem Präferenztest wird die Testperson nach einer Bewertung der beiden Testbeispiele (das Verfahren kann auch auf mehrere Testbeispiele ausgedehnt werden) gefragt- ergibt sich aus der Bewertung eine Bevorzugung eines Testbeispiels kann man somit ebenfalls auf Unterschiedlichkeit schließen.

    Beide Verfahren haben Vor-und Nachteile, die Vermutung liegt nahe, daß die Präferenzvariante dichter am "normalen Höralltag" liegt, denn Kaufentscheidungen werden meistens aufgrund einer Präferenz gefällt.
    Eine Analyse gut dokumentierter Blindtests bestätigt einen grundsätzlichen Nachteil des Diskriminierungstests, da man stets eine ausgeprägte Neigung der Testpersonen zu der Antwort "unterschiedlich" feststellen konnte, was zu einer entsprechenden Häufung falscher Anworten führt, wenn die richtige Antwort eigentlich "gleich" hätte sein müssen.

    Tom Nousaine erwähnte diesen Effekt z.B. hier:

    (ist frei zugänglich, basiert aber auf einem Artikel, der im Journal of the Audio Engineering Society- kurz JAES- veröffentlicht wurde)

    Als Beispiel für diesen Effekt kann der ansonsten sehr aufwendige Stereophile-BT von 1989 dienen, der hier ausführlich beschrieben wurde:
    John Atkinson sets the stage Nothing seems to polarize people as much as the vexed question concerning the importance of audible differences between amplifiers. If you think there are subjective differences, you're an audiophile; if you don't, you're not.


    In der Auswertung ist die sehr hohe Anzahl falscher Antworten zu erkennen, wenn die richtige Antwort "same/gleich" hätte lauten müssen.

    Es gab zwar Ansätze, diese Antwortneigung durch einen Korrekturfaktor bei der Auswertung zu berücksichtigen, allerdings können sich diese nicht durchsetzen, da sie zu viele Unwägbarkeiten enthalten, nicht zuletzt, daß Testpersonen das Wissen um die verwendeten Korrekturfaktoren in ihre Antworttendenz einfliessen lassen könnten.

    (wird noch ergänzt)
    Zuletzt geändert von jakob; 03.03.2008, 12:27.
    Gewerblicher Teilnehmer;
    Entwicklung, Herstellung und Vertrieb von Audiotechnik u.a.

    Kommentar

    • Guest
      Guest

      #3
      AW: Testgrundlagen-Operationalisierung

      Hallo jakob,

      hab Dank, daß du dir hier die Mühe einer detailierten Auflistung um das Aufsetzen eines seriösen Blindtests machst. Ja, so geht man vor.:daumen:

      Gruß
      Franz

      Kommentar

      • jakob
        Administrator
        • 02.12.2007
        • 1508

        #4
        AW: Testgrundlagen-Operationalisierung

        Eine interessante Variante des Diskriminierungstests (Test auf Unterschiedlichkeit) ist das ABX-Verfahren.
        Die Bezeichnung leitest sich ab von den beiden zu unterscheidenden Signalquellen A und B sowie dem zufällig aus A oder B gewählten X.
        Die Testperson muß die Frage beantworten, ob im aktuellen Durchgang X mit A oder mit B identisch ist.

        Die Testperson kann sich A und B beliebig oft anhören, wie auch ebenfalls X und muß aber irgendwann eine Antwort geben.

        Nähere Informationen zum ABX-Protokoll sowie zu anderen Testabläufen, Trainingsinformationen und Downloads findet man hier:



        Trotz des interessanten Ansatzes gibt es im Verfahren ein paar Unwägbarkeiten, die einerseits in der starren Zuordnung von A und B liegen, womit eine Präferenz beispielsweise für A Einfluß nehmen kann, sowie in einer möglichen Verunsicherung der Testpersonen hinsichtlich der Strategie bei der Bewältigung der Testaufgabe.
        Gesicherte Erkenntnisse hierzu gibt es mWn nicht, Berichte von Teilnehmern an ABX-Tests lassen die Deutung zu, daß die Beantwortung einer Frage auf Gleichheit "ist X nun gleich A oder gleich B" relativ ungewöhnlich ist.

        Insofern ein Hinweis darauf, daß der Trainingsaspekt einen größeren Einfluß haben kann, worauf auch die Hinweise auf der pcabx-Seite hindeuten.


        Unabhängig von der Frage, ob es nun ein Präferenz- oder ein Diskriminierungstest sein soll, existiert in jedem Fall die Schwierigkeit, neben dem eigentlichen Testgegenstand auch die Fähigkeiten der Testpersonen richtig einschätzen zu können, denn es liegt auf der Hand, daß diese darüber entscheiden, ob der eigentliche Testgegenstand adäquat untersucht wird.

        Das geeignete Hilfsmittel zur besseren Einschätzung stellen Kontrollversuche dar; man unterscheidet zwischen Positiv- und Negativkontrolle.
        Im Fall des Audiotests stellt eine Positivkontrolle einen Unterschied dar, der auf jeden Fall erkannt werden muß, die Negativkontrolle wären Testsignale, bei denen erkannt werden muß, daß es keinen Unterschied gibt.

        Wie weiter oben beschrieben, ist bei Unterschiedstest die Negativkontrolle ein Punkt, der zu Auswertungsschwierigkeiten führt.
        Bei Präferenztests umgeht man dieses Problem durch die Bewertung; die Positivkontrolle muß zu unterschiedlicher Bewertung der beiden Testsignale führen, die Negativkontrolle sollte zu gleicher Bewertung führen.

        Darüberhinaus sind Positiv- und Negativkontrollen das letzte unabhängige Prüfmittel hinsichtlich des Testablaufs, denn sie können vorher nicht beachtete Schwächen des Testdesigns aufdecken helfen.
        Zuletzt geändert von jakob; 03.03.2008, 12:39.
        Gewerblicher Teilnehmer;
        Entwicklung, Herstellung und Vertrieb von Audiotechnik u.a.

        Kommentar

        • jakob
          Administrator
          • 02.12.2007
          • 1508

          #5
          AW: Testgrundlagen-Operationalisierung

          Die vorher beschriebenen Überlegungen haben zur Entwicklung unterschiedlicher standardisierter Testprotokolle geführt, die im Audiobereich ,wie z.B. bei der Weiterentwicklung von Datenkompressionsalgorithmen, Anwendung finden.

          Ein interessanter Ansatz ist MUSHRA (inzwischen auch als ITU-R BS.1534 veröffentlicht), das entsprechende BBC-White-Paper findet man hier:



          sowie ein Anwendungsbeispiel:



          Es handelt sich um ein Präferenztestprotokoll, bei dem der Testhörer Zugriff auf das Referenzsignal hat; ihm im folgenden verschiedene weitere Musikbeispiele zur Beurteilung angeboten werden, die qualitativ eingestuft werden müssen.

          Unter diesen weiteren Signalen befinden sowohl das zu untersuchende Signal als auch die verschiedenen Kontrollsignale, die eine (zumindest rudimentäre) Aussage darüber erlauben, ob die Testperson sinnvolle Ergebnisse erzielt hat.

          Die Kontrollsignale bestehen aus dem verdeckt nochmals angebotenen Referenzsignal, das dementsprechend auch die höchste Bewertung durch die Testperson bekommen sollte, sowie abgestuft gezielt verschlechterten Varianten, die entsprechend schlechtere Bewertungen bekommen sollten.

          Aus dieser Zusammenstellung ergibt sich das Bezeichnungsakronym MUSHRA;
          "MUS" steht für multiple Stimulus, da mehrere Testsignale zur Beurteilung angeboten werden
          "HRA" steht für hidden Reference with Anchors, da das Referenzsignal nochmals versteckt angeboten wird, sowie den zusätzlichen "Ankern" in Form der, per verschiedener Tiefpassfilterung, verschlechterten Varianten.

          Ein "MUSHRA-Sortiment" besteht also aus diesen Signalen

          dem offenen Referenzsignal
          einem oder mehreren zu untersuchenden Testsignal(en)
          dem versteckten Referenzsignal
          dem tiefpassgefilterten Referenzsignal mit einer Bandbreite von 3.5kHz
          dem tiefpassgefilterten Referenzsignal mit einer Bandbreite von 7kHz o. 10kHz

          die anhand einer vorgegebenen Bewertungsskala von der Testperson eingestuft werden müssen.
          Zuletzt geändert von jakob; 08.03.2008, 14:12.
          Gewerblicher Teilnehmer;
          Entwicklung, Herstellung und Vertrieb von Audiotechnik u.a.

          Kommentar

          • jakob
            Administrator
            • 02.12.2007
            • 1508

            #6
            AW: Testgrundlagen-Operationalisierung

            Der andere "offizielle" Ansatz ist das ABC/HR-Protokoll beschrieben in ITU-R BS.1116 .

            Hierbei ist Signal A das Referenzsignal ("offene" Referenz), die Signale B und C sind zufällig gemischt wieder das Referenzsignal sowie das zu untersuchende Signal.
            Das Referenzsignal wird also nochmals, aber diesmal verdeckt als Signal B oder Signal C angeboten, während das zu untersuchende Signal dann den jeweils noch freien "Buchstabenplatz" einnimmt.
            Der Namensteil "HR" steht für "hidden Reference" und kennzeichnet das Anbieten der verdeckten Reference.

            Die Aufgabe der Testperson besteht in der Bewertung der Signalqualität des zu untersuchenden Testsignals (und tatsächlich auch in der Erkennung, ob das Testsignal im jeweiligen Durchgang nun Signal B oder Signal C ist).

            Der Signalsatz besteht also aus folgenden Teilen:

            dem offenen Referenzsignal A
            dem verdeckten Referenzsignal B (oder C) zufällig zugeordnet
            dem eigentlichen Testsignal C (oder B)

            Dieses Testprotokoll wurde bei der Weiterentwicklung von Audiokompressionsverfahren häufig benutzt, gewisse Ähnlichkeiten zum vorher beschriebenen MUSHRA sind unverkennbar.
            Die ebenfalls standardisierte fünfstufige Qualitätsskala zur Beurteilung der Signalqualität des Testsignals ist nicht zwingender Bestandteil allgemeinerer Testanwendungen; das Protokoll "funktioniert" auch mit anderen Bewertungsskalen.

            Ein Beispiel für die Anwendung ist:



            eine Untersuchung zur Sinnhaftigkeit höherer Abtastfrequenzen. Überaus interessant, da Überlegungen zur Operationalisierung relativ ausführlich dargestellt und auch mögliche Biaseffekte zumindest kurz diskutiert werden.

            (wird fortgesetzt)
            Zuletzt geändert von jakob; 19.07.2012, 11:00.
            Gewerblicher Teilnehmer;
            Entwicklung, Herstellung und Vertrieb von Audiotechnik u.a.

            Kommentar

            Lädt...
            X
            😀
            🥰
            🤢
            😎
            😡
            👍
            👎