SlideShare ist ein Scribd-Unternehmen logo
Wir starten mal mit der Itemschwierigkeit/ Itempopularität
Der Schwierigkeitsindex oder eben die Itempopularität wird mit „p“ abgekürzt, auch deswegen
merken Sie sich vielleicht Popularität. „P“, gibt an wie groß der Teil der Probanden ist, die das Item
richtig beantwortet haben. Den Hintergrund haben wir eben schon gesagt: Der Test soll trennen
können zwischen Personen mit hoher und niedriger Merkmalsausprägung und bei dieser
Entscheidung helfen Items, die alle oder keiner gelöst hat eben nicht. Wenn Sie in eine Mathe-Abi-
Prüfung die Frage stellen: 1+1 = ?, dann werden hoffentlich alle auf die Lösung 2 kommen, da heißt
alle lösen dieses Item. Das Item ist sehr populär bei einer Itemschwierigkeit von 1 und hilft deswegen
nicht zu differenzieren, wer den jetzt gut in Mathe ist und wer nicht gut in Mathe ist. Genauso: Wenn
Sie jetzt einen COVID-19-Test haben, der immer anschlägt, hilft das halt auch nicht, dann ist mit
diesem Test nichts gewonnen.
Der Begriff der Itemschwierigkeit stammt eigentliche aus dem Bereich der Leistungstests: Wie
schwierig ist ein Item, wie schwer ist das zu lösen? Das heißt, auch ein niedriger Wert wie z. B. ein
Wert von 0,1 heißt, dass 10% dieses Item lösen konnten. Je niedriger der Wert der Itemschwierigkeit,
desto schwieriger ist das Item. Der Begriff „Popularität ergibt vor allem Im Zusammenhang mit
Persönlichkeitstests oder Einstellungstests Sinn. Da gibt’s dann kein richtig oder falsch, sondern: „Wie
viele stimmen diesem Item zu? Wie populär ist dieses Item?“ Also wie viele Probanden, die wir
befragt haben, haben das auf die gleiche Art und Weise beantwortet? Und die Itemschwierigkeit
kann einen Bereich von 0 – niemand hat das Item gelöst – bis 1 – alle haben das Item gelöst haben –
oder eben niemand hat das Item angekreuzt bis alle haben dieses Item angekreuzt.
Die Itmeschwierigkeit berechnet man nach einer relativ einfachen Formel: Das ist der Mittelwert des
Items minus x-min, also die minimal mögliche Ausprägung des Items, unabhängig davon, ob das
genutzt wurde. aAuf einer Skala von eins bis fünf ist das eins. Das Ergebnis durch max-x also die
maximal mögliche Ausprägung – auf einer Skala von eins bis fünf ist das eine fünf – minus min-x also
wieder die eins. Wenn unser Mittelwert 3,5 wäre, auf dieser Skala von eins bis fünf, dann würden wir
sagen: 3,5 minus 1 ist 2,5 geteilt durch 5 minus 1 ist also 2,5 durch 4. Das kann ich jetzt nicht
rechnen, aber das wäre unsere Itemschwierigkeit.
Was für Kriterien gelten denn jetzt bei der Auswahl der Itemschwierigkeit? Idealerweise sollten die
Items eine mittlere Popularität haben, also eine Itemschwierigkeit von 0,5. Das ist aber gar nicht so
einfach zu erreichen. Deswegen hat man sich auf einen relativ breiten Bereich geeinigt: Alle Items
zwischen 0,2 – also 20% der Probanden können das Item lösen – und 0,8 – also 80% der Probanden
können das Item lösen – ist in Ordnung. Bühner schlägt vor: Die Hälfte der Items mit der
Schwierigkeit 0,5 zu haben und dann etwa 25% schwere, unpopuläre Items. Das ist vor allem bei
Leistungstests interessant. Wenn Sie im Hochleistungsbereich differenzieren wollen, dann brauchen
Sie auch Items, die nur hochintelligente Leute beantworten können. Sie wissen ja Hochintelligenz
beginnt ab einem IQ von 130, der Mittelwert von IQ ist 100, die Standardabweichung ist 15. Das
heißt, plus 2 Standardabweichungen da fängt Hochbegabung an. Das heißt, wir sind hier zwei
Standardabweichungen sind 95%, Das heißt nur 2,5% sollten dieses Item überhaupt lösen können.
Ich hoffe, ich habe jetzt kein Quatsch erzählt, aber es müsste so stimmen.
Genauso schlägt Bühner vor auch leichte, populäre Items aufzunehmen – ungefähr 25% - das sind
dann eben diese so genannten Eisbrecher-Items. Um auf das Beispiel von vorhin zu kommen: In der
Matheklausur sollten wir tatsächlich nicht 1 + 1 gleich 2 nehmen, aber trotzdem vielleicht erstmal
einfache Items, damit die Person reinkommen und merken: „Okay, ich kann das hier lösen und es
wird dann graduell schwieriger.“
Die Itemschwierigkeit sollte also im Bereich von 0,2 bis 0,8 sein und idealerweise bei 0,5, weil die
einfach am besten differenzieren kann. Was machen wir mit den anderen Items? Die sollten Sie dann
entfernen oder ersetzen. Warum? Weil Sie ja gesagt hatten, wenn ein Item eine Itemschwierigkeit
von 0,95 hat – also von 95% aller Probanden beantwortet oder bejaht wird – dann ist dieses Item
nicht gut geeignet, um zwischen Personen mit einer hohen und einer niedrigen Merkmalsausprägung
zu differenzieren. Das heißt, sie brauchen dieses Item nicht, das hilft Ihnen nicht, weshalb Sie es
entfernen oder durch ein anderes Item ersetzen können. Aber ganz wichtig: Dabei immer auch auf
die Inhalte achten – das gilt für alle für alle Aspekte der Itemanalyse. Nicht nur aufgrund dieser
Zahlen, die SPSS Ihnen nachher ausrechnet, Items rausschmeißen, sondern immer auch auf den
Iteminhalt gucken: Wie relevant ist dieser Aspekt eigentlich für das Konstrukt? Ganz wichtig bei mehr
stufigen Items, was wir ja fast immer bei Persönlichkeitstests haben nicht nur die Itemschwierigkeit
berücksichtigen, sondern auch die Varianz der Items. Items mit keiner oder nur sehr geringer
Streuung können ebenfalls keine Personen differenzieren. Ich habe Ihnen hier mal ein sehr plakatives
Beispiel gemacht: Wenn alle ihre fünf VPN auf einer Skala von 1 bis 5 den Wert 3 angeben, dann ist
der Mittelwert auch 3. Wenn Sie bei der Formel von vorhin gucken, kommt da eine Itemschwierigkeit
von 0,5 raus also ideal, aber wie Sie hier sehen können, haben alle 3 geantwortet. Dann kann dieses
Item ja auch nicht differenzieren zwischen hoher und niedriger Merkmalsausprägung. Das heißt,
dieses Item ist auch ungeeignet, weshalb immer auch die Streuung der Items noch berücksichtigt
wird.
Das wars schon zur Itemschwierigkeit/ Itempopularität. Die ermitteln wir, um zu gucken: Kann der
Test zwischen Personen mit hoher und niedriger Merkmalsausprägung unterscheiden?. Das macht
auch Sinn das zuerst anzugucken für jedes Item.

Weitere ähnliche Inhalte

Empfohlen

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
GetSmarter
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
Alireza Esmikhani
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
Project for Public Spaces & National Center for Biking and Walking
 

Empfohlen (20)

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 

Transkript Itemanalyse theoretisch itemschwierigkeit

  • 1. Wir starten mal mit der Itemschwierigkeit/ Itempopularität Der Schwierigkeitsindex oder eben die Itempopularität wird mit „p“ abgekürzt, auch deswegen merken Sie sich vielleicht Popularität. „P“, gibt an wie groß der Teil der Probanden ist, die das Item richtig beantwortet haben. Den Hintergrund haben wir eben schon gesagt: Der Test soll trennen können zwischen Personen mit hoher und niedriger Merkmalsausprägung und bei dieser Entscheidung helfen Items, die alle oder keiner gelöst hat eben nicht. Wenn Sie in eine Mathe-Abi- Prüfung die Frage stellen: 1+1 = ?, dann werden hoffentlich alle auf die Lösung 2 kommen, da heißt alle lösen dieses Item. Das Item ist sehr populär bei einer Itemschwierigkeit von 1 und hilft deswegen nicht zu differenzieren, wer den jetzt gut in Mathe ist und wer nicht gut in Mathe ist. Genauso: Wenn Sie jetzt einen COVID-19-Test haben, der immer anschlägt, hilft das halt auch nicht, dann ist mit diesem Test nichts gewonnen.
  • 2. Der Begriff der Itemschwierigkeit stammt eigentliche aus dem Bereich der Leistungstests: Wie schwierig ist ein Item, wie schwer ist das zu lösen? Das heißt, auch ein niedriger Wert wie z. B. ein Wert von 0,1 heißt, dass 10% dieses Item lösen konnten. Je niedriger der Wert der Itemschwierigkeit, desto schwieriger ist das Item. Der Begriff „Popularität ergibt vor allem Im Zusammenhang mit Persönlichkeitstests oder Einstellungstests Sinn. Da gibt’s dann kein richtig oder falsch, sondern: „Wie viele stimmen diesem Item zu? Wie populär ist dieses Item?“ Also wie viele Probanden, die wir befragt haben, haben das auf die gleiche Art und Weise beantwortet? Und die Itemschwierigkeit kann einen Bereich von 0 – niemand hat das Item gelöst – bis 1 – alle haben das Item gelöst haben – oder eben niemand hat das Item angekreuzt bis alle haben dieses Item angekreuzt. Die Itmeschwierigkeit berechnet man nach einer relativ einfachen Formel: Das ist der Mittelwert des Items minus x-min, also die minimal mögliche Ausprägung des Items, unabhängig davon, ob das genutzt wurde. aAuf einer Skala von eins bis fünf ist das eins. Das Ergebnis durch max-x also die maximal mögliche Ausprägung – auf einer Skala von eins bis fünf ist das eine fünf – minus min-x also wieder die eins. Wenn unser Mittelwert 3,5 wäre, auf dieser Skala von eins bis fünf, dann würden wir sagen: 3,5 minus 1 ist 2,5 geteilt durch 5 minus 1 ist also 2,5 durch 4. Das kann ich jetzt nicht rechnen, aber das wäre unsere Itemschwierigkeit.
  • 3. Was für Kriterien gelten denn jetzt bei der Auswahl der Itemschwierigkeit? Idealerweise sollten die Items eine mittlere Popularität haben, also eine Itemschwierigkeit von 0,5. Das ist aber gar nicht so einfach zu erreichen. Deswegen hat man sich auf einen relativ breiten Bereich geeinigt: Alle Items zwischen 0,2 – also 20% der Probanden können das Item lösen – und 0,8 – also 80% der Probanden können das Item lösen – ist in Ordnung. Bühner schlägt vor: Die Hälfte der Items mit der Schwierigkeit 0,5 zu haben und dann etwa 25% schwere, unpopuläre Items. Das ist vor allem bei Leistungstests interessant. Wenn Sie im Hochleistungsbereich differenzieren wollen, dann brauchen Sie auch Items, die nur hochintelligente Leute beantworten können. Sie wissen ja Hochintelligenz beginnt ab einem IQ von 130, der Mittelwert von IQ ist 100, die Standardabweichung ist 15. Das heißt, plus 2 Standardabweichungen da fängt Hochbegabung an. Das heißt, wir sind hier zwei Standardabweichungen sind 95%, Das heißt nur 2,5% sollten dieses Item überhaupt lösen können. Ich hoffe, ich habe jetzt kein Quatsch erzählt, aber es müsste so stimmen. Genauso schlägt Bühner vor auch leichte, populäre Items aufzunehmen – ungefähr 25% - das sind dann eben diese so genannten Eisbrecher-Items. Um auf das Beispiel von vorhin zu kommen: In der Matheklausur sollten wir tatsächlich nicht 1 + 1 gleich 2 nehmen, aber trotzdem vielleicht erstmal einfache Items, damit die Person reinkommen und merken: „Okay, ich kann das hier lösen und es wird dann graduell schwieriger.“ Die Itemschwierigkeit sollte also im Bereich von 0,2 bis 0,8 sein und idealerweise bei 0,5, weil die einfach am besten differenzieren kann. Was machen wir mit den anderen Items? Die sollten Sie dann entfernen oder ersetzen. Warum? Weil Sie ja gesagt hatten, wenn ein Item eine Itemschwierigkeit von 0,95 hat – also von 95% aller Probanden beantwortet oder bejaht wird – dann ist dieses Item nicht gut geeignet, um zwischen Personen mit einer hohen und einer niedrigen Merkmalsausprägung zu differenzieren. Das heißt, sie brauchen dieses Item nicht, das hilft Ihnen nicht, weshalb Sie es entfernen oder durch ein anderes Item ersetzen können. Aber ganz wichtig: Dabei immer auch auf die Inhalte achten – das gilt für alle für alle Aspekte der Itemanalyse. Nicht nur aufgrund dieser Zahlen, die SPSS Ihnen nachher ausrechnet, Items rausschmeißen, sondern immer auch auf den Iteminhalt gucken: Wie relevant ist dieser Aspekt eigentlich für das Konstrukt? Ganz wichtig bei mehr stufigen Items, was wir ja fast immer bei Persönlichkeitstests haben nicht nur die Itemschwierigkeit berücksichtigen, sondern auch die Varianz der Items. Items mit keiner oder nur sehr geringer Streuung können ebenfalls keine Personen differenzieren. Ich habe Ihnen hier mal ein sehr plakatives
  • 4. Beispiel gemacht: Wenn alle ihre fünf VPN auf einer Skala von 1 bis 5 den Wert 3 angeben, dann ist der Mittelwert auch 3. Wenn Sie bei der Formel von vorhin gucken, kommt da eine Itemschwierigkeit von 0,5 raus also ideal, aber wie Sie hier sehen können, haben alle 3 geantwortet. Dann kann dieses Item ja auch nicht differenzieren zwischen hoher und niedriger Merkmalsausprägung. Das heißt, dieses Item ist auch ungeeignet, weshalb immer auch die Streuung der Items noch berücksichtigt wird. Das wars schon zur Itemschwierigkeit/ Itempopularität. Die ermitteln wir, um zu gucken: Kann der Test zwischen Personen mit hoher und niedriger Merkmalsausprägung unterscheiden?. Das macht auch Sinn das zuerst anzugucken für jedes Item.