marco@work - Promotieplan met uitleg

Dit is mijn huidige promotieplan in PDF formaat, nog altijd een werk in uitvoering natuurlijk. Hieronder volgt een uitleg over deze planmatige schets...

Opmerkingen vooraf
Dit is een dynamische tijdsplanning, onderverdeeld in Onderzoek (wat weer onderverdeeld is in Invoer en Uitvoer), Opleiding en Overig, uitgezet in mijn promotietijd. Dynamisch in de zin dat het de bedoeling is dat ik dit document iedere paar weken bij zal blijf werken, wat zichtbaar is in de rij met weeknummers. Ik heb bewust geen balken gebruikt om het einde van taken mee aan te geven, maar het begin van ieder element is wel precies geplaatst. Al bevatten vooral de laatste twee jaar nogal wat lacunes, het is toch niet echt verwonderlijk dat de volgende trend al waarneembaar is: Onderzoek/Ontwikkeling » Papers/Presentaties » Publicaties » Manuscript.

Toelichting op punten in jaar 1 (2004)

Probleemstelling
Aan de precieze formulering van de probleemstelling heb ik vooralsnog geen aandacht besteed, maar wat algemener gezien heb ik wel de volgende doelstellingen binnen dit domein van kwantitatieve syntaxis:

Wat is een redelijke syntactische afstandsmaat
Wat zijn de syntactische afstanden tussen de Nederlandse dialecten
Wat zijn relevante syntactische correlaties
Hoe verhoudt de syntactische distributie van de Nederlandse dialecten zich tot de uitspraak- en lexicale distributies

Deze vierdeling - Model, Toepassing, Correlaties, Context - is tevens terug te vinden in het promotieplan in de vier paper-onderwerpen waarover ik in de loop van het onderzoek wil schrijven. Het is bevendien terug te vinden in de globale hoofdstukindeling van het manuscript. Verder ligt het voor de hand dat ik gaandeweg, afhankelijk van de resultaten, dit domein zal gaan vernauwen om een deelgebied uit te diepen.

Feature-Kaartnr overzicht

Per syntactisch verschijnsel wordt momenteel een lijst Kloekenummers opgesteld, waarin de resultaten zoals deze in de SAND-database zijn opgenomen, gecontroleerd en waar nodig handmatig gecorrigeerd zijn.
Aangezien deze geïnterpreteerde distributies van syntactische verschijnselen niet als zodanig terug te vinden zijn in de online versie van de SAND-database, zal ik als basis voor mijn onderzoek enkel een XML-representatie van de relevante subset van de geschoonde data gaan gebruiken.
Deze gegevens komen overigens overeen met de uiteindelijke papieren atlas, nu in twee delen. De Kloekelijsten behorende bij het eerste deel - over de linkerperiferie en pronomina - is grotendeels compleet, de voor mij relevante tabel bij het eerste deel zou uiterlijk eind juni beschikbaar moeten komen. De definitieve gegevens met betrekking tot het tweede deel van de atlas - over de rechterperiferie en negatie - worden uiterlijk over ongeveer een jaar aangeleverd. Indien nodig zou ik eventueel zelf direct de syntactische features uit de database kunnen vissen, maar:
Op dit moment heb ik de eerste subset van lijsten, wat voorlopig genoeg is om van start te kunnen gaan met:

SAND postprocessor

De XML-representatie van de relevante subset van de geschoonde data wordt ingelezen, waarna de mapping omgekeerd wordt zodat tevens een lijst van (het wel of niet voorkomen van) syntactische verschijnselen per Kloekenummer onstaat.
Door op ieder Kloekevector-paar per dimensie een AND-operatie toe te passen en vervolgens afhankelijk van het resultaat 0 of 1 op te tellen (Binaire meting/Hamming distance), kan een eerste syntactische maat berekend worden. Daarna testen met bijvoorbeeld Gewichteter Identitätswert (GIW) om feature-frequentie mee te nemen, etc.
Deze verzameling afstanden wordt samengevoegd in de afstandsmatrix, die vervolgens als input zal dienen voor onder meer:

LEV adapter

Peter Kleiweg's analyse- en visualisatieprogramma's (LEV) verwachten specifieke invoerformaten. Zo zijn onder meer data-bestanden (per feature), een label-bestand, een plaats-coordinaatbestand en enkele geografische grensbestanden nodig. In hoeverre is dit - op basis van (de SAND-) Kloekenummers - reeds aanwezig..?

LEV experiment

Analyse van LEV resultaten

VDM adapter/VDM experiment

Als LEV, maar nu met Goebl & Haimerl's Visual DialectoMetry (VDM) programma.

Revisie Probleemstelling

Aan de hand van LEV en VDM resultaten probleemstelling nader specifieren

Globale schets/plan van aanpak

Opzetten van ontwikkelcyclus van definiëren maat & toepassen op beschikbare data (~ jaar 1, zie boven)
Aan de hand van de verkregen resultaten enerzijds en theoretische kennis anderzijds interactief
- structureren van de verzameling features met behulp van regressietesten op subsets (correlaties opsporen)
- opstellen van een gewichtensysteem voor (een subset van) de gestructureerde verzameling features dat zowel genormaliseerd is met betrekking tot
  - de onderlinge waardering per featuregroep (intern), als voor
  - de beschikbare syntactische verzameling features in de SAND (extern)
Het zou interessant zijn om het model op andere gegevens te kunnen loslaten, in combinatie met een buitenlands verblijf, indien beschikbaar, wat neerkomt op het experimenteren met de te produceren adapter.
Wat betreft het naar buiten treden, wil ik op de TIN-dag 2005 de eerste resultaten presenteren, op basis van een paper over het Model.
De eerste prestigieuze publicatie over het Model en de Toepassing daarvan, wil ik voor het einde van mijn tweede jaar opgestuurd hebben naar Language Variation And Change.

Mijn huidige promotieplan in PDF formaat.