Thys3
Database-software voor biologische waarnemingen
 

Generaties

De ontwikkeling van opslagsystemen voor biologische gegevens is in een aantal fases gegaan. Elke nieuwe fase kende één of meer typische veranderingen, je zou daarom ook kunnen spreken van generaties. Thys3 is programma van de derde generatie.

Eerste generatie

De eenvoudigste manier van gegevensopslag is die welke precies dezelfde structuur volgt als gegevens op papier: in tabellen of lijsten. Dit soort gegevens zijn hanteerbaar voor alle software en wordt tegenwoordig vooral met behulp van MS-Excel of MS-Access beheerd.
Het universele uitwisselingsformat is het csv-format (comma separated values), een platte ASCII-tekst met komma's (of puntkomma's als MS-Excel met maakt) als scheidingsteken tussen de inhoud in de kolommen, en eventueel aanhalingstekens rond teksten.

Tweede generatie

Tabellen worden meestal onhanteerbaar als ze te groot worden, waardoor ze in deeltabellen worden gesplitst. Een andere manier is om alle monsters onder elkaar uit te schrijven. De soortnamen worden dan steeds opnieuw uitgeschreven en dat kost veel ruimte, veel typewerk en is gevoelig voor typefouten. Het ligt dan voor de hand om te gaan coderen en een compact bestandsformat te gebruiken.
De eerste vorm waarin dit werd toegepast was het Cornell Condensed Format, waarin alle soorten en monsters een doorlopende nummering kregen en die aan het eind door middel van een code met 8 letters werden verklaard. Dit format is voor opslag op ponskaarten ontwikkeld, maar wordt nog steeds gebruikt als invoerformat voor analyseprogramma's zoals TWINSPAN en CANOCO.
Het aanmaken en beheren van dit soort bestanden is erg lastig en het ligt dus voor de hand om hier specialistische software voor te maken. Het begon met software die direct het Cornell Condensed Format kon maken of manipuleren zoals CEDIT en OpName, maar dat ontwikkelde zich tot relationele database-systemen die de gebruiker met de volledige namen liet werken en bovendien een tabel met allerlei (standaard) eigenschappen van de monsters bijhoudt. Voorbeelden: EcoLims, TurboVeg, Piscaria en op internet: www.waarneming.nl

Derde generatie

Hoewel enkele programma uit de tweede generatie al provisorische mogelijkheden bieden voor verdieping van de informatie, zoals hoedanigheden waarin een soort kan voorkomen, is aan de basale structuur van de databases nog veranderd. Een volgende stap in de ontwikkeling is het werken in meer dimensies:
  • niet één standaard soortenlijst, maar een onbeperkt aantal soortenlijsten die dynamisch aan elkaar zijn gekoppeld, waardoor het mogelijk wordt gegevens tussen verschillende systemen uit te wisselen zonder iedereen te dwingen dezelfde soortnamen te gebruiken.
  • een soort in meer dan één hoedanigheid (man/vrouw, larve/volwassen, grootteklassen) hanteren, zodat binnen de waarneming van een soort ook nog kan worden gevarieerd zonder de naam van de soort steeds opnieuw te moeten vermelden
  • in plaats van een enkele getal als meetwaarde per soort elke denkbare combinatie soort scores, en meerdere scores voor dezelfde waarneming, waardoor het mogelijk wordt de oorspronkelijke coderingen voor meetklassen (zoals bijvoorbeeld de lettercodes van de Tansley-schatting) en bij elke planktonsoort zowel het aantal cellen als het aantal kolonies per ml en ook nog de gemiddelde celdiameter of het biovolume in één enkele waarneming te combineren
  • behalve monsters ook deelmonsters naar waarde onderscheiden wanneer deze aan elkaar gekoppeld zijn.
Bij zo veel dimensies is het vrijwel onmogelijk geworden alles in overzichtelijke tabellen te exporteren, maar dat hoeft ook helemaal niet. Een database moet niet alleen goed zijn in het opslaan van gegevens, maar ook in het weergegeven, zowel op scherm als in een export-bestand. Er moet niet alleen geselecteerd kunnen worden, maar ook kunnen worden gekozen voor voorkeursnamen, manier van weergave van de meetwaarde(n), en het al dan niet samenvatten en filteren van hoedanigheden en deelmonsters, en bestandstype.