Vorkommen von signifikanten Kombinationen

Fragen zur Planung einer Untersuchung oder eines Projekts.

Vorkommen von signifikanten Kombinationen

Beitragvon lilchaos » Do 6. Okt 2016, 15:15

Hallo ihr,

auf die Gefahr hin mich nun total zu blamieren versuche ich es trotzdem:

Ich teste zur zeit Strukturelle Alarme, d.h. kommt eine bestimmte Chemische Substruktur in einem Molekül vor wird dieses als positiv klassifiziert. Das ganze dient letzenendes der Vorhersage der Aktivität von neuen Molekülen und soll in der Entscheidung welches Molekül weiter getestet wird helfen.

Nun habe ich gesehen, dass dies für kleine und wenig komplexe Moleküle relativ gut funktioniert, aber bei größeren die Prädiktivität der Alarme sinkt. Meine Idee wäre also zu schauen ob es evtl Kombinationen von Substrukturen gibt die eine bessere Vorhersage liefern im Gegensatz zu einzelnen (oft gibt es pro Molekül mehrere Substrukturen die enthalten sind)

Also quasi wenn nur A oder B vorkommt ist die struktur negativ, wenn aber A und B vorkommen soll sie als aktiv klassifiziert werden. Gibt es denn eine sinnvolle Methode wie ich vorgehe um solche signifikante Kombinationen zu finden?

Ich bin leider total planlos wo ich überhaupt anfangen soll.
Mir langen auch gerne einmal ein paar Stichworte (Das Statistikbuch liegt neben mir, leider aber weiß ich gar nicht wo auf den 1000 Seiten ich anfangen soll) oder generelle Hilfen wie ich vorgehen sollte bzw ob sowas überhaupt realisierbar ist.

Ich hoffe jemand kann helfen und die Frage ist nicht allzu banal :oops:

Danke euch!
Grüßle
lilchaos
Grünschnabel
Grünschnabel
 
Beiträge: 7
Registriert: Mi 22. Jun 2016, 20:11
Danke gegeben: 0
Danke bekommen: 3 mal in 3 Posts

Re: Vorkommen von signifikanten Kombinationen

Beitragvon bele » Fr 7. Okt 2016, 08:24

Hallo lilchaos,

wie schon in Deinem ersten Thread fühle ich mich unwohl mit der Beantwortung, da ich immer noch zu wenig davon verstehe, was das für Daten sind, die Du da hast und in welchem Umfang die vorliegen und so weiter.

Du versuchst Zusammenhänge im Sinne von und und oder-Verbindungen in Deinen Daten zu finden. Oft sind Entscheidungsbäume/Klassifikationsbäume da sehr hilfreich. Sie dröseln Deine Daten in eine Serie von Einzelentscheidungen auf und wenn sie klein genug bleiben, dass man da mit bloßem Auge drüber schauen kann, dann erkennt man oft UND/ODER-Entscheidungen.

Du bist ja in R unterwegs. Schau Dir mal die Pakete rpart und party an, um in das Thema hinein zu schnuppern.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5766
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1351 mal in 1338 Posts

Re: Vorkommen von signifikanten Kombinationen

Beitragvon lilchaos » Fr 7. Okt 2016, 09:06

Hey,

vielen Dank für die Antwort, tut mir leid wenn ich was die daten betrifft immernoch kryptisch klinge, ich habe unten nochmal versucht zu erklären was ich mache. Bäume könnten eine option sein ich schaue mal ob das realisierbar ist. Ich habe auch schon über clustern nachgedacht aber da bräuchte ich ja eine art Ähnlichkeitsindex oder?

Ich versuche es nochmal konkreter zu werden was die Daten anbelangt: (Ich hoffe der link ist hier erlaubt)

http://pubs.rsc.org/services/images/RSCpubs.ePlatform.Service.FreeContent.ImageService.svc/ImageService/Articleimage/2016/GC/c6gc01492e/c6gc01492e-f8_hi-res.gif

Wie im Bild gibt es Datenbanken die chemische und/oder pharmazeutische Substanzen klassifiziert haben ob sie Schädigende Wirkung haben (die zB gezeigt haben ob sie an Proteine binden oder die Leber schädigen etc). Aus diesen Datenbanken wird mittels Algorithmus oder manuell durch "hingucken" extrahiert ob es bestimmte Elemente in einer Struktur gibt die nur (oder vermehrt) in den Molekülen vorkommt die schädigen. Das ganze nennt man dann struktur wirkungs beziehung (SAR). Man geht dann davon aus dass alle Moleküle die diese Struktur tragen dieselbe Aktivität besitzen also schädigend sein können.

Nun habe ich eine solche Datenbank in der >1000 klassifizierte Moleküle vorliegen mit der Klassifikation schädigend als binäre variable (0,1) und dazu eben 30 solcher Strukturen ("Patterns") bei denen man vermutet dass ein Molekül, wenn sie darin vorkommen, auch schädigend sein kann. D.h. für jedes Molekül habe ich zusätzlich noch die darin vorkommenden Patterns.

Also Daten die ich habe sind im Prinzip viele chemische Strukturen die als schädigend/nicht schädigend klassifiziert sind und bei denen ich weiß ob eine bestimmte substruktur vorkommt oder nicht.

Hilft dir das weiter? (Ich gebe dir gerne noch mehr auskunft weiß aber nicht so genau wie ich es anders formulieren soll :oops: )

Grüßle
lilchaos
Grünschnabel
Grünschnabel
 
Beiträge: 7
Registriert: Mi 22. Jun 2016, 20:11
Danke gegeben: 0
Danke bekommen: 3 mal in 3 Posts


Zurück zu Versuchsplanung

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast