Discussion:
ket file hasonlosaga hash
Dániel Vásárhelyi
2005-11-21 08:27:23 UTC
Permalink
Hello,

Anno valamelyik spamfilter kapcsan lehetett hallani olyan hash
fuggvenyrol, aminek a kimenetebol lehetett kovetkeztetni ket file
hasonlosagi fokara. Mivel vegigkovetve e vonalat nem jutottam mashoz,
csak egy szamomra kodos matematikai formulahoz, szeretnem megkerdezni
a Nagyerdemut, hogy tud-e olyan (mar kesz) librol vagy programrol, ami
tud nyilatkozni ketto db file hasonlosagarol.

Ezer kosz,
asd

--
Dániel Vásárhelyi
http://www.nsfw.hu/ | http://www.tophost.hu/
Fagyal Csongor
2005-11-21 13:17:57 UTC
Permalink
E,

Perl-ben van String::Similarity, ket string hasonlosagat szamolja ki
ertelemszeruen. Talan tudnad hasznalni, attol fugg, milyen a ket file-od...

http://search.cpan.org/~mlehmann/String-Similarity-1.02/Similarity.pm

- Fagzal
Post by Dániel Vásárhelyi
Hello,
Anno valamelyik spamfilter kapcsan lehetett hallani olyan hash
fuggvenyrol, aminek a kimenetebol lehetett kovetkeztetni ket file
hasonlosagi fokara. Mivel vegigkovetve e vonalat nem jutottam mashoz,
csak egy szamomra kodos matematikai formulahoz, szeretnem megkerdezni
a Nagyerdemut, hogy tud-e olyan (mar kesz) librol vagy programrol, ami
tud nyilatkozni ketto db file hasonlosagarol.
Ezer kosz,
asd
--
Dániel Vásárhelyi
http://www.nsfw.hu/ | http://www.tophost.hu/
_______________________________________________
linux++ mailing list
http://mlf2.linux.rulez.org/mailman/listinfo/linux++
Dániel Vásárhelyi
2005-11-21 13:23:26 UTC
Permalink
Post by Fagyal Csongor
http://search.cpan.org/~mlehmann/String-Similarity-1.02/Similarity.pm
Egynek jo, koszi, de igy paronkent kell osszehasonlitani mindet,
mindegyikkel... par tizezer file eseten mar 10000^2 osszehasonlitast
vegezni... Tul sok melo.
--
Dániel Vásárhelyi
http://www.nsfw.hu/ | http://www.tophost.hu/
Ke'tszeri Csaba
2005-11-22 15:37:16 UTC
Permalink
Hello!
Post by Dániel Vásárhelyi
Anno valamelyik spamfilter kapcsan lehetett hallani olyan hash
fuggvenyrol, aminek a kimenetebol lehetett kovetkeztetni ket file
hasonlosagi fokara. Mivel vegigkovetve e vonalat nem jutottam mashoz,
csak egy szamomra kodos matematikai formulahoz, szeretnem megkerdezni
a Nagyerdemut, hogy tud-e olyan (mar kesz) librol vagy programrol, ami
tud nyilatkozni ketto db file hasonlosagarol.
Csak a manualban es emlekekben kutatva:
levenshtein max 255 karakterig, visszaadja, h s1-ben hany karaktert
kell kicserelni, hogy eljuss s2-be. probaltam, hasznalhato :)
similar_text - It returns the number of matching chars in both strings.
soha nem hasznaltam.
Mindenesetre az algoritmusok nem valami olcsok, fajlok osszehasonlitasara
imho tobb okbol is alkalmatlanok.

Csak otleteles:

Ha ket file merete x%-ban elter, akkor biztos, hogy minimum x%-ban
kulonboznek :)

Ha ezen belul van, akkor lehetne f1 nehanynyor tiz bajtjat keresni
f2-ben. Ha 100 mintabol x nem talalhato meg, akkor "eleg valoszinu", hogy x%-nal nagyobb a
kulonbseg... tenyleg az alkalmazas donti el, merre fele kell elindulni, es meddig kell vizsgalni.

Ha eddig rendben vannak, akkor erdemes valami kifinomultabb modszerrel felderiteni a hasonlosagukat, pl. ugyanabban a pozicioban,
vagy ugyanannyi egymashoz kepesti tavolsagra vannak.

Csabii
Sickboy
2005-11-22 16:46:31 UTC
Permalink
Post by Ke'tszeri Csaba
Hello!
Post by Dániel Vásárhelyi
Anno valamelyik spamfilter kapcsan lehetett hallani olyan hash
fuggvenyrol, aminek a kimenetebol lehetett kovetkeztetni ket file
hasonlosagi fokara.
Szerintem ilyen jellegu algoritmusok leginkabb specifikus tartalmu
fileokra letezhetnek. Azaz attol fugg, hogy mondjuk szoveg file-okrol
van szo, vagy mondjuk kepekrol, videokrol, stb.
Teljesen mas algoritmus kell szerintem az egyes esetekben.
Mi a konkret cel?
--
.SiCk of IT.
Dániel Vásárhelyi
2005-11-22 19:25:32 UTC
Permalink
Post by Sickboy
Szerintem ilyen jellegu algoritmusok leginkabb specifikus tartalmu
fileokra letezhetnek. Azaz attol fugg, hogy mondjuk szoveg file-okrol
van szo, vagy mondjuk kepekrol, videokrol, stb.
Teljesen mas algoritmus kell szerintem az egyes esetekben.
Mi a konkret cel?
A konkret cel az, hogy a egy meglehetosen terjedelmes mintabol
egymastol kulonbozo uzeneteket talaljak, ezeket kiszurjem, vagy a
hasonloakat csoportositsam, es minden mintacsoportbol csak egyetlen
levellel tamogassam ala a bayes filtert.

Ezert kene, a levelek alapja sima text.

asd

--
Dániel Vásárhelyi
http://www.nsfw.hu/ | http://www.tophost.hu/
KORN Andras
2005-11-22 19:29:40 UTC
Permalink
Post by Dániel Vásárhelyi
A konkret cel az, hogy a egy meglehetosen terjedelmes mintabol
egymastol kulonbozo uzeneteket talaljak, ezeket kiszurjem, vagy a
hasonloakat csoportositsam, es minden mintacsoportbol csak egyetlen
levellel tamogassam ala a bayes filtert.
Erre szerintem nem rossz megkozelites, ha hisztogramot csinalsz a levelekben
talalhato szavakbol. A hisztogramok osszehasonlitasa ugyan szinten nem
kezenfekvo, de azert konnyebbnek erzem az eredeti feladatnal...

Guy
--
Andras Korn <korn at chardonnay.math.bme.hu>
<http://chardonnay.math.bme.hu/~korn/> QOTD:
Kornyezetvedelmi kapcsolo: freon, freoff.
Dániel Vásárhelyi
2005-11-22 19:39:25 UTC
Permalink
Post by KORN Andras
Post by Dániel Vásárhelyi
A konkret cel az, hogy a egy meglehetosen terjedelmes mintabol
egymastol kulonbozo uzeneteket talaljak, ezeket kiszurjem, vagy a
hasonloakat csoportositsam, es minden mintacsoportbol csak egyetlen
levellel tamogassam ala a bayes filtert.
Erre szerintem nem rossz megkozelites, ha hisztogramot csinalsz a levelekben
talalhato szavakbol. A hisztogramok osszehasonlitasa ugyan szinten nem
kezenfekvo, de azert konnyebbnek erzem az eredeti feladatnal...
Jo lenne valami, mondjuk perl alatti lib, mert nem fogom tudni/akarni
lekodolni kedv/ido hianya miatt. Egyebkent ez tenyleg jo otlet :)

asd

--
Dániel Vásárhelyi
http://www.nsfw.hu/ | http://www.tophost.hu/
gNAT
2005-11-27 16:21:05 UTC
Permalink
Heláj!
Post by KORN Andras
Post by Dániel Vásárhelyi
A konkret cel az, hogy a egy meglehetosen terjedelmes mintabol
egymastol kulonbozo uzeneteket talaljak, ezeket kiszurjem, vagy a
hasonloakat csoportositsam, es minden mintacsoportbol csak egyetlen
levellel tamogassam ala a bayes filtert.
Erre szerintem nem rossz megkozelites, ha hisztogramot csinalsz a
levelekben talalhato szavakbol. A hisztogramok osszehasonlitasa ugyan
szinten nem kezenfekvo, de azert konnyebbnek erzem az eredeti
feladatnal...
Én első (primitív de vlszeg gyors és könyen megírható) körben
csinálnék egy mintát a szóközök ritmusáról. Pl. az előző mondat
24926526069.... és ezt keresném a többi üzenetben.

Az rsync-nek is van valamiféle stratégiája arra, hogy megállapítsa mit
kell másolnia.
--
= = Üdv, gNAT !
{0,0}
(( )) < jabber# ***@jabber.hu > -- < icq# 280757816 >
-m-m------------------------- gnat.hu kukac gmail pont com
Skip
2005-11-27 17:08:55 UTC
Permalink
Post by gNAT
Az rsync-nek is van valamiféle stratégiája arra, hogy megállapítsa mit
kell másolnia.
Utolso modositas datuma es meret? :)) Vagy checksum. man rsync
--
Udv: Skip

NAUI Course Director #36774 ---- http://www.manatus.hu
Búvártanfolyamok kezdőtől az oktatói szintekig
gNAT
2005-11-28 06:05:48 UTC
Permalink
Heláj!
Post by Skip
Post by gNAT
Az rsync-nek is van valamiféle stratégiája arra, hogy megállapítsa
mit kell másolnia.
Utolso modositas datuma es meret? :)) Vagy checksum. man rsync
Gyanítom ennél sokkal inteligensebb. Pl. ha egy .iso (ami az rsyncnek
egy nagy fájl) részben megváltozik, akkor csak a megváltozott részeket
másolja át, és ebbe még az is belefér, hogy egyes részek elcsúsznak az
álományon belül. Ezt elég nagy okosságnak tartom, tapasztaltam áldásos
hatását.
--
= = Üdv, gNAT !
{0,0}
(( )) < jabber# ***@jabber.hu > -- < icq# 280757816 >
-m-m------------------------- gnat.hu kukac gmail pont com
Dániel Vásárhelyi
2005-11-29 13:35:04 UTC
Permalink
Post by Dániel Vásárhelyi
A konkret cel az, hogy a egy meglehetosen terjedelmes mintabol
egymastol kulonbozo uzeneteket talaljak, ezeket kiszurjem, vagy a
hasonloakat csoportositsam, es minden mintacsoportbol csak egyetlen
levellel tamogassam ala a bayes filtert.
Nem megoldas, hanem kerdes: ez miert fontos?
Azaz miert baj ha egy mintacsoportbol tobbel is megtanitanad?
Ha egy csomo spamet megetetek vele, kepes iszonyatos mereture
megnovelni az adatbazisat, es hasznalhatosagi szint _ala_ csokkenteni
a spamszuro gyorsasagat.
Ezert szeretnem kiszurni az egy kaptafara keszulo keretlen leveleket,
es csak egyet megetetni abbol abbol a sok ezer hasonlo (de nem
ugyanolyan: dear Daniel, dear Gergely, dear Andras stb) tipusbol.

asd

--
Dániel Vásárhelyi
http://www.nsfw.hu/ | http://www.tophost.hu/
KELEMEN Peter
2005-11-29 13:46:45 UTC
Permalink
Post by Dániel Vásárhelyi
Ha egy csomo spamet megetetek vele, kepes iszonyatos mereture
megnovelni az adatbazisat, es hasznalhatosagi szint _ala_
csokkenteni a spamszuro gyorsasagat. Ezert szeretnem kiszurni
az egy kaptafara keszulo keretlen leveleket, es csak egyet
dear Daniel, dear Gergely, dear Andras stb) tipusbol.
“Force-feeding a Bayesian filter is never a good idea.”
Töröld az adatbázist, kezdd el tanítani a bejövő leveleken
(ez ilyen, ez olyan), majd 90% hatásfok körül már csak a
hibás döntéseit korrigáld (Training On Error, TOE). Ha pedig
nagy az adatbázis, dobd ki azokat a tokeneket, amelyek nagyon
kevésszer szerepelnek.

Fuji^
--
.+'''+. .+'''+. .+'''+. .+'''+. .+''
Kelemen Péter / \ / \ ***@cern.ch
.+' `+...+' `+...+' `+...+' `+...+'
KELEMEN Peter
2005-11-29 14:17:46 UTC
Permalink
Errol szol a thread: pontosan azert akarom kiszalalni a hasonlo
spameket, hogy a 100000 szo szerint veve kulonbozo, de (mivel
a spam termeszete olyan, hogy sok helyre kuldik ki viszonylag
keves valtoztatassal vagy egyaltalan nem valtoztatva) az
egymashoz hasonlo leveleket csoportba lehet bontani, es a
100.000 spam levelem kozul kivaghatok 99900 kopiat.
Pont ezt mondom, hogy ez a módszer nem jó. Nem a már
felhalmozott és ismert spameken kell tanítani a szűrőt, hanem
az éppen bejövőkön.

Fuji^
--
.+'''+. .+'''+. .+'''+. .+'''+. .+''
Kelemen Péter / \ / \ ***@cern.ch
.+' `+...+' `+...+' `+...+' `+...+'
Dániel Vásárhelyi
2005-11-29 14:22:13 UTC
Permalink
Post by KELEMEN Peter
Pont ezt mondom, hogy ez a módszer nem jó. Nem a már
felhalmozott és ismert spameken kell tanítani a szûrõt, hanem
az éppen bejövõkön.
Nem fogom egyenkent elolvasni azt a masodpercenkent 2-3 levelet, ami
bejon. A mostani, tulmeretezett adatbazisu (meg regen ontanulo
rendszeru) majd szepen kiosztalyozza, az utolso ket napbol kiszalalom
az egyforma leveleket, atnezem hogy jol ment-e a filter es _utana_
megetetem a bayes filterrel.

Ehhez meg mindig jo lenne a $subject.

--
Dániel Vásárhelyi
http://www.nsfw.hu/ | http://www.tophost.hu/
Dániel Vásárhelyi
2005-11-29 14:23:08 UTC
Permalink
Post by Dániel Vásárhelyi
Post by KELEMEN Peter
Pont ezt mondom, hogy ez a módszer nem jó. Nem a már
felhalmozott és ismert spameken kell tanítani a szûrõt, hanem
az éppen bejövõkön.
Nem fogom egyenkent elolvasni azt a masodpercenkent 2-3 levelet, ami
bejon. A mostani, tulmeretezett adatbazisu (meg regen ontanulo
rendszeru) majd szepen kiosztalyozza, az utolso ket napbol kiszalalom
az egyforma leveleket, atnezem hogy jol ment-e a filter es _utana_
megetetem a bayes filterrel.
Az uj bayes filterrel, aminek az adatbazisa le fogja cserelni a regit.
Bocsi, utolag visszaolvasva nem volt egyertelmu.

asd
--
Dániel Vásárhelyi
http://www.nsfw.hu/ | http://www.tophost.hu/
KELEMEN Peter
2005-11-29 14:37:40 UTC
Permalink
Post by Dániel Vásárhelyi
Az uj bayes filterrel, aminek az adatbazisa le fogja cserelni a
regit. Bocsi, utolag visszaolvasva nem volt egyertelmu.
Értem én. De nem lesz jobb hatásfoka az új adatbázisnak sem,
pont a tanítás tervezett módszeréből kifolyólag. Sorry.

Fuji^
--
.+'''+. .+'''+. .+'''+. .+'''+. .+''
Kelemen Péter / \ / \ ***@cern.ch
.+' `+...+' `+...+' `+...+' `+...+'
Dániel Vásárhelyi
2005-11-29 14:58:39 UTC
Permalink
Post by KELEMEN Peter
Post by Dániel Vásárhelyi
Az uj bayes filterrel, aminek az adatbazisa le fogja cserelni a
regit. Bocsi, utolag visszaolvasva nem volt egyertelmu.
Értem én. De nem lesz jobb hatásfoka az új adatbázisnak sem,
pont a tanítás tervezett módszerébõl kifolyólag. Sorry.
tudom, hogy mit irtal, en is a tevesztett/fel nem ismert elemekbol
akarom kesobb korrigalni a filtert, de

ad1: a mostani adatbazis akkora, hogy mindenkepp le kell cserelni
ad2: valami modon egy reprezentativ kiindulasi mintat kell krealnom az
uj bayes filternek, en egy korrigalt, kiszalalt elozo bayes kimenetre
gondoltam az elmult par napbol.

asd

--
Dániel Vásárhelyi
http://www.nsfw.hu/ | http://www.tophost.hu/
Dániel Vásárhelyi
2005-11-29 14:05:59 UTC
Permalink
"Force-feeding a Bayesian filter is never a good idea."
Töröld az adatbázist, kezdd el tanítani a bejövõ leveleken
(ez ilyen, ez olyan), majd 90% hatásfok körül már csak a
Errol szol a thread: pontosan azert akarom kiszalalni a hasonlo
spameket, hogy a 100000 szo szerint veve kulonbozo, de (mivel a spam
termeszete olyan, hogy sok helyre kuldik ki viszonylag keves
valtoztatassal vagy egyaltalan nem valtoztatva) az egymashoz hasonlo
leveleket csoportba lehet bontani, es a 100.000 spam levelem kozul
kivaghatok 99900 kopiat.

Na errol van szo kerem szepen, ide nekem azt az algoritmust, ami a
nagyjabol hasonlo szovegeket ki tudja csoportositani ;)

--
Dániel Vásárhelyi
http://www.nsfw.hu/ | http://www.tophost.hu/
SZOKOVACS Robert
2005-11-29 14:38:59 UTC
Permalink
Post by KELEMEN Peter
“Force-feeding a Bayesian filter is never a good idea.”
Töröld az adatbázist, kezdd el tanítani a bejövő leveleken
(ez ilyen, ez olyan), majd 90% hatásfok körül már csak a
hibás döntéseit korrigáld (Training On Error, TOE). Ha pedig
nagy az adatbázis, dobd ki azokat a tokeneket, amelyek nagyon
kevésszer szerepelnek.
ez hogyan tortenik?

Szo
KELEMEN Peter
2005-11-29 15:19:15 UTC
Permalink
Post by SZOKOVACS Robert
ez hogyan tortenik?
bogoutil -c 4 -m ~/.bogofilter/wordlist.db

Fuji^
--
.+'''+. .+'''+. .+'''+. .+'''+. .+''
Kelemen Péter / \ / \ ***@cern.ch
.+' `+...+' `+...+' `+...+' `+...+'
Sickboy
2005-11-29 13:09:11 UTC
Permalink
Post by Dániel Vásárhelyi
A konkret cel az, hogy a egy meglehetosen terjedelmes mintabol
egymastol kulonbozo uzeneteket talaljak, ezeket kiszurjem, vagy a
hasonloakat csoportositsam, es minden mintacsoportbol csak egyetlen
levellel tamogassam ala a bayes filtert.
Nem megoldas, hanem kerdes: ez miert fontos?
Azaz miert baj ha egy mintacsoportbol tobbel is megtanitanad?
--
.SiCk of IT.
Loading...